(1강) MRC Intro & Python Basics

Course Objective

이러한 질문에 대해 답을 잘 답변하는 팀이 최종 우승하게 된다!

이번 섹션에서는 지문이 주어지고 이에 대한 질문이 주어졌을 때 답을 하는 모델을 만들어본다. 이후에는 지문이 방대하게 주어지거나, 주어지지 않을 때 답을 하는 모델을 만들 것임

1. Extractive Answer Datasets

2. Descriptive / Narrative Answer Datasets

3. Multiple-choice Datasets

MRC에서 어려운 점은 다음과 같다.

또한, 지문내에 답변이 존재하지 않는 것도 MRC의 Challenge 이다.

마지막으로, 여러 개의 문서를 한번에 참조해야만 답을 낼 수 있는 경우이다.

Description answer dataset과 같은 경우 정확한 답을 찾기가 어렵다. 그렇다 보니 대부분 0점을 얻게 된다.
F1은 단어의 Overlap만 보다보니, 실제 완성된 문장이 언어적으로 어색할 수 있다. 그래서 이러한 점을 개선하기 위해 BLEU나 ROUGE-L을 많이 사용한다.
ROUGE-L은 예측한 값과 Grount-Truth, GT 사이에 overlap을 보긴 하지만, 이 overlap을 볼 때 단어마다 보는것뿐만 아니라, 스코어의 정의에 따른 n-gram으로 여러 개의 단어가 겹치는지를 LCS라는 개념으로 찾게된다.
BLEU 역시 n-gram을 비교해서 n-gram끼리 겹치는 비율을 계산한다.
- n이 증가할수록 겹치기는 쉽지 않으므로 점수가 낮아지게된다.

python2와 python3는 유니코드를 다루는 법이 다루므로 이를 유의해야 한다.

한국어는 한자 다음으로 유니코드에서 많은 코드를 차지하고 있다. 왜냐하면, 자모만을 사용하는 것이 아니라 자모 조합으로 나타낼 수 있는 모든 완성형 한글을 사용하기 때문이다. 이 때, 한글은 완성형과 조합형으로 나타낼 수 있다.
내부적으로 다르게 구성이 되어있기 때문에 조합형의 경우 길이가 2이고 완성형의 경우 길이가 1이다. 눈으로는 판단하기가 어렵기 때문에 len 같은 함수를 사용한다.

예전에는 Regular Expression과 같이 사람이 직접 고안한 방법으로 토크나이징을 했지만 인간의 상식과 컴퓨터의 생각이 다르기 때문에 자연스러운 BPE나 Subword 토크나이징 방법이 요즘은 주를 이루고 있다.

KorQuAD 데이터 수집 과정은 다음과 같다.

from datasets import load_dataset
dataset = load_dataset('squad_kor_v1', split='train')

answer_start가 있는 이유는 실제로 모델이 질문에 대한 답변을 유추한 위치를 명시해주기 위함이다. 동일한 단어가 존재하더라도 해당 단어의 위치에 따라 질문에 대한 답변이 될 수도 있고 되지 못할 수도 있기 때문에 이를 구체적으로 명시한다. 숫자가 주어지는 경우를 strong supervision, 주어지지 않는 경우를 distant supervision 이라고 할 수 있다.

실제로 데이터를 출력하는 dictionary 형태로 데이터를 얻게 된다.

질문 유형

답변 유형

Last updated 4 years ago

Was this helpful?