(1๊ฐ) MRC Intro & Python Basics
Last updated
Was this helpful?
Last updated
Was this helpful?
์ด๋ฌํ ์ง๋ฌธ์ ๋ํด ๋ต์ ์ ๋ต๋ณํ๋ ํ์ด ์ต์ข ์ฐ์นํ๊ฒ ๋๋ค!
์ด๋ฒ ์น์ ์์๋ ์ง๋ฌธ์ด ์ฃผ์ด์ง๊ณ ์ด์ ๋ํ ์ง๋ฌธ์ด ์ฃผ์ด์ก์ ๋ ๋ต์ ํ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ณธ๋ค. ์ดํ์๋ ์ง๋ฌธ์ด ๋ฐฉ๋ํ๊ฒ ์ฃผ์ด์ง๊ฑฐ๋, ์ฃผ์ด์ง์ง ์์ ๋ ๋ต์ ํ๋ ๋ชจ๋ธ์ ๋ง๋ค ๊ฒ์
1. Extractive Answer Datasets
์ง๋ฌธ์ ๋ํ ๋ต์ด ํญ์ ์ฃผ์ด์ง ์ง๋ฌธ์ ์กด์ฌํด์ผ ํ๋ค.
SQuAD, KorQuAD, NewsQA ๋ฑ์ด ์๋ค.
2. Descriptive / Narrative Answer Datasets
๋ต์ด ์ง๋ฌธ ๋ด์์ ์ถ์ถํ๋ ๊ฒ์ด ์๋๋ผ ์ง๋ฌธ์ ๋ณด๊ณ ์์ฑ๋ ํํ
MS MARCO, Narrative QA
3. Multiple-choice Datasets
์ง์์ ๋ํ ๋ต์ ์ฌ๋ฌ ๊ฐ์ answer candidates ์ค ํ๋๋ก ๊ณ ๋ฅด๋ ํํ
MCTest
๋ง์ ์ฐ๊ตฌ๊ฐ ์์๋๋ฉด์ 18๋ ๋ ๋ถํฐ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ด ๊ณต๊ฐ๋๊ธฐ ์์ํ๋ค.
MRC์์ ์ด๋ ค์ด ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ชจ๋ธ ์ ์ฅ์์๋ P1์ ๋ํ ๋ต๋ณ์ ์ฐพ๊ธฐ๊ฐ ์ฝ์ง๋ง P2์ ๋ํ ๋ต๋ณ์ ํ๊ธฐ ์ด๋ ต๋ค. ์๋ํ๋ฉด ์ง๋ฌธ์ ์กด์ฌํ๋ ๋จ์ด๋ฅผ ์ง๋ฌธ์์ ์ฐพ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ
Coreference๋ ์ง์นญ๋๋ช ์ฌ๋ฅผ ์๋ฏธํ๋ค. ๋ฌธ์ฅ ๋ด์์ ๊ทธ๊ฒ, ์ ๊ฒ์ด ์๋ฏธํ๋ ๋ฐ๋ฅผ ์์์ผ ์ดํดํ ์ ์๋ค.
๋ํ, ์ง๋ฌธ๋ด์ ๋ต๋ณ์ด ์กด์ฌํ์ง ์๋ ๊ฒ๋ MRC์ Challenge ์ด๋ค.
์ค์ ๋ก ์ง๋ฌธ์์๋ ๋ต์ ์ฐพ์ ์ ์์ง๋ง, ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ ๋์ผํ๊ฑฐ๋ ์ ์ฌํ๊ฒ ์กด์ฌํ๋ ๋จ์ด๋ค ๋๋ฌธ์ ๋ชจ๋ธ์ด ํท๊ฐ๋ คํ๋ค.
๋ชจ๋ธ์ด ๋ต๋ณ ๋ชจ๋ฅด๊ฒ ๋ค๊ณ ํ๋ ๊ฒ์ด ๋ ์ข์ ๋ต๋ณ์ผ ๊ฒ์ด๋ค.
๋ง์ง๋ง์ผ๋ก, ์ฌ๋ฌ ๊ฐ์ ๋ฌธ์๋ฅผ ํ๋ฒ์ ์ฐธ์กฐํด์ผ๋ง ๋ต์ ๋ผ ์ ์๋ ๊ฒฝ์ฐ์ด๋ค.
์ ๋ฌธ์ ์ ๋ต์ ์ธ ๋ฌธ์๋ฅผ ๋ชจ๋ ๋ณด์ง ์์ผ๋ฉด ๋งํ ์ ์๋ค.
EM์ ๊ฒฝ์ฐ์๋ ๋จ์ด๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ๋ ์ ์๋ฅผ ์์ ๋ชป๋ฐ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด F1 Score๋ฅผ ์ฌ์ฉํ๊ฒ ๋์๋ค.
Description answer dataset๊ณผ ๊ฐ์ ๊ฒฝ์ฐ ์ ํํ ๋ต์ ์ฐพ๊ธฐ๊ฐ ์ด๋ ต๋ค. ๊ทธ๋ ๋ค ๋ณด๋ ๋๋ถ๋ถ 0์ ์ ์ป๊ฒ ๋๋ค.
F1์ ๋จ์ด์ Overlap๋ง ๋ณด๋ค๋ณด๋, ์ค์ ์์ฑ๋ ๋ฌธ์ฅ์ด ์ธ์ด์ ์ผ๋ก ์ด์ํ ์ ์๋ค. ๊ทธ๋์ ์ด๋ฌํ ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด BLEU๋ ROUGE-L์ ๋ง์ด ์ฌ์ฉํ๋ค.
ROUGE-L์ ์์ธกํ ๊ฐ๊ณผ Grount-Truth, GT ์ฌ์ด์ overlap์ ๋ณด๊ธด ํ์ง๋ง, ์ด overlap์ ๋ณผ ๋ ๋จ์ด๋ง๋ค ๋ณด๋๊ฒ๋ฟ๋ง ์๋๋ผ, ์ค์ฝ์ด์ ์ ์์ ๋ฐ๋ฅธ n-gram์ผ๋ก ์ฌ๋ฌ ๊ฐ์ ๋จ์ด๊ฐ ๊ฒน์น๋์ง๋ฅผ LCS๋ผ๋ ๊ฐ๋ ์ผ๋ก ์ฐพ๊ฒ๋๋ค.
BLEU ์ญ์ n-gram์ ๋น๊ตํด์ n-gram๋ผ๋ฆฌ ๊ฒน์น๋ ๋น์จ์ ๊ณ์ฐํ๋ค.
n์ด ์ฆ๊ฐํ ์๋ก ๊ฒน์น๊ธฐ๋ ์ฝ์ง ์์ผ๋ฏ๋ก ์ ์๊ฐ ๋ฎ์์ง๊ฒ๋๋ค.
ํ์ํ ๋ ๋ง๋ค ๋ฐ์ดํธ๋ฅผ ์ถ๊ฐ ํ ๋นํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
ํ๋ ๋ฌธ์์ ๋๋ถ๋ถ์ ํํํ ์ ์๋ค.
python2์ python3๋ ์ ๋์ฝ๋๋ฅผ ๋ค๋ฃจ๋ ๋ฒ์ด ๋ค๋ฃจ๋ฏ๋ก ์ด๋ฅผ ์ ์ํด์ผ ํ๋ค.
ํ๊ตญ์ด๋ ํ์ ๋ค์์ผ๋ก ์ ๋์ฝ๋์์ ๋ง์ ์ฝ๋๋ฅผ ์ฐจ์งํ๊ณ ์๋ค. ์๋ํ๋ฉด, ์๋ชจ๋ง์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ ์๋ชจ ์กฐํฉ์ผ๋ก ๋ํ๋ผ ์ ์๋ ๋ชจ๋ ์์ฑํ ํ๊ธ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋, ํ๊ธ์ ์์ฑํ๊ณผ ์กฐํฉํ์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
๋ด๋ถ์ ์ผ๋ก ๋ค๋ฅด๊ฒ ๊ตฌ์ฑ์ด ๋์ด์๊ธฐ ๋๋ฌธ์ ์กฐํฉํ์ ๊ฒฝ์ฐ ๊ธธ์ด๊ฐ 2์ด๊ณ ์์ฑํ์ ๊ฒฝ์ฐ ๊ธธ์ด๊ฐ 1์ด๋ค. ๋์ผ๋ก๋ ํ๋จํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ len
๊ฐ์ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
์์ ์๋ Regular Expression๊ณผ ๊ฐ์ด ์ฌ๋์ด ์ง์ ๊ณ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ํ ํฌ๋์ด์ง์ ํ์ง๋ง ์ธ๊ฐ์ ์์๊ณผ ์ปดํจํฐ์ ์๊ฐ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์์ฐ์ค๋ฌ์ด BPE๋ Subword ํ ํฌ๋์ด์ง ๋ฐฉ๋ฒ์ด ์์ฆ์ ์ฃผ๋ฅผ ์ด๋ฃจ๊ณ ์๋ค.
์ด๋ฐ ๊ตญ๋ด ๋ฐ์ดํฐ์ ์ด ์กด์ฌํ๋ฉด, ๊ฐ๊ด์ ์ธ ์ฐ๊ตฌ๊ฒฐ๊ณผ ๋๊ธฐํ๊ฐ ๊ฐ๋ฅํด์ง๋ค๋ ์ฅ์ ์ด ๋ค.
KorQuAD ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๋ฉด ๋ค๋ฅธ ๋ฐ์ดํฐ๋ค๋ ๋งค์ฐ ์ฝ๊ฒ ๋ถ๋ฌ์ฌ ์ ์๋ค.
answer_start๊ฐ ์๋ ์ด์ ๋ ์ค์ ๋ก ๋ชจ๋ธ์ด ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ ์ ์ถํ ์์น๋ฅผ ๋ช ์ํด์ฃผ๊ธฐ ์ํจ์ด๋ค. ๋์ผํ ๋จ์ด๊ฐ ์กด์ฌํ๋๋ผ๋ ํด๋น ๋จ์ด์ ์์น์ ๋ฐ๋ผ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ด ๋ ์๋ ์๊ณ ๋์ง ๋ชปํ ์๋ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ช ์ํ๋ค. ์ซ์๊ฐ ์ฃผ์ด์ง๋ ๊ฒฝ์ฐ๋ฅผ strong supervision, ์ฃผ์ด์ง์ง ์๋ ๊ฒฝ์ฐ๋ฅผ distant supervision ์ด๋ผ๊ณ ํ ์ ์๋ค.
์ค์ ๋ก ๋ฐ์ดํฐ๋ฅผ ์ถ๋ ฅํ๋ dictionary ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ์ป๊ฒ ๋๋ค.
๋ค๋ง validation์ด๋ test์์๋ ๊ตํฅ๊ณก๋ง์ด ๋ต์ด ์๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ด ๋ฐ์ดํฐ์์๋ text์ ๊ธธ์ด๊ฐ ํ๋ ์ด์์ผ ์ ์๋ค.
์ง๋ฌธ ์ ํ
๋ต๋ณ ์ ํ