๐Ÿšดโ€โ™‚๏ธ
TIL
  • MAIN
  • : TIL?
  • : WIL
  • : Plan
  • : Retrospective
    • 21Y
      • Wait a moment!
      • 9M 2W
      • 9M1W
      • 8M4W
      • 8M3W
      • 8M2W
      • 8M1W
      • 7M4W
      • 7M3W
      • 7M2W
      • 7M1W
      • 6M5W
      • 1H
    • ์ƒˆ์‚ฌ๋žŒ ๋˜๊ธฐ ํ”„๋กœ์ ํŠธ
      • 2ํšŒ์ฐจ
      • 1ํšŒ์ฐจ
  • TIL : ML
    • Paper Analysis
      • BERT
      • Transformer
    • Boostcamp 2st
      • [S]Data Viz
        • (4-3) Seaborn ์‹ฌํ™”
        • (4-2) Seaborn ๊ธฐ์ดˆ
        • (4-1) Seaborn ์†Œ๊ฐœ
        • (3-4) More Tips
        • (3-3) Facet ์‚ฌ์šฉํ•˜๊ธฐ
        • (3-2) Color ์‚ฌ์šฉํ•˜๊ธฐ
        • (3-1) Text ์‚ฌ์šฉํ•˜๊ธฐ
        • (2-3) Scatter Plot ์‚ฌ์šฉํ•˜๊ธฐ
        • (2-2) Line Plot ์‚ฌ์šฉํ•˜๊ธฐ
        • (2-1) Bar Plot ์‚ฌ์šฉํ•˜๊ธฐ
        • (1-3) Python๊ณผ Matplotlib
        • (1-2) ์‹œ๊ฐํ™”์˜ ์š”์†Œ
        • (1-1) Welcome to Visualization (OT)
      • [P]MRC
        • (2๊ฐ•) Extraction-based MRC
        • (1๊ฐ•) MRC Intro & Python Basics
      • [P]KLUE
        • (5๊ฐ•) BERT ๊ธฐ๋ฐ˜ ๋‹จ์ผ ๋ฌธ์žฅ ๋ถ„๋ฅ˜ ๋ชจ๋ธ ํ•™์Šต
        • (4๊ฐ•) ํ•œ๊ตญ์–ด BERT ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต
        • [NLP] ๋ฌธ์žฅ ๋‚ด ๊ฐœ์ฒด๊ฐ„ ๊ด€๊ณ„ ์ถ”์ถœ
        • (3๊ฐ•) BERT ์–ธ์–ด๋ชจ๋ธ ์†Œ๊ฐœ
        • (2๊ฐ•) ์ž์—ฐ์–ด์˜ ์ „์ฒ˜๋ฆฌ
        • (1๊ฐ•) ์ธ๊ณต์ง€๋Šฅ๊ณผ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ
      • [U]Stage-CV
      • [U]Stage-NLP
        • 7W Retrospective
        • (10๊ฐ•) Advanced Self-supervised Pre-training Models
        • (09๊ฐ•) Self-supervised Pre-training Models
        • (08๊ฐ•) Transformer (2)
        • (07๊ฐ•) Transformer (1)
        • 6W Retrospective
        • (06๊ฐ•) Beam Search and BLEU score
        • (05๊ฐ•) Sequence to Sequence with Attention
        • (04๊ฐ•) LSTM and GRU
        • (03๊ฐ•) Recurrent Neural Network and Language Modeling
        • (02๊ฐ•) Word Embedding
        • (01๊ฐ•) Intro to NLP, Bag-of-Words
        • [ํ•„์ˆ˜ ๊ณผ์ œ 4] Preprocessing for NMT Model
        • [ํ•„์ˆ˜ ๊ณผ์ œ 3] Subword-level Language Model
        • [ํ•„์ˆ˜ ๊ณผ์ œ2] RNN-based Language Model
        • [์„ ํƒ ๊ณผ์ œ] BERT Fine-tuning with transformers
        • [ํ•„์ˆ˜ ๊ณผ์ œ] Data Preprocessing
      • Mask Wear Image Classification
        • 5W Retrospective
        • Report_Level1_6
        • Performance | Review
        • DAY 11 : HardVoting | MultiLabelClassification
        • DAY 10 : Cutmix
        • DAY 9 : Loss Function
        • DAY 8 : Baseline
        • DAY 7 : Class Imbalance | Stratification
        • DAY 6 : Error Fix
        • DAY 5 : Facenet | Save
        • DAY 4 : VIT | F1_Loss | LrScheduler
        • DAY 3 : DataSet/Lodaer | EfficientNet
        • DAY 2 : Labeling
        • DAY 1 : EDA
        • 2_EDA Analysis
      • [P]Stage-1
        • 4W Retrospective
        • (10๊ฐ•) Experiment Toolkits & Tips
        • (9๊ฐ•) Ensemble
        • (8๊ฐ•) Training & Inference 2
        • (7๊ฐ•) Training & Inference 1
        • (6๊ฐ•) Model 2
        • (5๊ฐ•) Model 1
        • (4๊ฐ•) Data Generation
        • (3๊ฐ•) Dataset
        • (2๊ฐ•) Image Classification & EDA
        • (1๊ฐ•) Competition with AI Stages!
      • [U]Stage-3
        • 3W Retrospective
        • PyTorch
          • (10๊ฐ•) PyTorch Troubleshooting
          • (09๊ฐ•) Hyperparameter Tuning
          • (08๊ฐ•) Multi-GPU ํ•™์Šต
          • (07๊ฐ•) Monitoring tools for PyTorch
          • (06๊ฐ•) ๋ชจ๋ธ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ
          • (05๊ฐ•) Dataset & Dataloader
          • (04๊ฐ•) AutoGrad & Optimizer
          • (03๊ฐ•) PyTorch ํ”„๋กœ์ ํŠธ ๊ตฌ์กฐ ์ดํ•ดํ•˜๊ธฐ
          • (02๊ฐ•) PyTorch Basics
          • (01๊ฐ•) Introduction to PyTorch
      • [U]Stage-2
        • 2W Retrospective
        • DL Basic
          • (10๊ฐ•) Generative Models 2
          • (09๊ฐ•) Generative Models 1
          • (08๊ฐ•) Sequential Models - Transformer
          • (07๊ฐ•) Sequential Models - RNN
          • (06๊ฐ•) Computer Vision Applications
          • (05๊ฐ•) Modern CNN - 1x1 convolution์˜ ์ค‘์š”์„ฑ
          • (04๊ฐ•) Convolution์€ ๋ฌด์—‡์ธ๊ฐ€?
          • (03๊ฐ•) Optimization
          • (02๊ฐ•) ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ - MLP (Multi-Layer Perceptron)
          • (01๊ฐ•) ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ณธ ์šฉ์–ด ์„ค๋ช… - Historical Review
        • Assignment
          • [ํ•„์ˆ˜ ๊ณผ์ œ] Multi-headed Attention Assignment
          • [ํ•„์ˆ˜ ๊ณผ์ œ] LSTM Assignment
          • [ํ•„์ˆ˜ ๊ณผ์ œ] CNN Assignment
          • [ํ•„์ˆ˜ ๊ณผ์ œ] Optimization Assignment
          • [ํ•„์ˆ˜ ๊ณผ์ œ] MLP Assignment
      • [U]Stage-1
        • 1W Retrospective
        • AI Math
          • (AI Math 10๊ฐ•) RNN ์ฒซ๊ฑธ์Œ
          • (AI Math 9๊ฐ•) CNN ์ฒซ๊ฑธ์Œ
          • (AI Math 8๊ฐ•) ๋ฒ ์ด์ฆˆ ํ†ต๊ณ„ํ•™ ๋ง›๋ณด๊ธฐ
          • (AI Math 7๊ฐ•) ํ†ต๊ณ„ํ•™ ๋ง›๋ณด๊ธฐ
          • (AI Math 6๊ฐ•) ํ™•๋ฅ ๋ก  ๋ง›๋ณด๊ธฐ
          • (AI Math 5๊ฐ•) ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต๋ฐฉ๋ฒ• ์ดํ•ดํ•˜๊ธฐ
          • (AI Math 4๊ฐ•) ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• - ๋งค์šด๋ง›
          • (AI Math 3๊ฐ•) ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• - ์ˆœํ•œ๋ง›
          • (AI Math 2๊ฐ•) ํ–‰๋ ฌ์ด ๋ญ์˜ˆ์š”?
          • (AI Math 1๊ฐ•) ๋ฒกํ„ฐ๊ฐ€ ๋ญ์˜ˆ์š”?
        • Python
          • (Python 7-2๊ฐ•) pandas II
          • (Python 7-1๊ฐ•) pandas I
          • (Python 6๊ฐ•) numpy
          • (Python 5-2๊ฐ•) Python data handling
          • (Python 5-1๊ฐ•) File / Exception / Log Handling
          • (Python 4-2๊ฐ•) Module and Project
          • (Python 4-1๊ฐ•) Python Object Oriented Programming
          • (Python 3-2๊ฐ•) Pythonic code
          • (Python 3-1๊ฐ•) Python Data Structure
          • (Python 2-4๊ฐ•) String and advanced function concept
          • (Python 2-3๊ฐ•) Conditionals and Loops
          • (Python 2-2๊ฐ•) Function and Console I/O
          • (Python 2-1๊ฐ•) Variables
          • (Python 1-3๊ฐ•) ํŒŒ์ด์ฌ ์ฝ”๋”ฉ ํ™˜๊ฒฝ
          • (Python 1-2๊ฐ•) ํŒŒ์ด์ฌ ๊ฐœ์š”
          • (Python 1-1๊ฐ•) Basic computer class for newbies
        • Assignment
          • [์„ ํƒ ๊ณผ์ œ 3] Maximum Likelihood Estimate
          • [์„ ํƒ ๊ณผ์ œ 2] Backpropagation
          • [์„ ํƒ ๊ณผ์ œ 1] Gradient Descent
          • [ํ•„์ˆ˜ ๊ณผ์ œ 5] Morsecode
          • [ํ•„์ˆ˜ ๊ณผ์ œ 4] Baseball
          • [ํ•„์ˆ˜ ๊ณผ์ œ 3] Text Processing 2
          • [ํ•„์ˆ˜ ๊ณผ์ œ 2] Text Processing 1
          • [ํ•„์ˆ˜ ๊ณผ์ œ 1] Basic Math
    • ๋”ฅ๋Ÿฌ๋‹ CNN ์™„๋ฒฝ ๊ฐ€์ด๋“œ - Fundamental ํŽธ
      • ์ข…ํ•ฉ ์‹ค์Šต 2 - ์บ๊ธ€ Plant Pathology(๋‚˜๋ฌด์žŽ ๋ณ‘ ์ง„๋‹จ) ๊ฒฝ์—ฐ ๋Œ€ํšŒ
      • ์ข…ํ•ฉ ์‹ค์Šต 1 - 120์ข…์˜ Dog Breed Identification ๋ชจ๋ธ ์ตœ์ ํ™”
      • ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์˜ ๋ฏธ์„ธ ์กฐ์ • ํ•™์Šต๊ณผ ๋‹ค์–‘ํ•œ Learning Rate Scheduler์˜ ์ ์šฉ
      • Advanced CNN ๋ชจ๋ธ ํŒŒํ—ค์น˜๊ธฐ - ResNet ์ƒ์„ธ์™€ EfficientNet ๊ฐœ์š”
      • Advanced CNN ๋ชจ๋ธ ํŒŒํ—ค์น˜๊ธฐ - AlexNet, VGGNet, GoogLeNet
      • Albumentation์„ ์ด์šฉํ•œ Augmentation๊ธฐ๋ฒ•๊ณผ Keras Sequence ํ™œ์šฉํ•˜๊ธฐ
      • ์‚ฌ์ „ ํ›ˆ๋ จ CNN ๋ชจ๋ธ์˜ ํ™œ์šฉ๊ณผ Keras Generator ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์ดํ•ด
      • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์˜ ์ดํ•ด - Keras ImageDataGenerator ํ™œ์šฉ
      • CNN ๋ชจ๋ธ ๊ตฌํ˜„ ๋ฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ธฐ๋ณธ ๊ธฐ๋ฒ• ์ ์šฉํ•˜๊ธฐ
    • AI School 1st
    • ํ˜„์—… ์‹ค๋ฌด์ž์—๊ฒŒ ๋ฐฐ์šฐ๋Š” Kaggle ๋จธ์‹ ๋Ÿฌ๋‹ ์ž…๋ฌธ
    • ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜
  • TIL : Python & Math
    • Do It! ์žฅ๊ณ +๋ถ€ํŠธ์ŠคํŠธ๋žฉ: ํŒŒ์ด์ฌ ์›น๊ฐœ๋ฐœ์˜ ์ •์„
      • Relations - ๋‹ค๋Œ€๋‹ค ๊ด€๊ณ„
      • Relations - ๋‹ค๋Œ€์ผ ๊ด€๊ณ„
      • ํ…œํ”Œ๋ฆฟ ํŒŒ์ผ ๋ชจ๋“ˆํ™” ํ•˜๊ธฐ
      • TDD (Test Driven Development)
      • template tags & ์กฐ๊ฑด๋ฌธ
      • ์ •์  ํŒŒ์ผ(static files) & ๋ฏธ๋””์–ด ํŒŒ์ผ(media files)
      • FBV (Function Based View)์™€ CBV (Class Based View)
      • Django ์ž…๋ฌธํ•˜๊ธฐ
      • ๋ถ€ํŠธ์ŠคํŠธ๋žฉ
      • ํ”„๋ก ํŠธ์—”๋“œ ๊ธฐ์ดˆ๋‹ค์ง€๊ธฐ (HTML, CSS, JS)
      • ๋“ค์–ด๊ฐ€๊ธฐ + ํ™˜๊ฒฝ์„ค์ •
    • Algorithm
      • Programmers
        • Level1
          • ์†Œ์ˆ˜ ๋งŒ๋“ค๊ธฐ
          • ์ˆซ์ž ๋ฌธ์ž์—ด๊ณผ ์˜๋‹จ์–ด
          • ์ž์—ฐ์ˆ˜ ๋’ค์ง‘์–ด ๋ฐฐ์—ด๋กœ ๋งŒ๋“ค๊ธฐ
          • ์ •์ˆ˜ ๋‚ด๋ฆผ์ฐจ์ˆœ์œผ๋กœ ๋ฐฐ์น˜ํ•˜๊ธฐ
          • ์ •์ˆ˜ ์ œ๊ณฑ๊ทผ ํŒ๋ณ„
          • ์ œ์ผ ์ž‘์€ ์ˆ˜ ์ œ๊ฑฐํ•˜๊ธฐ
          • ์ง์‚ฌ๊ฐํ˜• ๋ณ„์ฐ๊ธฐ
          • ์ง์ˆ˜์™€ ํ™€์ˆ˜
          • ์ฒด์œก๋ณต
          • ์ตœ๋Œ€๊ณต์•ฝ์ˆ˜์™€ ์ตœ์†Œ๊ณต๋ฐฐ์ˆ˜
          • ์ฝœ๋ผ์ธ  ์ถ”์ธก
          • ํฌ๋ ˆ์ธ ์ธํ˜•๋ฝ‘๊ธฐ ๊ฒŒ์ž„
          • ํ‚คํŒจ๋“œ ๋ˆ„๋ฅด๊ธฐ
          • ํ‰๊ท  ๊ตฌํ•˜๊ธฐ
          • ํฐ์ผ“๋ชฌ
          • ํ•˜์ƒค๋“œ ์ˆ˜
          • ํ•ธ๋“œํฐ ๋ฒˆํ˜ธ ๊ฐ€๋ฆฌ๊ธฐ
          • ํ–‰๋ ฌ์˜ ๋ง์…ˆ
        • Level2
          • ์ˆซ์ž์˜ ํ‘œํ˜„
          • ์ˆœ์œ„ ๊ฒ€์ƒ‰
          • ์ˆ˜์‹ ์ตœ๋Œ€ํ™”
          • ์†Œ์ˆ˜ ์ฐพ๊ธฐ
          • ์†Œ์ˆ˜ ๋งŒ๋“ค๊ธฐ
          • ์‚ผ๊ฐ ๋‹ฌํŒฝ์ด
          • ๋ฌธ์ž์—ด ์••์ถ•
          • ๋ฉ”๋‰ด ๋ฆฌ๋‰ด์–ผ
          • ๋” ๋งต๊ฒŒ
          • ๋•…๋”ฐ๋จน๊ธฐ
          • ๋ฉ€์ฉกํ•œ ์‚ฌ๊ฐํ˜•
          • ๊ด„ํ˜ธ ํšŒ์ „ํ•˜๊ธฐ
          • ๊ด„ํ˜ธ ๋ณ€ํ™˜
          • ๊ตฌ๋ช…๋ณดํŠธ
          • ๊ธฐ๋Šฅ ๊ฐœ๋ฐœ
          • ๋‰ด์Šค ํด๋Ÿฌ์Šคํ„ฐ๋ง
          • ๋‹ค๋ฆฌ๋ฅผ ์ง€๋‚˜๋Š” ํŠธ๋Ÿญ
          • ๋‹ค์Œ ํฐ ์ˆซ์ž
          • ๊ฒŒ์ž„ ๋งต ์ตœ๋‹จ๊ฑฐ๋ฆฌ
          • ๊ฑฐ๋ฆฌ๋‘๊ธฐ ํ™•์ธํ•˜๊ธฐ
          • ๊ฐ€์žฅ ํฐ ์ •์‚ฌ๊ฐํ˜• ์ฐพ๊ธฐ
          • H-Index
          • JadenCase ๋ฌธ์ž์—ด ๋งŒ๋“ค๊ธฐ
          • N๊ฐœ์˜ ์ตœ์†Œ๊ณต๋ฐฐ์ˆ˜
          • N์ง„์ˆ˜ ๊ฒŒ์ž„
          • ๊ฐ€์žฅ ํฐ ์ˆ˜
          • 124 ๋‚˜๋ผ์˜ ์ˆซ์ž
          • 2๊ฐœ ์ดํ•˜๋กœ ๋‹ค๋ฅธ ๋น„ํŠธ
          • [3์ฐจ] ํŒŒ์ผ๋ช… ์ •๋ ฌ
          • [3์ฐจ] ์••์ถ•
          • ์ค„ ์„œ๋Š” ๋ฐฉ๋ฒ•
          • [3์ฐจ] ๋ฐฉ๊ธˆ ๊ทธ๊ณก
          • ๊ฑฐ๋ฆฌ๋‘๊ธฐ ํ™•์ธํ•˜๊ธฐ
        • Level3
          • ๋งค์นญ ์ ์ˆ˜
          • ์™ธ๋ฒฝ ์ ๊ฒ€
          • ๊ธฐ์ง€๊ตญ ์„ค์น˜
          • ์ˆซ์ž ๊ฒŒ์ž„
          • 110 ์˜ฎ๊ธฐ๊ธฐ
          • ๊ด‘๊ณ  ์ œ๊ฑฐ
          • ๊ธธ ์ฐพ๊ธฐ ๊ฒŒ์ž„
          • ์…”ํ‹€๋ฒ„์Šค
          • ๋‹จ์†์นด๋ฉ”๋ผ
          • ํ‘œ ํŽธ์ง‘
          • N-Queen
          • ์ง•๊ฒ€๋‹ค๋ฆฌ ๊ฑด๋„ˆ๊ธฐ
          • ์ตœ๊ณ ์˜ ์ง‘ํ•ฉ
          • ํ•ฉ์Šน ํƒ์‹œ ์š”๊ธˆ
          • ๊ฑฐ์Šค๋ฆ„๋ˆ
          • ํ•˜๋…ธ์ด์˜ ํƒ‘
          • ๋ฉ€๋ฆฌ ๋›ฐ๊ธฐ
          • ๋ชจ๋‘ 0์œผ๋กœ ๋งŒ๋“ค๊ธฐ
        • Level4
    • Head First Python
    • ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ SQL
    • ๋‹จ ๋‘ ์žฅ์˜ ๋ฌธ์„œ๋กœ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ์‹œ๊ฐํ™” ๋ฝ€๊ฐœ๊ธฐ
    • Linear Algebra(Khan Academy)
    • ์ธ๊ณต์ง€๋Šฅ์„ ์œ„ํ•œ ์„ ํ˜•๋Œ€์ˆ˜
    • Statistics110
  • TIL : etc
    • [๋”ฐ๋ฐฐ๋Ÿฐ] Kubernetes
    • [๋”ฐ๋ฐฐ๋Ÿฐ] Docker
      • 2. ๋„์ปค ์„ค์น˜ ์‹ค์Šต 1 - ํ•™์ŠตํŽธ(์ค€๋น„๋ฌผ/์‹ค์Šต ์œ ํ˜• ์†Œ๊ฐœ)
      • 1. ์ปจํ…Œ์ด๋„ˆ์™€ ๋„์ปค์˜ ์ดํ•ด - ์ปจํ…Œ์ด๋„ˆ๋ฅผ ์“ฐ๋Š”์ด์œ  / ์ผ๋ฐ˜ํ”„๋กœ๊ทธ๋žจ๊ณผ ์ปจํ…Œ์ด๋„ˆํ”„๋กœ๊ทธ๋žจ์˜ ์ฐจ์ด์ 
      • 0. ๋“œ๋””์–ด ์ฐพ์•„์˜จ Docker ๊ฐ•์˜! ์™•์ดˆ๋ณด์—์„œ ๋„์ปค ๋งˆ์Šคํ„ฐ๋กœ - OT
    • CoinTrading
      • [๊ฐ€์ƒ ํ™”ํ ์ž๋™ ๋งค๋งค ํ”„๋กœ๊ทธ๋žจ] ๋ฐฑํ…Œ์ŠคํŒ… : ๊ฐ„๋‹จํ•œ ํ…Œ์ŠคํŒ…
    • Gatsby
      • 01 ๊นƒ๋ถ ํฌ๊ธฐ ์„ ์–ธ
  • TIL : Project
    • Mask Wear Image Classification
    • Project. GARIGO
  • 2021 TIL
    • CHANGED
    • JUN
      • 30 Wed
      • 29 Tue
      • 28 Mon
      • 27 Sun
      • 26 Sat
      • 25 Fri
      • 24 Thu
      • 23 Wed
      • 22 Tue
      • 21 Mon
      • 20 Sun
      • 19 Sat
      • 18 Fri
      • 17 Thu
      • 16 Wed
      • 15 Tue
      • 14 Mon
      • 13 Sun
      • 12 Sat
      • 11 Fri
      • 10 Thu
      • 9 Wed
      • 8 Tue
      • 7 Mon
      • 6 Sun
      • 5 Sat
      • 4 Fri
      • 3 Thu
      • 2 Wed
      • 1 Tue
    • MAY
      • 31 Mon
      • 30 Sun
      • 29 Sat
      • 28 Fri
      • 27 Thu
      • 26 Wed
      • 25 Tue
      • 24 Mon
      • 23 Sun
      • 22 Sat
      • 21 Fri
      • 20 Thu
      • 19 Wed
      • 18 Tue
      • 17 Mon
      • 16 Sun
      • 15 Sat
      • 14 Fri
      • 13 Thu
      • 12 Wed
      • 11 Tue
      • 10 Mon
      • 9 Sun
      • 8 Sat
      • 7 Fri
      • 6 Thu
      • 5 Wed
      • 4 Tue
      • 3 Mon
      • 2 Sun
      • 1 Sat
    • APR
      • 30 Fri
      • 29 Thu
      • 28 Wed
      • 27 Tue
      • 26 Mon
      • 25 Sun
      • 24 Sat
      • 23 Fri
      • 22 Thu
      • 21 Wed
      • 20 Tue
      • 19 Mon
      • 18 Sun
      • 17 Sat
      • 16 Fri
      • 15 Thu
      • 14 Wed
      • 13 Tue
      • 12 Mon
      • 11 Sun
      • 10 Sat
      • 9 Fri
      • 8 Thu
      • 7 Wed
      • 6 Tue
      • 5 Mon
      • 4 Sun
      • 3 Sat
      • 2 Fri
      • 1 Thu
    • MAR
      • 31 Wed
      • 30 Tue
      • 29 Mon
      • 28 Sun
      • 27 Sat
      • 26 Fri
      • 25 Thu
      • 24 Wed
      • 23 Tue
      • 22 Mon
      • 21 Sun
      • 20 Sat
      • 19 Fri
      • 18 Thu
      • 17 Wed
      • 16 Tue
      • 15 Mon
      • 14 Sun
      • 13 Sat
      • 12 Fri
      • 11 Thu
      • 10 Wed
      • 9 Tue
      • 8 Mon
      • 7 Sun
      • 6 Sat
      • 5 Fri
      • 4 Thu
      • 3 Wed
      • 2 Tue
      • 1 Mon
    • FEB
      • 28 Sun
      • 27 Sat
      • 26 Fri
      • 25 Thu
      • 24 Wed
      • 23 Tue
      • 22 Mon
      • 21 Sun
      • 20 Sat
      • 19 Fri
      • 18 Thu
      • 17 Wed
      • 16 Tue
      • 15 Mon
      • 14 Sun
      • 13 Sat
      • 12 Fri
      • 11 Thu
      • 10 Wed
      • 9 Tue
      • 8 Mon
      • 7 Sun
      • 6 Sat
      • 5 Fri
      • 4 Thu
      • 3 Wed
      • 2 Tue
      • 1 Mon
    • JAN
      • 31 Sun
      • 30 Sat
      • 29 Fri
      • 28 Thu
      • 27 Wed
      • 26 Tue
      • 25 Mon
      • 24 Sun
      • 23 Sat
      • 22 Fri
      • 21 Thu
      • 20 Wed
      • 19 Tue
      • 18 Mon
      • 17 Sun
      • 16 Sat
      • 15 Fri
      • 14 Thu
      • 13 Wed
      • 12 Tue
      • 11 Mon
      • 10 Sun
      • 9 Sat
      • 8 Fri
      • 7 Thu
      • 6 Wed
      • 5 Tue
      • 4 Mon
      • 3 Sun
      • 2 Sat
      • 1 Fri
  • 2020 TIL
    • DEC
      • 31 Thu
      • 30 Wed
      • 29 Tue
      • 28 Mon
      • 27 Sun
      • 26 Sat
      • 25 Fri
      • 24 Thu
      • 23 Wed
      • 22 Tue
      • 21 Mon
      • 20 Sun
      • 19 Sat
      • 18 Fri
      • 17 Thu
      • 16 Wed
      • 15 Tue
      • 14 Mon
      • 13 Sun
      • 12 Sat
      • 11 Fri
      • 10 Thu
      • 9 Wed
      • 8 Tue
      • 7 Mon
      • 6 Sun
      • 5 Sat
      • 4 Fri
      • 3 Tue
      • 2 Wed
      • 1 Tue
    • NOV
      • 30 Mon
Powered by GitBook
On this page
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 2.1 Unsupervised Feature-based Approaches
  • 2.2 Unsupervised Fine-tuning Approaches
  • 2.3 Transfer Learning from Supervised Data
  • 3 BERT
  • 3.1 Pre-training BERT
  • 3.2 Fine-tuning BERT
  • 4 Experiment
  • 4.1 GLUE
  • 4.2 SQuAD v1.1
  • 4.3 SQuAD v2.0
  • 4.4 SWAG
  • 5 Ablation Studies
  • 5.1 Effect of Pre-training Tasks
  • 5.2 Effect of Model Size
  • 5.3 Feature-based Approach with BERT

Was this helpful?

  1. TIL : ML
  2. Paper Analysis

BERT

210926~

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

๋ฒ„ํŠธ์˜ ์ง์—ญ ๋ฐ ์˜์—ญ์„ ์ž‘์„ฑํ•œ๋‹ค. ์ง์—ญ๊ณผ ์˜์—ญ์ด ๋งˆ๊ตฌ๋งˆ๊ตฌ ์„ž์—ฌ์žˆ์ง€๋งŒ, ์–ด๋А ๋‹ค๋ฅธ ์ง์—ญ๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ตœ๋Œ€ํ•œ ํ•œ๊ตญ์–ด๋งŒ์˜ ๋œป์œผ๋กœ ๋…น์ด๋ ค๊ณ  ํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ representation ๊ฐ™์€ ๋‹จ์–ด๊ฐ€ "ํ‘œํ˜„", "ํŠน์ง•" ๋“ฑ์œผ๋กœ ํ•ด์„๋˜์–ด ์˜์–ด๋‹จ์–ด์— ์ต์ˆ™ํ•œ ์‚ฌ๋žŒ๋“ค์€ ์–ด์ƒ‰ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ต์ˆ™ํ•œ ์‚ฌ๋žŒ๋“ค์€ ์ง์—ญ ๋ฐ ์˜์—ญ์œผ๋กœ ์ž‘์„ฑ๋œ ์ด ๊ธ€์„ ๋ณผ ์ผ์ด ์—†์„ ๋“ฏ ํ•˜๋‹ค. ์‚ฌ์†Œํ•œ ๋ฌธ์žฅ๊นŒ์ง€๋„ ์™„๋ฒฝํžˆ ํ•ด์„ํ•˜๋ ค๊ณ  ํ–ˆ๊ณ , ๊ฐœ๋…์ด ํ•„์š”ํ•˜๊ฑฐ๋‚˜ ํ•ด์„์ด ๋ถ€์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋˜๋Š” ๋ถ€๋ถ„์—๋Š” ๋ถ€๊ฐ€ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค.

Abstract

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์–‘๋ฐฉํ–ฅ ์ธ์ฝ”๋” ํ‘œํ˜„์„ ์˜๋ฏธํ•˜๋Š”, ์ƒˆ๋กœ์šด ์–ธ์–ด ๋ชจ๋ธ ๋ฒ„ํŠธ์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•˜๊ฒ ๋‹ค. ์ตœ๊ทผ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ ๋ฒ„ํŠธ๋Š” ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ์–ธ์–ด ํ‘œํ˜„ ๋ชจ๋ธ์„ ํ•™์Šตํ–ˆ๋‹ค. ์ด๋Š” ๋ชจ๋“  ๋ ˆ์ด์–ด์˜ ์ด์ „ ๊ทธ๋ฆฌ๊ณ  ์ดํ›„ context ์ •๋ณด๋ฅผ ๊ณต๋™์œผ๋กœ ์‚ฌ์šฉํ•œ ๋ผ๋ฒจ๋ง ๋˜์ง€ ์•Š์€ ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ๋ฒ„ํŠธ๋ชจ๋ธ์€ ์งˆ์˜์‘๋‹ต์ด๋‚˜ ์–ธ์–ด ์ถ”๋ก ๋“ฑ์˜ ๊ด‘๋ฒ”์œ„ํ•œ task๋“ค์— ๋Œ€ํ•ด์„œ ์‹ค์งˆ์ ์ธ ํŠน์ • task ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์œ„ํ•œ ๋ณ€ํ˜•์—†์ด ๋‹จ ํ•˜๋‚˜์˜ ์ถ”๊ฐ€์ ์ธ output layer๋งŒ์„ ์‚ฌ์šฉํ•ด์„œ fine tuning ํ–ˆ๋”๋‹ˆ ์‹ ๊ธฐ๋ก์„ ์„ธ์šธ ์ˆ˜ ์žˆ์—ˆ๋‹ค.

๋ฒ„ํŠธ๋Š”, ๊ฐœ๋…์ ์œผ๋กœ๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ ์‹คํ—˜์ ์œผ๋กœ(=๊ฒฝํ—˜์ ์œผ๋กœ) ๋งค์šฐ ๊ฐ•๋ ฅํ•˜๋‹ค. 11๊ฐœ์˜ NLP task์— ์žˆ์–ด์„œ ์‹ ๊ธฐ๋ก์„ ๊ฐฑ์‹ ํ–ˆ๊ณ  ์ด ๋•Œ์˜ GLUE ์ ์ˆ˜๋Š” ์ตœ๊ณ  ์ ์ˆ˜์—์„œ 7.7% ์ฐจ์ด๋‚˜๋Š” 80.5%์ด๊ณ  MultiNLI ์ •ํ™•๋„๋Š” ์ตœ๊ณ  ์ ์ˆ˜์—์„œ 4.6% ์ฐจ์ด๋‚˜๋Š” 86.7%๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋˜ SQuAD v1.1 ์งˆ์˜์‘๋‹ต์—์„œ๋Š” 1.5์  ์ฐจ์ด๋‚˜๋Š” 93.2์˜ F1 Score๋ฅผ ๋‹ฌ์„ฑํ–ˆ๊ณ  SQuAD v2.0์— ๋Œ€ํ•ด์„œ๋Š” 5.1์  ์ฐจ์ด๋‚˜๋Š” 83.1์˜ F1 Score๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

1 Introduction

์—ฌ๋Ÿฌ NLP task๋ฅผ ๊ฐœ์„ ํ•˜๋Š”๋ฐ ํšจ์œจ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต ๋ฐฉ๋ฒ•์ด ์—ฌํƒœ๊นŒ์ง€ ์†Œ๊ฐœ๊ฐ€ ๋˜์—ˆ๋‹ค (Dai and Le, 2015; Peters et al., 2018a; Radford et al., 2018; Howard and Ruder, 2018). ๋˜, ์ž์—ฐ์–ด ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๋ฌธ์žฅ ๋ ˆ๋ฒจ์— ๋Œ€ํ•ด์„œ๋Š” ์ด๋Ÿฌํ•œ ๋…ผ๋ฌธ(Bowman et al., 2015; Williams et al., 2018)์—์„œ ์†Œ๊ฐœ๋˜์—ˆ๊ณ  ์ „์ฒด์ ์œผ๋กœ ๋ฌธ์žฅ์„ ๋ถ„์„ํ•˜๋ฉด์„œ ์–ป์–ด์ง€๋Š” ๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ธ ์˜์—ญ์€ ์ด ๋…ผ๋ฌธ(Dolan and Brockett, 2005)์—์„œ ์†Œ๊ฐœ๋˜์—ˆ๋‹ค. ๋˜, fine-grained ๋ฐฉ์‹์œผ๋กœ ํ† ํฐ ๋ ˆ๋ฒจ์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฐœ์ฒด๋ช… ์ธ์‹์ด๋‚˜ ์งˆ์˜์‘๋‹ต๊ณผ ๊ฐ™์€ task๋Š” ์ด ๋…ผ๋ฌธ((Tjong Kim Sang and De Meulder, 2003; Rajpurkar et al., 2016)์—์„œ ์†Œ๊ฐœ๋˜์—ˆ๋‹ค.

  • NER, Named Entity Recognition, ๊ฐœ์ฒด๋ช… ์ธ์‹์€ ์ด๋ฆ„์„ ์˜๋ฏธํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ์–ด๋–ค ์œ ํ˜•์ธ์ง€๋ฅผ ์ธ์‹ํ•˜๋Š” task์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด '์ƒ๋ฏผ์ด๋Š” 2021๋…„์—๋„ ์ž˜์ƒ๊ฒผ๋‹ค'์—์„œ ์ƒ๋ฏผ:์‚ฌ๋žŒ, 2021๋…„:์‹œ๊ฐ„ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

  • fine-grained๋ž€ ์„ธ๋ถ€์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋ถ„์„ํ•ด์•ผ ํ•˜๋Š” task๋“ค์ด ๋น„์Šทํ•œ ํŠน์ง•์„ ๊ฐ€์กŒ์„ ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค. ๋Œ€๋น„๋˜๋Š” ์˜๋ฏธ๋กœ๋Š” coarse-grained๊ฐ€ ์žˆ๋‹ค.

down stream task์— ๋Œ€ํ•ด์„œ ์–ธ์–ด ํ‘œํ˜„ ๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šตํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ์ „๋žต์ด ์žˆ๋‹ค. ๋ฐ”๋กœ feature-based ์™€ fine-tuning ์ด๋‹ค. feature-based ์ ‘๊ทผ๋ฒ•์€ ์—˜๋ชจ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ ํŠน์ • task์— ๊ธฐ๋ฐ˜ํ•œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๋ชจ๋ธ์„ pre-train ํ•  ๋•Œ ์ถ”๊ฐ€์ ์ธ ํŠน์ง•๋“ค์„ ํฌํ•จํ•˜๊ฒŒ๋œ๋‹ค. fine-tuning ์ ‘๊ทผ๋ฒ•์€ ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์‚ฌ์šฉ๋˜์—ˆ์œผ๋ฉฐ ๊ธฐ๋ณธ์ ์ธ ํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜๊ณ , ์ดํ›„์— down stream task์— ๋Œ€ํ•ด์„œ ๊ฐ„๋‹จํ•˜๊ฒŒ fine tuning ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋œ๋‹ค. ๋‘๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์€ ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ๋ฐฉํ–ฅ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” pre training์ด ์ด๋ฃจ์–ด์ง€๋Š” ๊ณผ์ •์—์„œ๋Š” ๋™์ผํ•œ ๋ชฉ์ ์„ ์ง€๋‹Œ๋‹ค.

  • down stream task๋ž€ ๊ตฌ์ฒด์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ๋“ค์„ ์˜๋ฏธํ•œ๋‹ค. ์ž์„ธํžˆ ์ด์•ผ๊ธฐํ•ด๋ณด์ž. ์ตœ๊ทผ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ถ„์•ผ์—์„œ๋Š” pre-trained ๋œ ๋ชจ๋ธ์„ fine-tuning ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด์„œ ๊ตฌ์ฒด์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”๋ฐ ์ด ๋•Œ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ๋“ค์„ down stream task๋ผ๊ณ  ์ง€์นญํ•˜๋Š” ๊ฒƒ

์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ํ…Œํฌ๋‹‰๋“ค์ด ์‚ฌ์ „ ํ•™์Šต์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ œํ•œํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ํŠนํžˆ fine-tuning์—์„œ๋Š” ๋”๋”์šฑ ์ œํ•œ๋œ๋‹ค. ์ฃผ๋œ ํ•œ๊ณ„์ ์€ ํ‘œ์ค€ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด ๋‹จ๋ฐฉํ–ฅ์ ์ด๋ผ๋Š” ๊ฒƒ์ด๊ณ  ์ด๋Š” ์‚ฌ์ „ ํ•™์Šต๋  ๋•Œ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์— ์ œํ•œ์„ ์ฃผ๊ฒŒ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด OpenAI์˜ GPT ๋ชจ๋ธ๊ฐ™์€ ๊ฒฝ์šฐ ๊ฐœ๋ฐœ์ž๋“ค์€ ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์˜ ๋ฐฉํ–ฅ์œผ๋กœ ์„ค๊ณ„๋œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ  ์ด๋Š” ํŠธ๋žœ์Šคํฌ๋จธ์ฒ˜๋Ÿผ ๋ชจ๋“  ํ† ํฐ๋“ค์ด ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ๋งŒ ์ ‘๊ทผ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. ๋ฌธ์žฅ ๋ ˆ๋ฒจ task์—์„œ ์ด๋Ÿฌํ•œ ์ œํ•œ์ด ๋‚จ์•„์žˆ์œผ๋ฉด ์ตœ์„ ์˜ ํ•ด๋‹ต์„ ๋‚ด๋†“์„ ์ˆ˜ ์—†๊ณ  ์งˆ์˜ ์‘๋‹ต๊ณผ ๊ฐ™์€ ํ† ํฐ ๋ ˆ๋ฒจ์˜ task์— ์ ์šฉ๋˜๋Š” fine tuning์—์„œ ์•ˆ์ข‹์€ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์ด ์–‘๋ฐฉํ–ฅ์ ์œผ๋กœ context ์ •๋ณด๋ฅผ ํฌํ•จํ•ด์•ผ ํ•˜๋Š” ์ค‘์š”ํ•œ ์ด์œ ์ด๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ ์šฐ๋ฆฌ๋Š” BERT๋ผ๋Š” fine tuning์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค. BERT๋Š” ์–‘๋ฐฉํ–ฅ ์ธ์ฝ”๋” ํ‘œํ˜„ from ํŠธ๋žœ์Šคํฌ๋จธ ์˜ ์•ฝ์–ด์ด๋‹ค. ๋ฒ„ํŠธ๋Š” ์ด๋Ÿฌํ•œ ๋‹จ๋ฐฉํ–ฅ์˜ masked ๋ชจ๋ธ์ด ๊ฐ€์ง€๋Š” ํ•œ๊ณ„์ ์„ (Taylor, 1953)์˜ Cloze task์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„ ์‚ฌ์šฉํ•œ MLM, masked language model ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด์„œ ์™„ํ™”์‹œํ‚จ๋‹ค. MLM์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๋ฌด์ž‘์œ„๋กœ ํ† ํฐ์„ ์ •ํ•ด์„œ ๋งˆ์Šคํ‚นํ•œ๋‹ค. ์ด๋Š” ์ฃผ๋ณ€ ๋ฌธ๋งฅ์„ ํ†ตํ•ด ๋งˆ์Šคํ‚น๋œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋ ค๋Š” ๋ชฉ์ ์„ฑ์„ ๊ฐ€์ง€๊ณ ์žˆ๋‹ค. ๊ธฐ์กด ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์˜ ๋ฐฉํ–ฅ๋งŒ์„ ๊ฐ€์ง€๊ณ  pre trainํ•˜๋Š” ๊ฒƒ๊ณผ๋Š” ๋‹ฌ๋ฆฌ MLM์˜ ๋ชฉ์ ์€ ์–‘์ชฝ์—์„œ ์–ป๋Š” ๋ฌธ๋งฅ์  ํŠน์ง•์„ ์„ž๋Š” ๊ฒƒ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ฒŒํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ ์œ„ํ•ด ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ MLM์€ "๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก" task๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ „ํ›„ ๋ฌธ์žฅ์Œ์˜ ํŠน์ง•(=representations)์„ ํ•™์Šตํ–ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ํ˜‘์—…์ž๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์—ฌ๊ธฐ์„œ fuse๋Š” blend์˜ ์˜๋ฏธ๋กœ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค.

์–ธ์–ด ํŠน์ง•์— ๋Œ€ํ•ด ์–‘๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ์„ ์ฆ๋ช…ํ–ˆ๋‹ค. ๋‹จ๋ฐฉํ–ฅ์„ ์‚ฌ์šฉํ•˜๋Š” Radford et al. (2018)์™€ ๋‹ฌ๋ฆฌ ๋ฒ„ํŠธ๋Š” MLM์„ ์‚ฌ์šฉํ•ด์„œ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์ด๋Š” ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ ๋˜๋Š” ์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ์˜ ๋ฐฉํ–ฅ์„ ๊ฐ€์ง„ LM, Language Model๋“ค์ด ๋…๋ฆฝ์ ์œผ๋กœ ์–•๊ฒŒ ์—ฐ๊ฒฐ๋œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” Peters et al. (2018a)์™€๋Š” ๋Œ€์กฐ์ ์ธ ๊ฒฐ๋ก ์ด๋‹ค.

ํŠน์ • task๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ด task๋ฅผ ์œ„ํ•œ ๊ตฌ์กฐ๋ฅผ ์–ด๋А์ •๋„ ๋งŒ์ ธ์•ผ ํ•˜๋Š”๋ฐ,(=heavily-engineered) ๋ฒ„ํŠธ๋Š” ์‚ฌ์ „ํ•™์Šต๋œ ํŠน์ง•์ด ์ด๋Ÿฐ ํ•„์š”์„ฑ์„ ์ค„์—ฌ์ค„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋ฌธ์žฅ ๋ ˆ๋ฒจ ๋˜๋Š” ํ† ํฐ ๋ ˆ๋ฒจ์— ๋Œ€ํ•œ ๋งŽ์€ task์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‚ด๊ณ ์žˆ๋Š” ๋ชจ๋ธ๋“ค์„ fintuning ํ•œ ๋ฒ„ํŠธ๋Š” ์—ฌ๋Ÿฌ task๋ฅผ ์œ„ํ•ด ํŠน์ • ๊ตฌ์กฐ๋ฅผ ํ˜•์„ฑํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค.

๋ฒ„ํŠธ๋Š” 11๊ฐœ์˜ NLP task์— ์‹ ๊ธฐ๋ก์„ ์„ธ์› ๋‹ค. ์ด ์ฝ”๋“œ์™€ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์€ https://github.com/ google-research/bert.์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

2 Related Work

๋งค์šฐ ์˜ˆ์ „๋ถ€ํ„ฐ ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šตํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋Š”๋ฐ ์ด๋ ‡๊ฒŒ ํ”ํžˆ ์‚ฌ์šฉ๋˜๋Š” ์ ‘๊ทผ๋ฒ•์— ๋Œ€ํ•ด์„œ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋‹ค๋ค„๋ณด์ž

2.1 Unsupervised Feature-based Approaches

์—ฌ๋Ÿฌ task์—์„œ ์ž‘๋™ํ•˜๋„๋ก ๋‹จ์–ด๋“ค์˜ ํŠน์ง•์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์ตœ๊ทผ ์ˆ˜์‹ญ๋…„๋™์•ˆ ํ™œ๋ฐœํ•˜๊ฒŒ ์—ฐ๊ตฌ๋œ ๋ถ„์•ผ์ด๋‹ค. ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ ๋„ (Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006)์—์„œ. ๊ทธ๋ฆฌ๊ณ  ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•ด (Mikolov et al., 2013; Pennington et al., 2014)์—์„œ ์—ฐ๊ตฌ๋˜์—ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์€ ํ†ตํ•ฉ๋œ(=๊ฑฐ์˜ ์ž„๋ฒ ๋”ฉ์„ ๋ชจ๋“  ์–ธ์–ด๋ชจ๋ธ์ด ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๋œป) NLP ์‹œ์Šคํ…œ์˜ ํ˜„๋Œ€์ ์ธ ๋ถ€๋ถ„ ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•˜๋Š”๋ฐ์— ๋‘๋“œ๋Ÿฌ์ง„ ๋ฐœ์ „์„ ๊ฐ€์ ธ์™”๋‹ค. ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์ „ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์ขŒ์šฐ๋ฐฉํ–ฅ์˜ ์–ธ์–ด๋ชจ๋ธ๋“ค์ด ์‚ฌ์šฉ๋˜์—ˆ๊ณ  (Mnih and Hinton, 2009) ์˜ฌ๋ฐ”๋ฅด์ง€ ์•Š์€ ๋‹จ์–ด๋กœ๋ถ€ํ„ฐ ์˜ฌ๋ฐ”๋ฅธ ๋‹จ์–ด๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ชฉ์ ์„ ๋‘๊ณ ๋„ ์ขŒ์šฐ๋ฐฉํ–ฅ์˜ ์–ธ์–ด๋ชจ๋ธ์ด ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. (Mikolov et al., 2013).

์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋“ค์€ ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ(Kiros et al., 2015; Logeswaran and Lee, 2018)์ด๋‚˜ ๋ฌธ๋‹จ ์ž„๋ฒ ๋”ฉ(Le and Mikolov, 2014)๊ณผ ๊ฐ™์€ ์ ์  ์„ธ๋ฐ€ํ•œ task๋“ค์— ์ผ๋ฐ˜ํ™”๋˜์–ด์™”๋‹ค. ๋ฌธ์žฅ์˜ ํŠน์ง•์„ ํ•™์Šตํ•˜๊ธฐ์œ„ํ•ด์„œ ์ด์ „์˜ ์—ฐ๊ตฌ๋“ค์€ ๋‹ค์Œ ๋ฌธ์žฅ์œผ๋กœ ์˜ฌ ํ›„๋ณด๋“ค์„ ์„ ์ •ํ•˜๊ฑฐ๋‚˜(Jernite et al., 2017; Logeswaran and Lee, 2018), ์ขŒ์šฐ ๋ฐฉํ–ฅ์˜ ์–ธ์–ด๋ชจ๋ธ๋กœ ์ด์ „ ๋ฌธ์žฅ์˜ ํŠน์ง•์„ ํ†ตํ•ด ๋‹ค์Œ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ–ˆ์œผ๋ฉฐ(Kiros et al., 2015), ์˜คํ†  ์ธ์ฝ”๋”์—์„œ ์ด๋Ÿฌํ•œ ๋ชฉ์ ์„ ์‹คํ˜„(=derived, ํŒŒ์ƒํ•˜๋‹ค)ํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค.

ELMO์™€ ELMO์˜ ์กฐ์ƒ๋ชจ๋ธ๋“ค์€ ์„œ๋กœ ๋‹ค๋ฅธ์ฐจ์›์œผ๋กœ ์ „ํ†ต์ ์ธ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜๊ณ ์ž ์—ฐ๊ตฌํ–ˆ๋‹ค. ์ด๋“ค์€ ๋ฌธ๋งฅ-๊ฐ๊ฐ์  ํŠน์ง•์„ ์ขŒ์šฐ๋ฐฉํ–ฅ ๋˜๋Š” ์šฐ์ขŒ๋ฐฉํ–ฅ์˜ ๋ชจ๋ธ์„ ํ†ตํ•ด ์–ป์œผ๋ ค๊ณ ํ–ˆ๋‹ค. ๊ฐ ํ† ํฐ์˜ ๋ฌธ๋งฅ์ ์ธ ํŠน์ง•์€ ์ขŒ์šฐ ๋˜๋Š” ์šฐ์ขŒ ๋ฐฉํ–ฅ์˜ ํŠน์ง•์˜ ์—ฐ๊ฒฐ๋กœ ๊ฒฐ์ •ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ๋งฅ์ ์ธ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์„ ๊ธฐ์กด์˜ ํŠน์ • task์—๋งŒ ์ ์šฉ๋˜๋Š” ๊ตฌ์กฐ๋“ค๊ณผ ํ†ตํ•ฉํ–ˆ์„ ๋•Œ ELMO๋Š” ํŠน์ • ์ฃผ์š” NLP task ์—์„œ ์ตœ๊ณ ์„ฑ์ ์„ ์–ป์—ˆ๋‹ค. ์งˆ์˜ ์‘๋‹ต, ๊ฐ์ • ๋ถ„์„, ๊ฐœ์ฒด๋ช… ์ธ์‹๋“ฑ์ด ์ด์— ์†ํ•œ๋‹ค. Melamud et al. (2016) ๋…ผ๋ฌธ์€ ๋ฌธ๋งฅ์ ์ธ ํŠน์ง•์„ ํ•™์Šตํ•  ๋•Œ ์–‘์ชฝ์˜ ๋ฌธ๋งฅ์œผ๋กœ ๋ถ€ํ„ฐ ํ•œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ƒํ•˜๋Š” LSTMs์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ๋‹ค. ELMO๋„ ์ด์™€ ๋น„์Šทํ–ˆ์ง€๋งŒ feature-basedํ•˜์ง€๋งŒ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ์€ ์•„๋‹ˆ์—ˆ๋‹ค. Fedus et al. (2018)๋Š” cloze task๊ฐ€ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ–ˆ๋‹ค.

  • ์ด๋ฒˆ ๋ฌธ๋‹จ์—์„œ๋Š” ๋…ผ๋ฌธ ์–ธ๊ธ‰์„ ํ•˜์ง€ ์•Š์•˜๋‹ค.

  • cloze task๋Š” 1953๋…„ Taylor ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋œ ๊ฒƒ์œผ๋กœ ํ•˜๋‚˜ ๋˜๋Š” ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋‹จ์–ด๊ฐ€ ํ•œ ๋ฌธ์žฅ์—์„œ ์ œ๊ฑฐ๋˜๊ณ  ํ•™์ƒ์ด ์ด ์ œ๊ฑฐ๋œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ์˜€๋‹ค.

2.2 Unsupervised Fine-tuning Approaches

feature-based ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•œ ์ฒซ๋ฒˆ์งธ ์—ฐ๊ตฌ๋Š” ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ๋งŒ์„ ์‚ฌ์ „ํ•™์Šตํ–ˆ๋‹ค. (Collobert and Weston, 2008).

๋งค์šฐ ์ตœ๊ทผ์—๋Š” ๋ฌธ์žฅ ๋˜๋Š” ๋ฌธ์„œ๋ฅผ ์ธ์ฝ”๋”ฉํ•  ๋•Œ ๋ฌธ๋งฅ์ ์ธ ํŠน์ง•์„ ๊ฐ€์ง„ ํ† ํฐ๋“ค์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ ์ด๊ฒƒ๋“ค์„ ๋ผ๋ฒจ๋ง๋˜์ง€ ์•Š์€ ํ…์ŠคํŠธ์—์„œ ํ•™์Šตํ•˜๊ณ  downstream task์—์„œ ์ง€๋„ํ•™์Šต์œผ๋กœ fine tuned ํ•œ๋‹ค (Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). ์ด๋Ÿฐ ์ ‘๊ทผ๋ฒ•์˜ ์žฅ์ ์€ pre trainํ•  ๋•Œ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋กœ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ. ์ด๋Ÿฐ ์žฅ์ ๋•Œ๋ฌธ์— GPT๋Š” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ ๋„ GLUE ๋ฐ์ดํ„ฐ์…‹์˜ ๋งŽ์€ task์—์„œ ์ตœ๊ณ  ์„ฑ์ ์„ ๋‚ผ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ขŒ์šฐ ๋ฐฉํ–ฅ ์–ธ์–ด๋ชจ๋ธ์ด๋‚˜ ์˜คํ†  ์ธ์ฝ”๋”๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ชจ๋ธ๋“ค์„ pre training ํ•˜๊ธฐ์œ„ํ•ด ์‚ฌ์šฉ๋˜์—ˆ๋‹ค (Howard and Ruder, 2018; Radford et al., 2018; Dai and Le, 2015).

  • objective๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•˜๋ฉด ์ข‹์„๊นŒ๊ฐ€ ๊ณ ๋ฏผ์ด๋‹ค. ์‚ฌ์‹ค ์ง์—ญํ•˜๋ฉด ๋ชฉ์  ์ •๋„์ด๊ฒ ์ง€.

  • ๋ฉ˜ํ† ๋‹˜๊ณผ ์ด์•ผ๊ธฐํ•ด๋ณธ ๊ฒฐ๊ณผ. ๋ชจ๋ธ์˜ ํฐ ํŠน์ง•์ด๋‚˜ ์กฐ๊ฑด ์ •๋„๋กœ ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค๊ณ  ํ•œ๋‹ค. LTR์ด๋‚˜ RTL ๋˜๋Š” Bidirection ๋“ฑ์˜ ๋ฐฉํ–ฅ์ ์ธ ์กฐ๊ฑด์ด๋‚˜, ๋ชจ๋ธ ๋ ˆ์ด์–ด ๋‚ด๋ถ€์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ชฉ์  ํ•จ์ˆ˜ ์ •๋„๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค

2.3 Transfer Learning from Supervised Data

์ž์—ฐ์–ด ์ถ”๋ก ์ด๋‚˜ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ๊ณผ ๊ฐ™์ด ์ง€๋„ํ•™์Šต task์˜ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ํšจ์œจ์ ์ธ ๋ฒˆ์—ญ task๋ฅผ ์œ„ํ•œ ์—ฐ๊ตฌ๋„ ์žˆ์—ˆ๋‹ค. ์ปดํ“จํ„ฐ ๋น„์ „ ์—ฐ๊ตฌ๋Š” ์‚ฌ์ „ํ•™์Šต๋œ ๋Œ€ํ˜• ๋ชจ๋ธ์˜ ์ „์ด ํ•™์Šต์˜ ์ค‘์š”์„ฑ์„ ์ฆ๋ช…ํ•ด์™”๋‹ค. ์ด๋Ÿฌํ•œ ์ฆ๋ช…์€ ์ด๋ฏธ์ง€๋„ท์„ pre trainํ•˜๊ณ  ์ด๋ฅผ fine tuningํ•˜๋Š” ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์—์„œ ์ฆ๋ช…๋˜์—ˆ๋‹ค.

3 BERT

๋ฒ„ํŠธ์™€ ๋ฒ„ํŠธ์˜ ์ž์„ธํ•œ ๊ตฌํ˜„์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•˜๊ฒ ๋‹ค. ํฐ ๊ตฌ์กฐ๋Š” ๋‘ ๊ฐ€์ง€ ๊ณผ์ •์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค. pre-training๊ณผ fine-tuning. ์‚ฌ์ „ ํ•™์Šต์‹œ์—๋Š” ์—ฌ๋Ÿฌ๊ฐ€์ง€ tasks์—์„œ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์€ unlabeled ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ๋‹ค. fint tuning์‹œ์—๋Š” ๋ฒ„ํŠธ๋Š” ์ œ์ผ๋จผ์ € ์‚ฌ์ „ํ•™์Šต๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์€ downstream task์— ๋งž์ถ”์–ด ๋ฏธ์„ธ์กฐ์ •ํ•˜๊ฒŒ๋œ๋‹ค. ๊ฐ๊ฐ์˜ task๋“ค์€ ๋˜‘๊ฐ™์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋„ ์‚ฌ์ „ํ•™์Šต๋˜์–ด ์ดˆ๊ธฐํ™”๋˜์—ˆ์„์ง€๋ผ๋„ ๊ฐ๊ฐ์˜ task๋“ค์— ๋Œ€ํ•ด์„œ ๊ฐœ๋ณ„์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Figure 1์—์„œ๋Š” ์งˆ์˜์‘๋‹ต์„ task์˜ ํ•œ ์˜ˆ๋กœ ๋“ค์—ˆ๋Š”๋ฐ ์—ฌ๊ธฐ์„œ ๋ฒ„ํŠธ์˜ ์ž‘๋™ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

๋ฒ„ํŠธ ํŠน์œ ์˜ ํŠน์ง•์€ ์„œ๋กœ ๋‹ค๋ฅธ task๋“ค์— ๋Œ€ํ•ด ํ•˜๋‚˜์˜ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋ฌผ๋ก  pre-trained ๊ตฌ์กฐ์™€ fine-tuning์„ ๊ฑฐ์นœ ๊ตฌ์กฐ์™€๋Š” ์ตœ์†Œ์˜ ์ฐจ์ด๋Š” ์žˆ๋‹ค.

Figure 1 : ๋ฒ„ํŠธ์˜ ์ „์ฒด์ ์ธ ์‚ฌ์ „ํ•™์Šต๊ณผ ๋ฏธ์„ธ์กฐ์ • ๊ณผ์ •์ด๋‹ค. output layer๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” ์‚ฌ์ „ํ•™์Šต๊ณผ ๋ฏธ์„ธ์กฐ์ •์—์„œ ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ task์— ๋˜‘๊ฐ™์€ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค. fine-tuning ์‹œ์—๋Š” ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ fine tuned ๋œ๋‹ค. CLS ํ† ํฐ์€ ํŠน๋ณ„ํ•œ ์˜๋ฏธ๋ฅผ ์ง€๋‹ˆ๋Š”๋ฐ, ๋ชจ๋“  input ๋ฌธ์žฅ ์•ž์— ์ถ”๊ฐ€๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  SEP ํ† ํฐ์€ ์˜ˆ๋ฅผ ๋“ค๋ฉด ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€์„ ๊ตฌ๋ถ„ํ•ด์ฃผ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ํŠน๋ณ„ํ•œ ๊ตฌ๋ถ„์ž๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

Model Architecture

๋ฒ„ํŠธ์˜ ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” ๋‹ค์ค‘ ๋ ˆ์ด์–ด์˜ ์–‘๋ฐฉํ–ฅ ํŠธ๋žœ์Šคํฌ๋จธ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ์ธ์ฝ”๋”๋Š” Vaswani et al. (2017) ์—์„œ ๊ตฌํ˜„๋œ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ–ˆ๊ณ  ์ด๋Š” tensor2tensor library์— ๊ณต๊ฐœ๋˜์–ด์žˆ๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์‚ฌ์šฉ์ด ๋Œ€์„ธ๊ฐ€ ๋˜์—ˆ๊ณ  ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•œ ํŠธ๋žœ์Šคํฌ๋จธ๋„ ์›๋ž˜์˜ ๊ฒƒ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ๋ฐฐ๊ฒฝ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋Œ€๋ถ€๋ถ„ ์ƒ๋žตํ•  ๊ฒƒ์ด๋ฉฐ ๋…์ž๋“ค์—๊ฒŒ๋Š” ์ž˜ ์ •๋ฆฌ๋œ Vaswani et al. (2017)๋ฅผ ์ฝ๊ธฐ๋ฅผ ๊ถŒํ•œ๋‹ค.

์ด๋ฒˆ ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉํ•  ์šฉ์–ด๋ฅผ ์„ค๋ช…ํ•˜๋ ค๊ณ  ํ•œ๋‹ค. ๋ ˆ์ด์–ด์˜ ์ˆ˜๋Š” L๋กœ, ํžˆ๋“  ์‚ฌ์ด์ฆˆ๋Š” H๋กœ, self attention head์˜ ์ˆ˜๋Š” A๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋‘๊ฐ€์ง€ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ์— ๋Œ€ํ•ด ๋‹ค๋ฃฐ ๊ฒƒ์ธ๋ฐ, ํ•˜๋‚˜๋Š” BERT-BASE (L=12, H=768, A=12, Param=100M) ์ด๊ณ  ํ•˜๋‚˜๋Š” BERT-LARGE (L=24, H=1024, A=16, Param=340M) ์ด๋‹ค.

BERT-BASE๋Š” GPT์™€ ๋น„๊ตํ•˜๊ณ ์ž ํ•˜๋Š” ๋ชฉ์ ์œผ๋กœ ๋™์ผํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ์ƒ์„ฑํ–ˆ๋‹ค. ๊ทธ๋ ‡์ง€๋งŒ ๋ฒ„ํŠธ๋Š” ์–‘๋ฐฉํ–ฅ self attention์„ ์‚ฌ์šฉํ•˜๊ณ  GPT๋Š” ์™ผ์ชฝ์—์„œ๋งŒ ์ ‘๊ทผ์ด ๊ฐ€๋Šฅํ•œ ์ œํ•œ์ ์ธ self attention์„ ์‚ฌ์šฉํ•˜๋Š” ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

Input/Output Representations

๋ฒ„ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ task๋ฅผ ํ•ด๊ฒฐํ•˜๋„๋ก input์œผ๋กœ ํ•˜๋‚˜์˜ ๋ฌธ์žฅ ๋˜๋Š” ํ•œ ์Œ์˜ ๋ฌธ์žฅ์„ ์ž…๋ ฅ๋ฐ›๋Š”๋‹ค. ์—ฐ๊ตฌ ๋‚ด๋‚ด ๋ฌธ์žฅ์ด๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š”๋ฐ ์ด๋Š” ๋‹จ์ˆœํžˆ ์‹ค์ œ ์–ธ์–ด์ ์ธ ๋ฌธ์žฅ์„ ์˜๋ฏธํ•œ๋‹ค๊ธฐ ๋ณด๋‹ค๋Š” ์—ฐ์†์ ์ธ ํ…์ŠคํŠธ์˜ ์ž„์˜์˜ ๋ถ€๋ถ„์œผ๋กœ ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค(=์—ฐ์†๋œ ์‹œํ€€์Šค๋ผ๋Š” ํ˜•ํƒœ์ ์ธ ๋ถ€๋ถ„์œผ๋กœ ์ดํ•ดํ•˜๋ผ๋Š” ๋œป ๊ฐ™์Œ) ์ด๋Ÿฌํ•œ ํ•œ ๊ฐœ์˜ ๋˜๋Š” ํ•œ ์Œ์˜ ์‹œํ€€์Šค์—์„œ ์–ป์€ token์„ ๋ฒ„ํŠธ์— ์ž…๋ ฅํ•˜๊ฒŒ ๋œ๋‹ค.

์šฐ๋ฆฌ๋Š” 3๋งŒ๊ฐœ์˜ ํ† ํฐ์„ ๊ฐ€์ง„ WordPiece ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด ๋•Œ ๊ฐ ๋ฌธ์žฅ์˜ ์ฒซ๋ฒˆ์งธ ํ† ํฐ์€ CLS๋ผ๋Š” ํŠน๋ณ„ํ•œ ํ† ํฐ์ด ์œ„์น˜ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰ ํžˆ๋“  ์Šคํ…Œ์ดํŠธ์—์„œ ์ด ํ† ํฐ์€ ๋ถ„๋ฅ˜ ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•œ ๋ฌธ์žฅ ์ง‘๊ณ„ ํŠน์ง•์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ํ•œ ์Œ์˜ ๋ฌธ์žฅ์€ ํ•œ๊ฐœ์˜ ๋ฌธ์žฅ์œผ๋กœ ๋ฌถ์—ฌ ์žˆ๋Š”๋ฐ ์ด๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‘๊ฐ€์ง€์ด๋‹ค. ์ฒซ๋ฒˆ์งธ๋Š” ๋‘ ๋ฌธ์žฅ ์‚ฌ์ด์— SEP ํ† ํฐ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ. ๋‘๋ฒˆ์งธ๋Š” ํ† ํฐ์—๋‹ค๊ฐ€ A ๋ฌธ์žฅ์˜ ํ† ํฐ์ธ์ง€ B ๋ฌธ์žฅ์˜ ํ† ํฐ์ธ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. Figure 1 ์—์„œ E๋Š” input embedding, CLS ํ† ํฐ์˜ final hidden vector ๋ฅผ C๋กœ ๋‚˜ํƒ€๋ƒˆ์œผ๋ฉฐ i๋ฒˆ์งธ input token์˜ final hidden vector๋Š” Ti ๋กœ ๋‚˜ํƒ€๋ƒˆ๋‹ค.

  • WordPiece๋Š” underbar๋ฅผ ์ด์šฉํ•ด์„œ word๋ฅผ subword๋กœ ๋งŒ๋“ค์–ด tokenizeํ•˜๋Š” ๋ถ„๋ฅ˜๊ธฐ์ด๋‹ค.

์ฃผ์–ด์ง„ ํ† ํฐ๊ณผ segment, position embeddings๋ฅผ ํ•ฉ์‚ฐํ•ด์„œ ์ž…๋ ฅ representation์„ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ์‹œ๊ฐ์ ์ธ ์ž๋ฃŒ๋Š” Figure 2์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

3.1 Pre-training BERT

ELMO์™€ GPT-1๊ณผ ๋‹ฌ๋ฆฌ ์šฐ๋ฆฌ๋Š” ์ขŒ์šฐ ๋˜๋Š” ์šฐ์ขŒ๋ฐฉํ–ฅ์˜ ๋ชจ๋ธ๋กœ ๋ฒ„ํŠธ๋ฅผ ํ•™์Šต์‹œํ‚ค์ง€ ์•Š์•˜๋‹ค. ๋Œ€์‹ ์— ๋‘ ๊ฐœ์˜ ๋น„์ง€๋„ํ•™์Šต task๋ฅผ ํ†ตํ•ด ํ•™์Šตํ–ˆ๋‹ค.

Task #1: Masked LM

์ง๊ด€์ ์œผ๋กœ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ์€ ๋‹จํ–ฅ๋ฐฉ ๋ชจ๋ธ์ด๋‚˜ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์„ ์–•๊ฒŒ ์—ฐ๊ฒฐํ•œ ๊ฒƒ๋ณด๋‹ค ๋” ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๋Š” ๊ฒƒ์€ ํ•ฉ๋ฆฌ์ ์ด๋‹ค. ๋ถˆํ–‰ํ•˜๊ฒŒ๋„ ์กฐ๊ฑด๋ถ€ ํ‘œ์ค€ ์–ธ์–ด ๋ชจ๋ธ์€ ๋‹จ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ํ•™์Šต์ด๋˜์—ˆ๋‹ค. ๋ฐ˜๋ฉด์— ์–‘๋ฐฉํ–ฅ์€ ๊ฐ๊ฐ์˜ ๋‹จ์–ด๋“ค์ด ์ž๊ธฐ์ž์‹ ์„ ๊ฐ„์ ‘์ ์œผ๋กœ๋งŒ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๊ฒŒํ–ˆ๊ณ  ๋ชจ๋ธ์€ ํƒ€๊ฒŸ ๋‹จ์–ด๋ฅผ ๋‹ค์ธต ๊ตฌ์กฐ์˜ context๋ฅผ ์ด์šฉํ•˜์—ฌ ์ข€ ๋” ๊ตฌ์ฒด์ ์œผ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๊ฒŒ๋œ๋‹ค.

๊นŠ์€ ์–‘๋ฐฉํ–ฅ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด์„œ ์šฐ๋ฆฌ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ ๋ช‡๋ช‡ ์ž…๋ ฅ ํ† ํฐ๋“ค์„ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚นํ•˜๊ณ  ์ด ๋งˆ์Šคํ‚น๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์ •์„ masked LM, MLM์ด๋ผ๊ณ ํ•œ๋‹ค. ์ด ๊ฐœ๋…์€ (Taylor, 1953)์— ์–ธ๊ธ‰๋œ Cloze task๋ฅผ ์ฐธ๊ณ ํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ mask token์— ํ•ด๋‹นํ•˜๋Š” final hidden ๋ฒกํ„ฐ๋Š” output sofrmax์— ์ž…๋ ฅ๋œ๋‹ค. ์‹คํ—˜๊ฒฐ๊ณผ 15%์˜ ํ† ํฐ ๋งˆ์Šคํ‚น ๋น„์œจ์„๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์ข‹์•˜๋‹ค. denosing auto-encoder์™€๋Š” ๋‹ฌ๋ฆฌ ์ „์ฒด์ ์œผ๋กœ input์„ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค๋Š” masking๋œ ๋‹จ์–ด๋“ค์„ ์˜ˆ์ธกํ–ˆ๋‹ค.

์ด์™€ ๊ฐ™์ด ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ–ˆ์ง€๋งŒ [MASK] ํ† ํฐ์ด fine tuning ์‹œ์—๋Š” ์กด์žฌํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— pre training๊ณผ fine tuning ์‚ฌ์ด์— ๋ถˆํ•ฉ์ด ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ฐจ์ด๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด masked word๋ฅผ ๋Š˜ [MASK] ํ† ํฐ์œผ๋กœ ๋Œ€์ฒดํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ 15%์˜ ๋น„์œจ๋กœ ๋ฌด์ž‘์œ„๋กœ ์˜ˆ์ธก์— ์‚ฌ์šฉ๋  ํ† ํฐ์œผ๋กœ ์ง€์ •๋œ๋‹ค. ์ด ๋•Œ i๋ฒˆ์งธ ํ† ํฐ์ด ์ •ํ•ด์ง€๋ฉด ์ด ํ† ํฐ์ค‘ 80%๋Š” [MASK] ํ† ํฐ์œผ๋กœ, 10%๋Š” random token์œผ๋กœ, 10%๋Š” ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ ์ดํ›„ cross entropy loss๋ฅผ ๊ฐ€์ง€๊ณ  ์›๋ž˜ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด i๋ฒˆ์งธ ํ† ํฐ์˜ ๋งˆ์ง€๋ง‰ ํžˆ๋“  ๋ฒกํ„ฐ T๊ฐ€ ์‚ฌ์šฉ๋œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๊ณผ์ •์˜ ๋ณ€ํ™”๋ฅผ C.2 ์—์„œ ๋น„๊ตํ•  ๊ฒƒ์ด๋‹ค.

Task #2: Next Sentece Prediction (NSP)

์งˆ์˜ ์‘๋‹ต์ด๋‚˜ ์ž์—ฐ์–ด ์ถ”๋ก ๊ณผ ๊ฐ™์€ ์ค‘์š”ํ•œ task๋“ค์€ ๋‘ ๊ฐœ์˜ ๋ฌธ์žฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์— ๊ธฐ๋ฐ˜์„ ๋‘”๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์žฅ์€ ์–ธ์–ด ๋ชจ๋ธ๋ง์— ์˜ํ•ด ์ง์ ‘์ ์œผ๋กœ ์–ป์–ด์ง€์ง€ ์•Š๋Š”๋‹ค. ๋ฌธ์žฅ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ๋‹จ์ผ ์–ธ์–ด(์•„๋งˆ ์—ฌ๋Ÿฌ ๋‚˜๋ผ์˜ ์–ธ์–ด๊ฐ€ ์„ž์ด์ง€ ์•Š์€ ์ด๋ผ๋Š” ๋œป์ธ ๋“ฏ)๋กœ ์ด๋ฃจ์–ด์ง„ ๋ง๋ญ‰์น˜์—์„œ ๋Œ€์ถฉ(=trivially) ๋งŒ๋“ค์–ด๋‚ธ ๋ฌธ์žฅ์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ–ˆ๋‹ค. ํŠนํžˆ A์™€ B๋ฌธ์žฅ์ด ์„ ํƒ๋  ๋•Œ 50%์˜ ํ™•๋ฅ ๋กœ B๋Š” ์ •๋ง๋กœ A์˜ ๋’ท๋ฌธ์žฅ์ด๊ฑฐ๋‚˜ ๋˜๋Š” ์•„๋ฌด๋ ‡๊ฒŒ๋‚˜ ์ƒ์„ฑ๋œ ๋ฌธ์žฅ์ด๋‹ค. Figure 1์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด C(=CLS ํ† ํฐ)๋Š” ๋‹ค์Œ ๋ฌธ์žฅ์„ ์˜ˆ์ธกํ•˜๋Š” NSP์— ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ฐ„๋‹จํ•œ ๊ตฌ์กฐ์—๋„ ๋ถˆ๊ณผํ•˜๊ณ  QA์™€ NLI์—์„œ ์—„์ฒญ๋‚œ ํšจ์œจ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” 5.1์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. NSP task๋Š” Jernite et al.(2017)๊ณผ, Logeswaran and Lee (2018)์—์„œ ์‚ฌ์šฉ๋œ ํŠน์ง• ํ•™์Šต๊ณผ (=representation-learning objectives) ๋งค์šฐ ๊ด€๋ จ์ด ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด์ „์˜ ์—ฐ๊ตฌ์—์„œ ๋ฒ„ํŠธ๋Š” end-task ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๊ธฐ์œ„ํ•ด ๋งŽ์€ ์ž„๋ฒ ๋”ฉ ์ค‘ ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ๋งŒ down-stream task์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

Pre-training data

์‚ฌ์ „ํ•™์Šต ๊ณผ์ •์˜ ๋Œ€๋ถ€๋ถ„์€ ๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต ์ ˆ์ฐจ๋ฅผ ๋”ฐ๋ฅธ๋‹ค. 800M ํฌ๊ธฐ์˜ BooksCorpus์™€ 2500M ํฌ๊ธฐ์˜ English Wikipedia์˜ ๋ง๋ญ‰์น˜๋ฅผ ์‚ฌ์ „ํ•™์Šตํ–ˆ๋‹ค. ์œ„ํ‚คํ”ผ๋””์•„์—์„œ๋Š” ํ…์ŠคํŠธ ๊ตฌ์ ˆ๋งŒ ๋ฝ‘์•„์™”๊ณ  ๊ทธ ์™ธ์˜ ๋ฆฌ์ŠคํŠธ๋‚˜ ํ‘œ, ํ—ค๋”๋Š” ๋ฌด์‹œํ–ˆ๋‹ค. ๋ฌธ์„œ๋‹จ์œ„์˜ ๋ง๋ญ‰์น˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ Billion Word Benchmark์— ์žˆ๋Š” ๋ฌธ์žฅ ๋‹จ์œ„์˜ ๋ง๋ญ‰์น˜๋ฅผ ๋ฝ‘๋Š” ๊ฒƒ๋ณด๋‹ค ์‹œํ€€์Šค๊ฐ€ ๋” ์—ฐ์†์ (๋” ๊ธธ๊ธฐ)์ด๊ธฐ ๋•Œ๋ฌธ์— ๋” ์ค‘์š”ํ•˜๋‹ค.

3.2 Fine-tuning BERT

ํŠธ๋žœ์Šคํฌ๋จธ์˜ self attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋ฒ„ํŠธ๊ฐ€ input๊ณผ output์„ ์ ์ ˆํžˆ ๋ฐ”๊พธ๊ฒŒ ํ•˜๋ฉด์„œ ์—ฌ๋Ÿฌ down-stream task๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— fine tuniing์€ ์–ด๋ ต์ง€ ์•Š์•˜๋‹ค(=straightforward). ์ด task๋“ค์ด single text์˜ task์ธ์ง€ text paris์˜ task์ธ์ง€๋Š” ์ƒ๊ด€์—†๋‹ค. text pairs๋กœ ํ•ด๊ฒฐํ•ด์•ผ ํ•˜๋Š” task๋“ค์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Parikh et al. (2016)๋‚˜ Seo et al. (2017)์ฒ˜๋Ÿผ ์–‘๋ฐฉํ–ฅ cross attention์„ ์ ์šฉํ•˜๊ธฐ ์ง์ „์— text pair๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ๋ฒ„ํŠธ๋Š” ๋‘ ๋‹จ๊ณ„(text pair๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉ ํ•˜๋Š” ๊ฒƒ๊ณผ ์–‘๋ฐฉํ•ญ cross attention์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ)๋ฅผ ํ†ตํ•ฉํ•ด์„œ self attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค. ๋‘ ๋ฌธ์žฅ๊ฐ„์— ์–ป์–ด์ง€๋Š” ์–‘๋ฐฉํ–ฅ cross attention์œผ๋กœ ์—ฐ๊ฒฐ๋œ ๋‘ ๋ฌธ์žฅ์„ ํšจ์œจ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค.

๊ฐ task ๋งˆ๋‹ค ์šฐ๋ฆฌ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ ํŠน์ • input๊ณผ output์„ ๋ฒ„ํŠธ๋กœ ์ž…๋ ฅํ•ด์ฃผ๊ธฐ๋งŒ ํ•˜๋ฉด ๋˜์—ˆ๊ณ  ์•Œ์•„์„œ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ fine tuning ๋˜์—ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šตํ•  ๋•Œ ์ž…๋ ฅ๋˜๋Š” ๋ฌธ์žฅ A์™€ B๋Š” ๋‹ค์Œ ์ค‘ ํ•˜๋‚˜์˜ ํŠน์ง•์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค.(=์œ ์‚ฌํ•˜๋‹ค์™€๋Š” ์˜๋ฏธ๋ฅผ ์˜์—ญ) 1) ๋ฌธ๋‹จ์—์„œ์˜ ๋‘ ๋ฌธ์žฅ ์Œ 2) ํ•จ์˜์—์„œ ๊ฐ€์„ค๊ณผ ์ „์ œ 3) ์งˆ์˜์‘๋‹ต์—์„œ ์งˆ๋ฌธ ์Œ 4) ํ…์ŠคํŠธ ๋ถ„๋ฅ˜๋‚˜ ๋ฌธ์žฅ ํƒœ๊น…์—์„œ์˜ degenerate text-0 pair ์ถœ๋ ฅ์—์„œ token์˜ ํŠน์ง•์€ ๋ฌธ์žฅ ํƒœ๊น…์ด๋‚˜ ์งˆ์˜์‘๋‹ต ๊ฐ™์€ token level์˜ task๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” output layer๋กœ ์ž…๋ ฅ๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  CLS ํ† ํฐ์€ ํ•จ์˜๋‚˜ ๊ฐ์ • ๋ถ„์„๊ฐ™์€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ output layer๋กœ ์ž…๋ ฅ๋œ๋‹ค.

  • 4๋ฒˆ ๊ฐ™์€ ๊ฒฝ์šฐ๋Š” ๊ธฐ์กด text-text์—์„œ single text ์ฒด์ œ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด์„œ text-๊ณต์ง‘ํ•ฉ ๊ผด์ด ๋˜์—ˆ๊ณ  ์ด๋Ÿฌํ•œ ๋ชจ์–‘์„ ํ‡ดํ™”ํ–ˆ๋‹ค(=degenerate)๋Š” ์˜๋ฏธ๋กœ ์–ธ๊ธ‰ํ•œ ๊ฒƒ ๊ฐ™๋‹ค.

์‚ฌ์ „ํ•™์Šต๊ณผ ๋น„๊ตํ•˜๋ฉด fine tuning์€ ๋น„๊ต์  ๋น„์šฉ์ด ๋“ ๋‹ค. ์ด ๋…ผ๋ฌธ์—์žˆ๋Š” ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” TPU๋กœ๋Š” ๋งŽ์œผ๋ฉด 1์‹œ๊ฐ„, GPU๋กœ๋Š” ๋ช‡์‹œ๊ฐ„์ด ๊ฑธ๋ ค์„œ ๋™์ผํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์„ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. 4์žฅ์—์„œ๋Š” ๊ตฌ์ฒด์ ์ธ task๋“ค์— ๋Œ€ํ•œ ์„ธ๋ถ€์‚ฌํ•ญ์„ ์„ค๋ช…ํ•œ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ A.5 ๋ฅผ ์ฐธ์กฐํ•˜์ž.

4 Experiment

11๊ฐ€์ง€ NLP task์— ๋Œ€ํ•œ ๋ฒ„ํŠธ์˜ fine tuning ๊ฒฐ๊ณผ๋“ค์„ ์†Œ๊ฐœํ•œ๋‹ค.

4.1 GLUE

The General Language Understanding Evaluation, GLUE benchmark๋Š” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ธ์ง€ task ๋ชจ์Œ์ง‘์ด๋‹ค. GLUE dataset์˜ ์„ธ๋ถ€์‚ฌํ•ญ์€ ๋ถ€๋ก B.1์— ์žˆ๋‹ค.

GLUE๋ฅผ fine tune ํ•˜๊ธฐ ์œ„ํ•ด์„œ 3์žฅ์—์„œ ๋งํ•œ๊ฒƒ์ฒ˜๋Ÿผ input sequence(single์ด๋“  pair๋“ ) ๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๊ณ  ๋งˆ์ง€๋ง‰ ์ฒซ๋ฒˆ์งธ input token CLS์— ํ•ด๋‹นํ•˜๋Š” hidden vector C๋ฅผ ์ง‘ํ•ฉ ํ‘œํ˜„์ฒด๋กœ ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. fine tuning์„ ํ•  ๋•Œ ๋ถ„๋ฅ˜ ๋ ˆ์ด์–ด์— ์‚ฌ์šฉ๋˜๋Š” K * H ํฌ๊ธฐ์˜ W ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋“ฑ์žฅํ•œ๋‹ค. ์ด ๋•Œ K๋Š” ๋ผ๋ฒจ์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” C์™€ W์˜ ๊ณฑ์„ log-softmax๋ฅผ ํ•ด์„œ loss๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

  • ์ง‘ํ•ฉ ํ‘œํ˜„์ฒด๋ผ๋Š” ์˜๋ฏธ๋Š” ๋ฌธ์žฅ์— ๋Œ€ํ•œ ์ „์ฒด์ ์ธ ์ •๋ณด๋ฅผ ๋‹ด๊ณ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฐ ๋น„์œ (?)๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

๋ชจ๋“  GLUE tasks์— ๋Œ€ํ•ด์„œ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  3epoch์˜ fine tune์„ ๊ฑฐ์ณค๊ณ  ์ด ๋•Œ์˜ ๋ฐฐ์น˜๋Š” 32์ด๋‹ค. ๊ฐ๊ฐ์˜ task์—์„œ ์ตœ์ ์˜ ํ•™์Šต๋ฅ ์„ ์„ ํƒํ–ˆ๋‹ค. (5e-5, 4e-5, 3e-5, 2e-5 ์ค‘์—์„œ ์‚ฌ์šฉํ–ˆ๋‹ค.) ๊ทธ๋ฆฌ๊ณ  BERT-LARGE ๋ชจ๋ธ์„ ์‹คํ—˜ํ•˜๋‹ค๋ณด๋‹ˆ ๋•Œ๋•Œ๋กœ ์ ์€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ fine tune ํ•˜๋Š”๊ฑด ์•ˆ์ข‹์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ์•˜๊ณ  ๊ทธ๋ž˜์„œ ๋ฌด์ž‘์œ„๋กœ ์—ฌ๋Ÿฌ๋ฒˆ fine tuneํ•˜๊ณ  ์ด ์ค‘์— ์ œ์ผ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋ชจ๋ธ์„ ๊ณจ๋ž๋‹ค. ์—ฌ๋Ÿฌ๋ฒˆ fine tuning ํ•  ๋•Œ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ check point๋Š” ๋™์ผํ•˜๊ฒŒ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ ๋ฐ์ดํ„ฐ๋ฅผ ์„ž๊ฑฐ๋‚˜ ๋ถ„๋ฅ˜๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋‹ค๋ฅด๊ฒŒ ์‚ฌ์šฉํ–ˆ๋‹ค.

Table 1์— ๊ฒฐ๊ณผ๊ฐ€ ์žˆ๋‹ค. BERT ๋ฒ ์ด์Šค๋‚˜ ๋ผ์ง€๋Š” ๋ชจ๋“  task์—์„œ ๊ธฐ์กด sota ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์ถฉ๋ถ„ํžˆ ์—ฌ์œ ์žˆ๊ฒŒ 4.5%์™€ 7.0%๋ผ๋Š” ๊ฐ๊ฐ์˜ ํ‰๊ท  ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ๋ฒ„ํŠธ ๋ฒ ์ด์Šค๋Š” ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ธ ๊ด€์ ์—์„œ attention mask๋ฅผ ์ œ์™ธํ•˜๊ณ ๋Š” GPT์™€ ๊ฑฐ์˜ ๋™์ผํ•˜๋‹ค. ๊ฐ€์žฅ ํฌ๊ธฐ๊ฐ€ ํฌ๊ณ  ๋„“์€ GLUE task์ธ MNLI์— ๋Œ€ํ•ด์„œ๋„ 4.6%์˜ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ๊ณต์‹์ ์œผ๋กœ GLUE ๋ฆฌ๋”๋ณด๋“œ์— ๋ฒ„ํŠธ LARGE๋Š” 80.5์ ์„ ๋ฐ›์•˜๋‹ค. ๊ทธ์— ๋น„ํ•ด GPT๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋งˆ์ง€๋ง‰์œผ๋กœ ํ™•์ธํ•œ ๋ฐ” 72.8์ ์„ ๊ธฐ๋กํ–ˆ๋‹ค.

๋ฒ„ํŠธ LARGE๋Š” ๋‘๋“œ๋Ÿฌ์ง€๊ฒŒ ๋ฒ„ํŠธ BASE๋ณด๋‹ค ๋ชจ๋“  ํƒœ์Šคํฌ์—์„œ ์•„์ฃผ ์ž‘์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ํ›จ์”ฌ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ƒˆ๋‹ค. ๋ชจ๋ธ์˜ ์‚ฌ์ด์ฆˆ์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ๋Š” 5.2์—์„œ ๋งŽ์ด ํ•ด๋ณด์ž.

TABLE 1

์„œ๋ฒ„์— ๊ธฐ๋ก๋œ GLUE ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์ด๋‹ค. ๊ฐ๊ฐ์˜ ํƒœ์Šคํฌ ๋ฐ‘์— ์žˆ๋Š” ์ˆ˜๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ด๋‹ค. ํ‰๊ท  ์ ์ˆ˜๋Š” ๊ณต์‹์ ์ธ GLUE ์ ์ˆ˜๋ž‘์€ ์ข€ ๋‹ค๋ฅธ๋ฐ ์šฐ๋ฆฌ๊ฐ€ WNLI set์— ๋Œ€ํ•œ ์ ์ˆ˜๋Š” ์ œ์™ธํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฒ„ํŠธ์™€ GPT๋Š” ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํ•˜๋‚˜์˜ task๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค(?) F1์ ์ˆ˜๋Š” QQP์™€ MRPC์—์„œ, Spearman Correlation์€ STS-B์—์„œ, ์ •ํ™•๋„๋Š” ๋‹ค๋ฅธ ํƒœ์Šคํฌ์—์„œ์˜ ํ‘œ์ค€ ์ฒ™๋„๋กœ ์ •ํ•ด์ง„ ์ ์ˆ˜์ด๋‹ค. ๋ฒ„ํŠธ๋ฅผ ํ•˜๋‚˜์˜ ์š”์†Œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์€ ์ œ์™ธํ–ˆ๋‹ค.

  • WNLI set ์ ์ˆ˜๋ฅผ ์ œ์™ธํ•œ 8๋ฒˆ ๊ฐ์ฃผ๋ฅผ ๋ณด๋ฉด train, valid, test set์— ๋ถ„ํฌ๊ฐ€ ๋„ˆ๋ฌด๋‚˜๋„ ๋‹ฌ๋ผ์„œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๊ธฐ๊ฐ€ ์• ๋งคํ•œ ๋ถ€๋ถ„์ด ์žˆ์–ด์„œ poor score๋ฅผ ์–ป๊ฒŒ๋˜๋Š” ํ˜„์ƒ์ด ์žˆ๋‹ค๊ณ  ๋‚˜๋Š” ์ดํ•ดํ–ˆ์Œ. ๊ทธ์น˜๋งŒ 19๋…„์— ์ด๋ฏธ 90์  ์ด์ƒ์˜ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธด ํ–ˆ์Œ

  • Spearman Correlation์€ ์„œ์—ด์ƒ๊ด€๋ถ„์„์ด๋ผ ํ•˜๋Š”, ๋‘ ๋ณ€์ˆ˜๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ๋‚˜๋„ ์ž˜ ๋ชฐ๋ผ!!!

4.2 SQuAD v1.1

์Šคํƒ ํฌ๋“œ ๋Œ€ํ•™์—์„œ ๋งŒ๋“  ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹, SQuAD 1.1 ๋ฒ„์ „์€ 10๋งŒ๊ฐœ์˜ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ์งˆ์˜์‘๋‹ต์Œ์ด๋‹ค. ์œ„ํ‚คํ”ผ๋””์•„์—์„œ ์ง€๋ฌธ(=passage)๊ณผ ์งˆ๋ฌธ๊ณผ ๋‹ต์ด ์ฃผ์–ด์ง€๋ฉด ์ง€๋ฌธ์†์—์„œ ๋‹ต์— ํ•ด๋‹นํ•˜๋Š” ๋ฒ”์œ„๋ฅผ ์˜ˆ์ƒํ•˜๋Š” ๊ฒƒ์ด task์ด๋‹ค.

Figure 1์˜ ์งˆ์˜์‘๋‹ต ํƒœ์Šคํฌ์—์„œ๋Š” ์งˆ๋ฌธ๊ณผ ์ง€๋ฌธ์ด ํ•˜๋‚˜์˜ ์‹œํ€€์Šค๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ์œผ๋ฉฐ ์งˆ๋ฌธ์€ A ์ž„๋ฒ ๋”ฉ์œผ๋กœ, ์ง€๋ฌธ์€ B ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ํŒŒ์ธํŠœ๋‹์‹œ์— ์‚ฌ์šฉ๋˜๋Š” ๋ฌธ์žฅ์˜ ์‹œ์ž‘๊ณผ ๋์„ ์˜๋ฏธํ•˜๋Š” S์™€ E๋ฒกํ„ฐ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐ ํ• ๊ฒƒ์ด๋‹ค. ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ์ •๋‹ต์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์˜ ์‹œ์ž‘ ๋‹จ์–ด์ผ ๊ฐ€๋Šฅ์„ฑ์€ T์™€ S๋ฅผ ๋‚ด์ ํ•˜๊ณ  softmax๋ฅผ ๊ฑฐ์นœ ๊ฐ’์œผ๋กœ ๊ณ„์‚ฐ๋œ๋‹ค. (์—ฌ๊ธฐ์„œ T๋Š” i๋ฒˆ์งธ token์˜ ๋งˆ์ง€๋ง‰ hideen vector์—์„œ ์–ป์–ด์ง€๋Š” output ๊ฐ’์ด๋‹ค)

์ •๋‹ต์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์˜ ๋งˆ์ง€๋ง‰ ๋‹จ์–ด๋ฅผ ๊ตฌํ•  ๋•Œ๋„ ์œ ์‚ฌํ•œ ๊ณต์‹์ด ์‚ฌ์šฉ๋œ๋‹ค. ์ •๋‹ต์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ํ›„๋ณด๋“ค์˜ ์ ์ˆ˜๋Š” SยทTi + EยทTj ๋กœ ๊ตฌํ•ด์ง„๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐ€์žฅ ํฐ ์ ์ˆ˜๊ฐ€ ์˜ˆ์ธก์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ์ด ๋•Œ j >= i ์—ฌ์•ผํ•œ๋‹ค. ํ•™์Šตํ•  ๋•Œ์˜ ๋ชฉ์ ํ•จ์ˆ˜๋Š” ์˜ฌ๋ฐ”๋ฅธ start์™€ end ์ž๋ฆฌ์˜ ๋กœ๊ทธ ์šฐ๋„์˜ ํ•ฉ์ด๋‹ค. 32์˜ ๋ฐฐ์น˜์‚ฌ์ด์ฆˆ, 5e-5์˜ ํ•™์Šต๋ฅ ๋กœ 3 epochs์˜ fine tune์„ ๊ฑฐ์ณค๋‹ค.

ํ‘œ 2์—์„œ๋Š” ๊ธฐ์กด์— ๋†’์€ ์„ฑ์ ์„ ์ง€๋‹ˆ๋˜ ๋ชจ๋ธ๋“ค์ด ์žˆ๋Š” ๋ฆฌ๋”๋ณด๋“œ ์„ฑ์ ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, SQuAD ๋ฆฌ๋”๋ณด๋“œ์— ์˜ฌ๋ผ์žˆ๋Š” ๋†’์€ ์„ฑ์ ๋“ค์„ ์ง€๋‹Œ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด์„œ ์šฐ๋ฆฌ๊ฐ€ ์ด์šฉํ•  ์ˆ˜ ์žˆ์„๋งŒํ•œ ์ตœ๊ทผ ์„ค๋ช…์ด ์—†์—ˆ๊ณ  ํ•ด๋‹น ๋ชจ๋ธ๋“ค์€ ์•„๋ฌด ๋ฐ์ดํ„ฐ๋‚˜ ๊ฐ€์ง€๊ณ  ํ•™์Šต์„ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” SQuAD๋กœ fine tuningํ•˜๊ธฐ ์ „์— TriviaQA๋กœ ๋จผ์ € finetuing์„ ํ–ˆ๊ณ  ๊ทธ๋Ÿฌ๋ฉด์„œ ์ ๋‹นํžˆ data augmentation์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

  • ์ž์„ธํžˆ ๋งํ•˜๋ฉด SQuAD 1.1์—์„œ ๋ชจ๋ธ๋“ค์ด ๋†’์€ ์„ฑ์ ์„ ๋ƒˆ์„ ๋•Œ ์ด์— ๋Œ€ํ•œ ์„ค๋ช…์„ SQuAD์—์„œ๋Š” ํ™•์ธํ•  ์ˆ˜ ์—†์—ˆ๋‹ค. ์ตœ์‹  ๋ฆฌ๋”๋ณด๋“œ ๋“ค์€ ์ด๋Ÿฌํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ด์ฃผ๋Š”๋ฐ์— ๋น„ํ•ด ์—ฌ๊ธฐ์„œ๋Š” ์ด๋Ÿฐ description์„ ์ œ๊ณตํ•ด์ฃผ์ง€ ์•Š์•˜๋˜ ๊ฒƒ. ๊ทธ๋ž˜์„œ top ๋ชจ๋ธ๋“ค์ด ์–ด๋–ค ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ๋Š”์ง€ ์•Œ ์ˆ˜๊ฐ€ ์—†์—ˆ๊ณ  ์ด task๋Š” ์ž์œ ๋กญ๊ฒŒ ๋ชจ๋“  ๊ณต๊ณต ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋ฏ€๋กœ ์ž๊ธฐ๋“ค๋„ triviaQA ๋ฐ์ดํ„ฐ๋ฅผ ์ ๋‹นํžˆ ์‚ฌ์šฉํ–ˆ๋‹ค ๋ผ๋Š” ์ ์„ ๋งํ•œ๋‹ค. (์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ์จ์„œ ํ•™์Šต์„ ํ–ˆ๋‹ค๋ฉด ๋ชจ๋ธ์˜ ์šฐ์ˆ˜ํ•จ๋ณด๋‹ค ๋ฐ์ดํ„ฐ์…‹์˜ ์ฐจ๋ณ„์„ฑ์ด ๋ˆˆ์— ๋„๋‹ˆ ์ด ๋ถ€๋ถ„์„ ์ž‘๊ฒŒํ•˜๊ธฐ ์œ„ํ•ด ์ ๋‹นํžˆ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ๋งํ•˜๋Š” ๋“ฏ)

์šฐ๋ฆฌ ๋ชจ๋ธ์€ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ์ ์˜ ๋ชจ๋ธ๋ณด๋‹ค ์•™์ƒ๋ธ”์—์„œ๋Š” F1 ์ ์ˆ˜๊ฐ€ 1.5์ ์ด ๋†’์•˜๊ณ  ๋‹จ์ผ ๋ชจ๋ธ์—์„œ๋Š” 1.3์ ์ด ๋†’์•˜๋‹ค. ์‚ฌ์‹ค ์šฐ๋ฆฌ ๋ฒ„ํŠธ๋ชจ๋ธ์€ ํ˜„์กดํ•˜๋Š” ์ตœ๊ณ ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•œ๊ฒƒ๋ณด๋‹ค ๋›ฐ์–ด๋‚˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์‹ค TriviaQA ๊ฐ€์ง€๊ณ  fine tuningํ•˜์ง€ ์•Š์•„๋„ F1 ์ ์ˆ˜๋Š” 0.1์—์„œ 0.4์ ๋ฐ–์— ์ฐจ์ด๋‚˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๊ฝค ํฐ ๊ฒฉ์ฐจ๋กœ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

  • TriviaQA๋Š” ์›Œ์‹ฑํ„ด ํ•™๊ต์—์„œ ๋งŒ๋“  QA ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

Table 2

SQuAD 1.1 ๋ฒ„์ „์˜ ๊ฒฐ๊ณผ์ด๋‹ค. ๋ฒ„ํŠธ์˜ ์•™์ƒ๋ธ” ๋ฒ„์ „์€ ์„œ๋กœ ๋‹ค๋ฅธ fine tuning ํŒŒ๋ผ๋ฏธํ„ฐ(=seeds)์™€ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” 7๊ฐœ์˜ ๋ชจ๋ธ๋กœ ์•™์ƒ๋ธ”ํ–ˆ๋‹ค.

Table 3

SQuAD 2.0 ๊ฒฐ๊ณผ์ด๋‹ค. ๋ฒ„ํŠธ๊ฐ€ ์žฅ์ฐฉ๋˜์–ด ์žˆ๋Š” ๋ชจ๋ธ๋“ค์˜ ๋น„๊ต๋Š” ํ•˜์ง€ ์•Š์•˜๋‹ค.

4.3 SQuAD v2.0

SQuAD 2.0์€ 1.1๋ฒ„์ „์—์„œ ๋” ๋‚˜์•„๊ฐ€ ์ •๋‹ต์ด ์—†์„ ์ˆ˜๋„ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ์ข€ ๋” ํ˜„์‹ค์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋„๋ก ํ™•์žฅํ–ˆ๋‹ค.

์Šค์ฟผ๋“œ 1.1๋ฅผ ์‚ฌ์šฉํ•˜๋˜ ๋ฒ„ํŠธ ๋ชจ๋ธ์„ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•ด์„œ ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์„ ์ผ๋Š”๋ฐ, ์ •๋‹ต์ด ์—†์„ ๊ฒฝ์šฐ์—๋Š” start token๊ณผ end token์˜ ์œ„์น˜๊ฐ€ ๋ชจ๋‘ CLS ํ† ํฐ ์œ„๋กœ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์œ„๊ฐ€ CLS ํ† ํฐ๊นŒ์ง€ start token๊ณผ end token์ด ์žˆ์„ ์ˆ˜ ์žˆ๋„๋ก ํ™•์žฅ๋˜์—ˆ์ด๋‹ค. ์˜ˆ์ธกํ•  ๋•Œ๋Š” ์ผ๋‹จ no-answer ์ ์ˆ˜์ธ์ง€๋ฅผ ํ™•์ธํ•œ๋‹ค. ์ด๋Š” no answer ์ ์ˆ˜์ธ S_null = SยทC + EยทC๊ณผ ์ ˆ๋Œ€ no answer(=best non-null) ์ด ์•„๋‹Œ ์ ์ˆ˜ si^,j s_{\hat{i},j}si^,jโ€‹๊ณผ ๋น„๊ตํ•œ๋‹ค. ์ด ๋•Œ ์ด non null ์ ์ˆ˜๋Š” j>=i ๋ฉด์„œ SยทTi + EยทTj ๊ฐ€ ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ ์ˆ˜์ด๋‹ค. ๊ทธ๋ž˜์„œ ์ด answer๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€ ํ™•์ธํ•  ๋•Œ๋Š” sห†i,j > snull + ฯ„์ธ์ง€๋ฅผ ํ™•์ธํ•œ๋‹ค. ์ด ๋•Œ ํƒ€์šฐ(=ฯ„)๋Š” F1 ์ ์ˆ˜๊ฐ€ ๊ฐ€์žฅ ๋†’๋„๋ก ํ•˜๋Š”, ์‹คํ—˜์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฒฐ์ •๋œ๋‹ค. ์Šค์ฟผ๋“œ 2 ๋ฒ„์ „์„ ์“ธ ๋•Œ๋Š” TriviaQA data๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค. 48์˜ ๋ฐฐ์น˜์‚ฌ์ด์ฆˆ, 5e-5์˜ ํ•™์Šต๋ฅ  2 epochs๋กœ fine tune ํ–ˆ๋‹ค.

์ด์ „์— ๋†’์€ ์„ฑ์ ์„ ๊ฑฐ๋‘” ๋ฆฌ๋”๋ณด๋“œ์™€ ๋…ผ๋ฌธ๋“ค๊ณผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋Š” ํ‘œ3์— ์žˆ๋‹ค. ์ด์ „ ๋ชจ๋ธ๋“ค๊ณผ F1 ์Šค์ฝ”์–ด๋ฅผ 5.1์  ๋ฒŒ๋ ธ๋‹ค.

Table 4

SWAG ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ์ •ํ™•๋„์ด๋‹ค. SWAG ๋…ผ๋ฌธ์—๋Š” 100๊ฐœ์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์ธ๊ฐ„์˜ ์˜ˆ์ธก๋ ฅ๋„ ์ธก์ •ํ–ˆ๋‹ค.

4.4 SWAG

The Situations With Adversarial Generations, SWAG ๋ฐ์ดํ„ฐ์…‹์€ 11.3๋งŒ๊ฐœ์˜ ์ƒ์‹ ์ถ”๋ก ์— ๊ธฐ๋ฐ˜์„ ๋‘” ๋ฐ์ดํ„ฐ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฌธ์žฅ์Œ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค. ๋ฌธ์žฅ์ด ์ฃผ์–ด์ง€๋ฉด 4๊ฐœ์˜ ๋ณด๊ธฐ์ค‘์— ๊ทธ๋Ÿด ๋“ฏํ•œ(=plausible) ๋‹ต์„ ๊ณ ๋ฅด๋Š”๊ฒŒ TASK์ด๋‹ค.

SWAG ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ fine tuning ํ•  ๋•Œ 4๊ฐœ์˜ input sequence๋ฅผ ์ž…๋ ฅํ•ด์ค˜์•ผ ํ•œ๋‹ค. ์ด sequence๋Š” ์ฃผ์–ด์ง„ ๋ฌธ์žฅ๊ณผ ์ฃผ์–ด์ง„ ๋ฌธ์žฅ ๋’ค๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ์„ ํƒ์ง€์˜ ์—ฐ๊ฒฐ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. (์„ ํƒ์ง€๊ฐ€ 4๊ฐœ์ด๋ฏ€๋กœ ์ด 4๊ฐœ์˜ input sequence๊ฐ€ ๋‚˜์˜ด) (์ดํ›„ ์ด 4๊ฐœ์˜ input์ด BERT๋กœ ์ž…๋ ฅ๋˜์–ด output์„ ์–ป๊ณ  ์ด output์˜) CLS ํ† ํฐ์„ ๊ฐ€์ง€๊ณ  ๊ฐ๊ฐ์˜ ์‹œํ€€์Šค์˜ ์ ์ˆ˜๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ์ ์ˆ˜๋Š” task-specificํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ V์™€์˜ ๋‚ด์ ํ•ด์„œ ๊ตฌํ•ด์ง€๋ฉฐ ๊ฐ๊ฐ์˜ ์ ์ˆ˜๋“ค์€ softmax layer๋ฅผ ๊ฑฐ์น˜๊ฒŒ ๋œ๋‹ค.

  • ์—ฌ๊ธฐ์„œ task-specificํ•˜๋‹ค๋Š” ๊ฒƒ์€ nlp task๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ด๊ณ  ๊ฐ๊ฐ์˜ task๋งˆ๋‹ค CLSํ† ํฐ๊ณผ ๊ณฑํ•ด์ง€๋Š” ๋ฒกํ„ฐ๊ฐ€ ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ

  • ์—ฌ๊ธฐ ๋ฌธ์žฅ ๊ตฌ์กฐ๊ฐ€ ๋…ํ•ดํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์„œ ํ•œ๋ฒˆ ๋‹ค๋ฃจ๊ณ  ๋„˜์–ด๊ฐ€๊ฒ ์Œ

์›๋ฌธ

The only task-specific parameters / introduced / is a vector / whose dot product with the [CLS] token representation C / denotes a score / for each choice / which is normalized with a softmax layer

  • the only task-specific : SWAG์—์„œ ๋งํ•œ task๋Š” 4์ง€์„ ๋‹คํ˜• task์ด๊ณ  ์ด ํ•˜๋‚˜๋ฐ–์— ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ํ‘œํ˜„ ์‚ฌ์šฉ

  • introduced : ์ง€๊ธˆ ๊ณ„์† ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ๋Š”

  • is a vector ~ : a vector is ๊ตฌ๋ฌธ์ด ๋„์น˜๋œ ๋ฌธ์žฅ, ์ด๋Š” vector๋ฅผ ์ˆ˜์‹ํ•˜๋Š” whose์ ˆ์ด ๊ธธ๊ธฐ ๋•Œ๋ฌธ์— ๋„์น˜ํ•œ ๊ฒƒ์ž„. ๋˜ํ•œ, a vector๊ณผ parameters๋Š” ๋‹จ๋ณต์ˆ˜๊ฐ€ ๋งž์ง€ ์•Š์€ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ ์ž˜ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋ฒกํ„ฐ ์ž์ฒด๊ฐ€ ์ด๋ฏธ ๋ณต์ˆ˜ ์ง‘ํ•ฉ์ฒด์ž„.

  • whose dot product ~ : task-specificํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” CLS ํ† ํฐ๊ณผ ๋‚ด์ ์„ ํ•จ ๊ทธ๋ฆฌ๊ณ  ์ด๋Š” ์ ์ˆ˜๋ฅผ ์˜๋ฏธํ•จ

  • for each choice : 4์ง€์„ ๋‹ค์— ๋Œ€ํ•ด ๊ฐ๊ฐ์˜ sequence๋ฅผ choice๋กœ ํ‘œํ˜„.

  • which : choice๋ฅผ ๊พธ๋ฏธ๋Š” ๊ฒƒ ๊ฐ™๊ธด ํ•˜๊ณ  ๋˜, ์˜๋ฏธ์ ์œผ๋กœ๋„ ํฌ๊ฒŒ ์–ด์ƒ‰ํ•˜์ง€๋Š” ์•Š์ง€๋งŒ score๋ฅผ ๊พธ๋ฏธ๋Š” ๊ตฌ๋กœ ๋ณด์ž„. ๊ฐ๊ฐ์˜ sequence๋ณด๋‹ค๋Š” ๊ฐ๊ฐ์˜ sequence์˜ ์ ์ˆ˜๊ฐ€ softmax layer๋ฅผ ํ†ตํ•ด ์ •๊ทœํ™”๋˜๊ธฐ ๋•Œ๋ฌธ.

๋ชจ๋ธ์€ 3 epochs, 2e-5 lr, 16 bs๋กœ fine tune ํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” Table 4์— ์žˆ๋‹ค. ๋ฒ„ํŠธ ๋ผ์ง€๋ชจ๋ธ์€ ESIM+ELMO ๋ชจ๋ธ๋ณด๋‹ค 27.1%, GPT ๋ชจ๋ธ๋ณด๋‹ค 8.3% ์„ฑ๋Šฅ์„ ์••๋„ํ–ˆ๋‹ค.

5 Ablation Studies

์ด๋ฒˆ ์žฅ์—์„œ๋Š” ๋ฒ„ํŠธ์˜ ๊ด€๊ณ„์  ์ค‘์š”์„ฑ์„ ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋ฒ„ํŠธ์˜ ์—ฌ๋Ÿฌ ๋ถ„ํ• ๋ฒ„์ „์— ๋Œ€ํ•ด ablation ์‹คํ—˜์„ ํ•œ๋‹ค. ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๋Š” ๋ถ€๋ก C๋ฅผ ์ฐธ๊ณ ํ•ด๋ผ!

  • ablation ์ด๋ž€ ๋ชจ๋ธ์ด๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ์š”์†Œ(component) ์ค‘ ์–ด๋– ํ•œ โ€œfeatureโ€๋ฅผ ์ œ๊ฑฐํ•  ๋•Œ, ์„ฑ๋Šฅ(performance)์— ์–ด๋– ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋งํ•œ๋‹ค.

  • ์‹ค์ œ๋กœ ์‚ฌ์ „์  ์˜๋ฏธ๋Š” ์ผ์ •๋ถ€๋ถ„์„ ์ œ๊ฑฐํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค.

Table 5

pretraining task์˜ Ablation์€ BERT-BASE ๊ตฌ์กฐ์—์„œ ์‹คํ—˜ํ–ˆ๋‹ค. "No NSP"๋Š” next sentence prediction task๊ฐ€ ์—†์ด ํ•™์Šต๋œ๋‹ค. "LTR & No NSP"๋Š” "No NSP" ํ•ญ๋ชฉ์—๋‹ค๊ฐ€ bidirectional์ด ์•„๋‹Œ GPT์ฒ˜๋Ÿผ left to right LM์œผ๋กœ attention ๋ฐฉ์‹์ด ๋ฐ”๋€ ํ•ญ๋ชฉ์ด๋‹ค. "+BiLSTM"์€ "LTR & No NSP"์˜ ๋ชจ๋ธ์— output ๊ตฌ์กฐ์— ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ BiLSTM์„ ์ถ”๊ฐ€ํ•œ ํ•ญ๋ชฉ์ด๋‹ค.

5.1 Effect of Pre-training Tasks

์—ฌ๊ธฐ์„œ๋Š” BERT์—์„œ deep bidirectionality์˜ ์ค‘์š”์„ฑ์„ ๋‘ ๊ฐœ์˜ training ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ ์„ค๋ช…ํ•œ๋‹ค. ์ด ๋•Œ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ, ๋™์ผํ•œ fine tuning, ๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

No NSP

NSP task๊ฐ€ ์—†๊ณ  masked LM๋งŒ ์‚ฌ์šฉํ•˜๋Š” bidirectional model์ด๋‹ค.

LTR & No NSP

MLM ๋ฐฉ์‹์ด ์•„๋‹Œ, Left-to-Right, LTR ๋ฐฉ์‹์˜ Language Model, LM์„ ์ด์šฉํ•ด ํ•™์Šตํ•˜๋Š” left-context-only model์ด๋‹ค. ์ด left-only๋Š” (pre-trained ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ) fine tuning์—์„œ๋„ ํ•œ๊ณ„์ ์œผ๋กœ ์ž‘์šฉํ•œ๋‹ค. MLM ๋ฐฉ์‹์„ ํฌ๊ธฐํ•˜๋ฉด์„œ pre-train๊ณผ fine-tune์—์„œdownstream task๋“ค์˜ ์„ฑ๋Šฅ์ด ํ•˜๋ฝ๋˜๋Š” ๋ฌธ์ œ(=mismatch, LTR๋ฐฉ์‹์˜ LM์ด downstream๊ณผ ์ž˜ ๋งž์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์„ mismatch๋กœ ํ‘œํ˜„ํ–ˆ๋‹ค)๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€, NSP task๊ฐ€ ์—†์ด ์‚ฌ์ „ ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Š” GPT์™€ ์ง์ ‘์ ์œผ๋กœ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ BERT๊ฐ€ ์ข€ ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹๊ณผ, ํฐ ์ž„๋ฒ ๋”ฉ ์ฐจ์› ๊ทธ๋ฆฌ๊ณ  ๋ฒ„ํŠธ๋งŒ์˜ fine tuning ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ๋‹ค.

์šฐ๋ฆฌ๋Š” NSP๊ฐ€ ๊ฐ€์ ธ๋‹ค ์ฃผ๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•ด ์‹คํ—˜ํ–ˆ๋‹ค. ํ‘œ 5์—์„œ NSP๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด QNLI๋‚˜ MNLI ๊ทธ๋ฆฌ๊ณ  SQuAD 1.1์—์„œ ์„ฑ๋Šฅ์ด ๋‘๋“œ๋Ÿฌ์ง€๊ฒŒ ํ•˜๋ฝํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋˜, ์–‘๋ฐฉํ–ฅ attention ๋ชจ๋ธ์˜ ์˜ํ–ฅ์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด "No NSP"์™€ "LTR & No NSP"๋ฅผ ๋น„๊ตํ•ด๋ดค๋”๋‹ˆ LTR๋ชจ๋ธ์ด MLM๋ณด๋‹ค ๋ชจ๋“  ํƒœ์Šคํฌ์—์„œ ๋” ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ƒˆ๋‹ค. ํŠนํžˆ MRPC์™€ SQuAD์—์„œ ๋Œ€ํญ ํ•˜ํ–ฅ๋๋‹ค.

  • ์™œ ๋Œ€ํญ ํ•˜ํ–ฅํ–ˆ์„๊นŒ? MRPC๋Š” ์˜จ๋ผ์ธ ๋‰ด์Šค์—์„œ ์ž๋™์œผ๋กœ ์ถ”์ถœ๋œ ๋‘ ๋ฌธ์žฅ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ํ™•์ธํ•˜๋Š” Task์ด๊ณ  SQuAD๋Š” ์งˆ๋ฌธ/๋‹ต๋ณ€ ์Œ์ด๋‹ค. ํŠนํžˆ ๋‘๊ฐœ์˜ ๋ฌธ์žฅ์Œ์„ ์ด์šฉํ•œ Task์—์„œ LTR ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋”๋‹ˆ ์„ฑ๋Šฅ์ด ํ•˜๋ฝํ•œ ๊ฒƒ. LTR๋ณด๋‹ค MLM์ด ๋ฌธ์žฅ ๋ ˆ๋ฒจ์˜ attention์„ ์ž˜ ํ‘œํ˜„ํ•˜๊ณ  ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

SQuAD ๋ฐ์ดํ„ฐ์…‹์—์„œ LTR ๋ชจ๋ธ์˜ token ์˜ˆ์ธก์ด ํ˜•ํŽธ ์—†์Œ์„ ๋ถ„๋ช…ํžˆ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Š” token-level์—์„œ์˜ hidden states๋Š” ์˜ค๋ฅธ์ชฝ sequence์˜ ๋ฌธ๋งฅ์ •๋ณด๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. LTR ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ๋ผ๋Š” ์„ ์˜(์ด๋ฏธ, BERT์—์„œ bidirectionality์˜ ์ค‘์š”์„ฑ์„ ๋งํ•ด์คฌ๊ธฐ ๋•Œ๋ฌธ์— constraintํ•œ LTR์€ ์ด์ œ degenerateํ•œ ๋ชจ๋ธ์ด ๋˜์—ˆ์ง€๋งŒ ํ•œ๋ฒˆ ํšŒ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐํšŒ๋ฅผ ์ค€๋‹ค๋ผ๋Š” ์˜๋ฏธ๋กœ ๋ฐ›์•„๋“ค์—ฌ์ง„๋‹ค)๊ฐ€ ์ƒ๊ฒจ์„œ ๋ชจ๋ธ์˜ ๊ฐ€์žฅ ์œ„์ชฝ์— ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ BiLSTM์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค. ์ด๊ฒƒ์€ SQuAD ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ๋Š” ๋‘๋“œ๋Ÿฌ์ง„ ๊ฐœ์„ ์„ ๋ณด์˜€๋‹ค. ํ•˜์ง€๋งŒ ์•„์ง๋„ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ์˜ ์„ฑ์ ๋ณด๋‹ค๋Š” ๊ฝค ๋งŽ์ด ๋ชป๋ฏธ์ณค๋‹ค. BiLSTM์€ (์˜คํžˆ๋ ค) GLUE task์˜ ์„ฑ์ ์„ ๋” ํ•ด์ณค๋‹ค.

๋ฌผ๋ก , ELMO๊ฐ€ ๊ทธ๋žฌ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ LTR๊ณผ RTL ๋ชจ๋ธ์„ ๊ฐ๊ฐ ํ•™์Šตํ•˜๊ณ  ๋‘ ๋ชจ๋ธ์˜ representation์„ concatenationํ•ด์„œ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ (a) ์ด๋Š” ํ•˜๋‚˜์˜ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ๋ณด๋‹ค ๋‘ ๋ฐฐ ๋” ๋น„์‹ผ ๋ฐฉ๋ฒ•์ด๋‹ค. (b) ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ QA task์— ๊ด€ํ•ด์„œ๋Š” ๋น„์ง๊ด€์ ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด RTL ๋ชจ๋ธ์€ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์„ ์กฐ์ ˆํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. (c) ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ์€ ๋ชจ๋“  ๋ ˆ์ด์–ด์—์„œ ๋™์‹œ์— ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ์˜ ๋ฌธ๋งฅ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ณด๋‹ค๋Š” ๋ถ„๋ช…ํžˆ ์„ฑ๋Šฅ์ด ๋‚ฎ์„ ์ˆ˜ ๋ฐ–์— ์—†๋‹ค.

5.2 Effect of Model Size

์ด๋ฒˆ ์žฅ์—์„œ๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ fine tuning์‹œ task์— ์ •ํ™•๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ๋‹ค. ์šฐ๋ฆฌ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ ˆ์ด์–ด ์ˆ˜, hidden unit, attention heads๋ฅผ ์กฐ์ ˆํ•ด๊ฐ€๋ฉฐ ์—ฌ๋Ÿฌ BERT ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผฐ๋‹ค. ์ด ๋•Œ ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์€ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์ด์ „์— ์‚ฌ์šฉํ•œ๊ฒƒ๊ณผ ๋™์ผํ•˜๋‹ค.

GLUE tasks๋กœ ์ง„ํ–‰๋œ ๊ฒฐ๊ณผ๋Š” ํ‘œ 6์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™” ๋œ 5๊ฐœ์˜ Dev Set์˜ ํ‰๊ท  ์ •ํ™•๋„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. 4๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•˜์—ฌ ๋ชจ๋ธ์ด ํด์ˆ˜๋ก ํ™•์‹คํ•œ(=strict, ์—„๊ฒฉํ•œ) ์ •ํ™•๋„ ๊ฐœ์„ ์„ ์ด๋ฃจ์–ด์ง€๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. MRPC ๋ฐ์ดํ„ฐ๋Š” ๊ฒจ์šฐ 3600๊ฐœ์˜ ๋ผ๋ฒจ๋ง ๋œ ๋ฐ์ดํ„ฐ๋งŒ์ด ์กด์žฌํ•˜๊ณ  pre-training task์™€๋Š” ๋Œ€์ฒด๋กœ ์ฐจ์ด๊ฐ€ ์žˆ๋Š”๋ฐ๋„ ๋ง์ด๋‹ค. ๋†€๋ž„์ง€๋„ ๋ชจ๋ฅด๋Š”๋ฐ, ์šฐ๋ฆฌ๋Š” ๊ธฐ์กด์— ์ด๋ฃจ์–ด์ง„ ์—ฐ๊ตฌ๋“ค์—์„œ ์†Œ๊ฐœ๋œ(=๋งค์šฐ ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์ด ์žˆ๋Š”) ๋ชจ๋ธ๋“ค์˜ ๊ผญ๋Œ€๊ธฐ์—์„œ (ํ•œ๋ฒˆ ๋” ) ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ์ด๋ฃจ์–ด๋ƒˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Vaswani et al. (2017)์— ์†Œ๊ฐœ๋œ ์ดˆ๋Œ€ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ(L=6, H=1024, A=16)๋Š” ์ธ์ฝ”๋”์—์„œ๋งŒ 1์–ต๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ณ  Al-Rfou et al., 2018์— ์†Œ๊ฐœ๋œ (๋˜ ๋‹ค๋ฅธ) ์ดˆ๋Œ€ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ(L=64, H=512, A=2)๋Š” 2.35์–ต๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. (์ด์ „ ๋ชจ๋ธ๋„ ํฌ๊ธฐ๋ฅผ ๋งค์šฐ ํฌ๊ฒŒ ํ‚ค์› ์—ˆ๋Š”๋ฐ ์šฐ๋ฆฌ ๋ชจ๋ธ๋„ ํฌ๊ธฐ๋ฅผ ํ‚ค์›Œ์„œ ์„ฑ๋Šฅ์„ ๋†’์˜€๋‹ค.) ๋Œ€์กฐ์ ์œผ๋กœ(=ํฌ๊ธฐ๋ฅผ ํ‚ค์› ์ง€๋งŒ ๋ฒ„ํŠธ์˜ ์„ฑ๋Šฅ์ด ๋” ๋†’๋‹ค๋Š” ์ ์ด ๋Œ€์กฐ์ ์œผ๋กœ ํ‘œํ˜„ํ•œ ๋“ฏ) ๋ฒ„ํŠธ ๋ฒ ์ด์Šค ๋ชจ๋ธ์€ 1.1์–ต๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ, ๋ฒ„ํŠธ ๋ผ์ง€ ๋ชจ๋ธ์€ 3.4์–ต๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„๋‹ค.

  • dev set์€ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ valid set์„ ์˜๋ฏธํ•œ๋‹ค.

  • pre-training task์™€ MRPC๊ฐ€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๋Š” ๋ถ€๋ถ„์€ ๊ธฐ์กด์˜ task๋“ค์€ pre-train ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋ฏธ์„ธ์กฐ์ •ํ•  ๋•Œ ํฐ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์กฐ์ •ํ•œ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ์ž‘์„์ˆ˜๋ก ์˜ค๋ฒ„ํ”ผํŒ…๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋งŽ๊ธฐ ๋–„๋ฌธ์ด๋‹ค. ๋ฐ˜๋ฉด์— MRPC๋Š” ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ž‘๊ฒŒ ํ•™์Šต๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๊ธฐ์— ์ด๋Ÿฐ ์ƒํ™ฉ์ด ๋‹ค๋ฅด๋‹ค๊ณ  ์ด์•ผ๊ธฐ

๋ชจ๋ธ ์‚ฌ์ด์ฆˆ๋ฅผ ํ‚ค์šฐ๋ฉด ๊ธฐ๊ณ„๋ฒˆ์—ญ์ด๋‚˜ ์–ธ์–ด ๋ชจ๋ธ๋ง๊ฐ™์€ ๋งค์šฐ ํฐ task๋“ค์— ๋Œ€ํ•ด ๊ณ„์† ์„ฑ๋Šฅ์ด ๋Š˜์–ด๋‚œ๋‹ค๋Š” ๊ฒƒ์€ ์ด์ „๋ถ€ํ„ฐ ์•Œ๊ณ ์žˆ์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ์‹ค์€ ํ‘œ 6์—์„œ held-out training data๋ฅผ ๊ฐ€์ง€๊ณ  ํ‰๊ฐ€๋œ LM perplexity ์ ์ˆ˜๋กœ๋„ ์ฆ๋ช…๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๊ฐ€ ์ตœ์ดˆ๋กœ ์ฆ๋ช…ํ•œ ๊ฒƒ์€ (๋‹จ์ˆœํžˆ ํฐ task๋“ค ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ) pre training๋งŒ ์ถฉ๋ถ„ํžˆ ์ž˜ ๋˜์—ˆ๋‹ค๋ฉด ๋งค์šฐ ์ž‘์€ task์— ๋Œ€ํ•ด์„œ๋„ ์—„์ฒญ๋‚œ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ํ™•์‹คํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. (๊ทธ๋ž˜์„œ ์œ„์—์„œ 3600๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฐ–์— ์—†๋Š” MRPC๋ฅผ ์–ธ๊ธ‰ํ•œ ๊ฒƒ) Peters et al. (2018b) ์—์„œ๋Š” pre-trained๋œ bi-LM์˜ ์‚ฌ์ด์ฆˆ๋ฅผ 2๊ฐœ์˜ ๋ ˆ์ด์–ด์—์„œ 4๊ฐœ๋กœ ๋Š˜๋ ธ์„ ๋•Œ downstream task์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•œ ์„œ๋กœ ๋‹ค๋ฅธ(=mixed) ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋†“์•˜๋‹ค. ๋˜, Melamud et al. (2016) ์—์„œ๋Š” in passing(=์ฐจ์›์„ ํ‚ค์šฐ๋Š” ๊ณผ์ •์—์„œ) hidden ์ฐจ์›์„ 200์—์„œ 600์œผ๋กœ ๋Š˜๋ ธ์„ ๋•Œ๋Š” ๋„์›€์ด ๋์ง€๋งŒ 1000์œผ๋กœ ๋Š˜๋ ธ์„ ๋•Œ๋Š” ๋”์ด์ƒ์˜ ๊ฐœ์„ ์ด ์—†์—ˆ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ๋“ค์€ feature-based ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค. (๊ทธ๋ž˜์„œ) ์šฐ๋ฆฌ๋Š” fine tuned ๋ฐฉ์œผ๋กœ downstream task๋ฅผ ์ง์ ‘์ ์œผ๋กœ ํ•ด๊ฒฐํ•  ๋•Œ ๋งค์šฐ ์ž‘์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์ถ”๊ฐ€์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ . ํŠน์ • task๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ์€ pretrained ๋ชจ๋ธ์ด ์ปค์ง€๊ณ , downstream task data๊ฐ€ ์ž‘์„ ๋•Œ ์„ฑ๋Šฅ์ด ๋‚˜์˜ฌ ๊ฒƒ์ด๋ผ ๊ฐ€์ •ํ–ˆ๋‹ค.

5.3 Feature-based Approach with BERT

์ง€๊ธˆ๊นŒ์ง€ ๋ฒ„ํŠธ๊ฐ€ ๋ณด์—ฌ์ค€ ๊ฒฐ๊ณผ๋Š” fine tuning ์ ‘๊ทผ๋ฒ•์ด ์‚ฌ์šฉ๋˜์—ˆ๊ณ  fine tune ํ•  ๋•Œ๋Š” ๊ฐ„๋‹จํ•œ ๋ถ„๋ฅ˜๊ธฐ๋งŒ pre trained ๋ชจ๋ธ์— ์ถ”๊ฐ€ํ•˜๋ฉด ๋œ๋‹ค. ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” down stream task์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ feature based ๋ฐฉ๋ฒ•์€ feature๊ฐ€ ๊ณ ์ •๋˜์–ด์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์žฅ์ ์„ ๊ฐ€์ง„๋‹ค. ์ฒซ๋ฒˆ์งธ, ๋ชจ๋“  task๊ฐ€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋” ๊ตฌ์กฐ๋กœ ๋‚˜ํƒ€๋‚ด์ง€๋Š” ํŠน์ง•์„ ์‚ฌ์šฉํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•ด์ง„๋‹ค. ๋‘๋ฒˆ์งธ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ๋ฒˆ ๋งค์šฐ ๋น„์‹ธ๊ฒŒ ํ›ˆ๋ จํ•ด์„œ ํŠน์ง•์„ ์–ป๊ณ  ๋‚˜๋ฉด ๊ทธ ๋’ค์— ๋ชจ๋ธ์— ๋น„์šฉ์ด ๊ฐ’์‹ผ ๋ชจ๋ธ์„ ๋ถ™์—ฌ์„œ ๋งŽ์€ ์‹คํ—˜์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด๋ฒˆ ์žฅ์—์„œ๋Š” BERT์— ๋‘ ๊ฐœ์˜ ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•ด NER task๋ฅผ ์ ์šฉํ•ด๋ดค๋‹ค. ๋ฒ„ํŠธ๋กœ ์ž…๋ ฅ์„ ์ค„ ๋•Œ case-preserving(=๋Œ€์†Œ๋ฌธ์ž๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š”) WordPiece mdoel์„ ์‚ฌ์šฉํ–ˆ๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ์ œ๊ณตํ•˜๋Š” context ์ •๋ณด๋ฅผ ์ตœ๋Œ€๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค.(=constraint attention์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค๋Š” ๋œป ๊ฐ™๋‹ค. global attention์œผ๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ๋œป ๊ฐ™์Œ)

Table 6

๋ฒ„ํŠธ์˜ ๋ชจ๋ธ ์‚ฌ์ด์ฆˆ์— ๋Œ€ํ•œ ablation ์‹คํ—˜์ด๋‹ค. #L์€ ๋ ˆ์ด์–ด์˜ ์ˆ˜ #H๋Š” ํžˆ๋“  ์ฐจ์›, #A๋Š” attention head์˜ ์ˆ˜์ด๋‹ค. LM(ppl)์€ held-out๋ฐฉ์‹์˜ training data์˜ MLM perplexity ์ด๋‹ค.

  • ppl์€ perplexity์˜ ์ค€๋ง๋กœ ๋ชจ๋ธ ๋‚ด์—์„œ ์ž์‹ ์˜ ์„ฑ๋Šฅ์„ ์ˆ˜์น˜ํ™” ํ•œ ๋‚ด๋ถ€ํ‰๊ฐ€์ด๋‹ค. ์™ธ๋ถ€ํ‰๊ฐ€๋ณด๋‹ค ์กฐ๊ธˆ ๋ถ€์ •ํ™•ํ•  ์ˆ˜๋Š” ์žˆ์ง€๋งŒ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ๋น ๋ฅด๊ฒŒ ์‹์œผ๋กœ ๊ณ„์‚ฐ๋˜์–ด์„œ ๋” ๊ฐ„๋‹จํ•œ ํ‰๊ฐ€๋ฐฉ๋ฒ•์ด๋‹ค.

    • ์ด ๋œป์€ ์ง์—ญํ•˜๋ฉด ํ˜ผ์žกํ•œ, ํ—ท๊ฐˆ๋ฆฌ๋Š” ์ด๋ผ๋Š” ๋œป์ด๋ฉฐ ์‹ค์ œ๋กœ ์–ผ๋งˆ๋‚˜ ํ—ท๊ฐˆ๋ฆฌ๋ƒ์— ๋Œ€ํ•œ ์ฒ™๋„์ด๋‹ค.

    • ppl์€ ๋‹จ์–ด์˜ ์ˆ˜๋กœ ์ •๊ทœํ™” ๋œ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ™•๋ฅ ์˜ ์—ญ์ˆ˜์ธ๋ฐ, ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด ํŠน์ • ์‹œ์ ์—์„œ ํ‰๊ท ์ ์œผ๋กœ ๋ช‡ ๊ฐœ์˜ ์„ ํƒ์ง€๋ฅผ ๊ฐ€์ง€๊ณ  ๊ณ ๋ฏผ์„ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.

    • ์ด ์ˆ˜์น˜๊ฐ€ ๋‚ฎ์„ ์ˆ˜๋ก ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค. ์ด ๊ฐ’์ด ๋‚ฎ์œผ๋ฉด ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๊ฒŒ ๋œ๋‹ค.

  • held-out์€ ๊ต์ฐจ๊ฒ€์ฆ์— ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์“ฐ์ด๋Š” hold-out ๊ต์ฐจ๊ฒ€์ฆ์˜ ์˜๋ฏธ๋กœ ์“ฐ์ธ๊ฒƒ์œผ๋กœ ์ถ”์ธก๋œ๋‹ค. hold-out ๊ต์ฐจ๊ฒ€์ฆ์€ ๋ฐ์ดํ„ฐ์…‹์€ ํ›ˆ๋ จ์…‹๊ณผ ํ…Œ์ŠคํŠธ์…‹ ๋˜๋Š” ํ›ˆ๋ จ์…‹๊ณผ ํ…Œ์ŠคํŠธ์…‹๊ณผ ๊ฒ€์ฆ์…‹์œผ๋กœ ๋‚˜๋ˆ„์–ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์˜๋ฏธํ•œ๋‹ค.

PreviousPaper AnalysisNextTransformer

Last updated 3 years ago

Was this helpful?

์ด ๋ถ€๋ถ„์€ ๋…ผ๋ฌธ์˜ ํ•ด์„๊ณผ๋Š” ํฌ๊ฒŒ ๊ด€๋ จ์ด ์—†์„ ์ˆ˜ ์žˆ์œผ๋‚˜ GLUE์˜ Task๋“ค์„ ์„ค๋ช…ํ•˜๋Š” ์ข‹์€ ๋งํฌ๊ฐ€ ์žˆ์–ด ์ถ”๊ฐ€ํ•œ๋‹ค.

์ฐธ๊ณ ๋งํฌ