Paper | https://arxiv.org/pdf/2105.09680.pdfGithub | https://klue-benchmark.com/
Homepage | https://klue-benchmark.com/
Notion (Task๋ณ ์ ๋ฆฌ ver.)
KLUE: Korean Language Understanding Evaluation
Paper | https://arxiv.org/pdf/2105.09680.pdf Github | https://klue-benchmark.com/ Homepage | https://klue-benchmark.com/
awake-roast-a5b.notion.site
0. Abstract
- 8๊ฐ์ ํ๊ตญ์ด ์์ฐ์ด ์ดํด ํ์คํฌ
- Topic Classification
- Semantic Textual Similarity
- Natural Language Inference
- Named Entity Recognition
- Relation Extraction
- Dependency Parsing
- Machine Reading Comprehension
- Dialogue State Tracking
- ๋ชจ๋ธ ๋ฐฐํฌ : PLM, KLUE-BERT, KLUE-RoBERTa
- ๋ฐ์ ๋ ์
- KLUE-RoBERTa large : ๋ค์ค์ธ์ด PLM์ด๋ ๊ธฐ์กด ํ๊ตญ์ด PLM ์คํ์์ค๋ฅผ ํฌํจํ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ข์
- pretrained corpus์์ PII ๊ต์ฒดํ๋๋ผ๋ ์ฑ๋ฅ ์ ํ ์ต์ํ == ๊ฐ์ธ์ ๋ณด๋ณดํธ์ NLU ๊ธฐ๋ฅ ์์ถฉ X
- ํํ์ pre-tokenization + BPE tokenization, ํํ์ ๋จ์ ํ๊น /๊ฐ์ง/์์ฑ์ ํจ๊ณผ์
1. Introduction
- NLU์์ ํจ๊ณผ์ฑ ํ๊ฐ ์ํ ์ ๋ง๋ ๋ฒค์น๋งํฌ๋ฅผ ํตํด BERT๋ GPT ์ฑ๊ณต ๊ฐ๋ฅ
- ํ๊ตญ์ด NLU ํ๊ฐ ์ํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ตฌ์ถ
1.1. Summary
[Design Principles]
- ๋ค์ํ ํ์คํฌ์ ์ฝํผ์ค ์ข ํฉ : ๋ค์ํ ์ธก๋ฉด์์์ ์ธ์ด ์ดํด > 8๊ฐ์ง ํ์คํฌ์์ ๋ค์ํ ๋๋ฉ์ธ ์ปค๋ฒํด์ผ
- ๋๊ตฌ๋ ์ ํ ์์ด ์ ๊ทผ ๊ฐ๋ฅ
- ์ ํํ๊ณ ๋ช ํํ ์ฃผ์
- AI ์ค๋ฆฌ์ ๋ฌธ์ ์ํ
[Diverse Task Selection]
๋ค์ ๋ ๊ฐ์ง ๋ชฉ์ ์ ๊ฐ์ง๊ณ ํ์คํฌ ์ ํ
- ํ๊ตญ์ด NLU์ ๋ค์ํ ์ธก๋ฉด ์ปค๋ฒ ๊ฐ๋ฅ
- ํ ์คํฌ ์ค๋ณต์ฑ ์ต์ํ : Topic Modeling, Semantic Textual Similarity, Naturl Language Inference ๋ฑ
[source Corpra Collection]
- derivative / ์ฌ๊ฐ๊ณต / ์์
์ ์ด์ฉ ๊ฐ๋ฅํ ์ ์๊ถ ๋ฌธ์ ์๋ 10๊ฐ์ง ๋ฐ์ดํฐ ์์ค ์ฌ์ฉ
- ์ผํ ๋ด์ค ํค๋๋ผ์ธ, ์ํคํผ๋์, ์ํค๋ด์ค, ์ ์ฑ ๋ด์ค, ParaKQC, Airbnb ๋ฆฌ๋ทฐ, ๋ค์ด๋ฒ Sentiment Movie Corpus, ํ๊ตญ ๊ฒฝ์ ๋ด์ค, Acrofan ๋ด์ค
- Annotation ์งํ ์ ์ ๋
ธ์ด์ฆ / ์ ํด ์ปจํ
์ธ / ์ฌํ์ ํธํฅ ์ปจํ
์ธ / ๊ฐ์ธ์๋ณ์ ๋ณด(PII)๋ ์ ๊ฑฐ
- ์ฌ์ ์ ์๋ ๋ฃฐ๊ณผ ML ์ ํตํด ์๋ํ
[Consideration in Annotation]
- ๊ฐ ํ์คํฌ๋ณ๋ก ์์ฒ ์ฝํผ์ค Annotation
- ์งํ ์ ๊ณ ๋ ค์ฌํญ
- ํ๊ตญ์ด ์ธ์ด์ ํน์ฑ์ ๋ ์ ๋ฐ์ํด์ผ ํ ๊ฒ
- ์ ํํ annotation์ด ์งํ๋ ๊ฒ
- ์ ํดํ ์ฌํ์ ํธ๊ฒฌ ์ํ ๋ฐ PII ์ ๊ฑฐ
[Evaluation Metrics]
KLUE ๋ด ๋ค์ํ ํ์คํฌ๋ฅผ ์ํด ์ ์ ํ ํ๊ฐ์งํ๋ฅผ ๊ฐ๊ฐ ์ ํํด์ผ ํจ.
- KLUE-TC (์ฐํฉ๋ด์ค ํ ํฝ ๋ถ๋ฅ YNAT)
- 7๊ฐ์ง ํด๋์ค๋ก์ ๋ค์ค๋ถ๋ฅ ๋ฌธ์ ๋ก ์ ์
- 7๋ง ๊ฐ์ ํค๋๋ผ์ธ ์ฃผ์์ฒ๋ฆฌ
- macro F1 score
- KLUE-STS
- ๋ฌธ์ฅ ์ ๊ฐ ์ ์ฌ์ฑ ๋ฑ๊ธ (0~5)
- ์ค์ -์์ธก ์ฌ์ด์ ํผ์ด์จ ์๊ด ๊ณ์
- Parapharase detection : F1 score
- KLUE-NLI
- SNLI๊ณผ MNLI๊ณผ ๊ฐ์ NLI ๋ฐ์ดํฐ์
๊ณผ ์ ์ฌํ๊ฒ ๋ถ๋ฅ ์ ํ๋ ์ฌ์ฉ
- SNLI (Standford Natural Language Inference) : entailment, contradiction, neutral ๋ผ๋ฒจ๋ง ๋ 570k์ ๋ฌธ์ฅ์
- MNLI (Multi-Genre Natural Language Inference) : entailment ๋ผ๋ฒจ๋ง๋ 433k์ ๋ฌธ์ฅ์
- ๊ท ํ ์๋ ํด๋์ค ๋ถํฌ ๊ฐ๋๋ก KLUE-NLI dev/test set ์ ์
- SNLI๊ณผ MNLI๊ณผ ๊ฐ์ NLI ๋ฐ์ดํฐ์
๊ณผ ์ ์ฌํ๊ฒ ๋ถ๋ฅ ์ ํ๋ ์ฌ์ฉ
- KLUE-NER
- BIO ํ๊ทธ ์ถ๋ ฅ
- 6ํ์ (์ฌ๋, ์์น, ์กฐ์ง, ๋ ์, ์๊ฐ, ์๋)์ผ๋ก ์นดํ ๊ณ ๋ผ์ด์ง
- entity-level & character-level : F1 score
- KLUE-RE
- ๋ฌธ์ฅ ๋ถ๋ฅ ํ์คํฌ
- ๋ ๊ฐ์ ์ํฐํฐ ์๋ ํ ๋ฌธ์ฅ -> 30 ํ์ ์ ๊ด๊ณ๋ก ์ถ๋ ฅ
- ์๋ฏธ ์๋ ์ ํ(๊ด๊ณ์์ ์ ์ธ)๋ง ๊ณ ๋ คํ macro F1 : ํ์์ ์ํฐํฐ์์ ์ธ๋ถํ๋ ๊ด๊ณ ์๋ณํ๋ NLU ์์คํ ๋ฅ๋ ฅ ํ๊ฐ
- AUPRC : ๊ด๊ณ ์ถ์ถ ๋ชจ๋ธ ํ์ง์ ๋ํ ์๊ฐํ
- KLUE-DP
- ์ข
์์ฑ ๊ตฌ๋ฌธ ๋ถ์ ํ์ค ๊ดํ์ ๋ฐ๋ผ UAS&LAS ์ฌ์ฉ
- Unlabeled Attachment Score (UAS)
- Labeled Attechment Score (LAS)
- ๊ณต์(๋ด์ค)&๋น๊ณต์(๊ตฌ์ด์ฒด ๋ฆฌ๋ทฐ) ํ ์คํธ์ ์ฃผ์ ๋ฌ์ ์ฌ๋ฌ ๋๋ฉ์ธ์ ๊ฑธ์ณ ์ธ๋ถํ ๋ถ์
- ์ข
์์ฑ ๊ตฌ๋ฌธ ๋ถ์ ํ์ค ๊ดํ์ ๋ฐ๋ผ UAS&LAS ์ฌ์ฉ
- KLUE-MRC
- KLUE-NER๊ณผ ์ ์ฌํ๊ฒ span prediction problem
- ๊ธฐ์กด ๋ฐ์ดํฐ์ ๊ณผ ๋น๊ต ์ํ EM
- ROUGE-W : LCCS ๊ธฐ๋ฐ F1 score ์ฌ์ฉ
- KLUE-DST (Wizard of Seoul)
- multiple-sentence slot-value prediction
- Joint goal accuracy : ๋ชจ๋ ์ฌ๋กฏ์ด ๋ฐ๋ฅด๊ฒ ์์ธก๋์๋์ง ํ๊ฐ
- ํ๊ท F1 score
- ์ธ๋ถํ๋ ๋ถ์์ ์ฉ์ด์ฑ์ ์ํด ์ฌ๋ฌ ๋๋ฉ์ธ ์ฌ์ฉํ์ฌ ๊ตฌ์ถ
[Baselines]
Model | Task |
KLUE-BERT | KLUE-TC (YNAT) |
KLUE-DST (Wos) |
|
KLUE-RoBERTa | KLUE-RE |
KLUE_MRC | |
KoELECTRA BASE | KLUE-STS |
KLUE-NLI | |
KLUE-RoBERTa LARGE | KLUE-NER |
- PII ์ ๊ฑฐ, ์ฑ๋ฅ ์ ํ์ ๋ฏธ์น๋ ์ํฅ ๋ฎ์
- ํํ์ ๊ธฐ๋ฐ ํ์ ๋จ์ด ํ ํฐํ, ํํ์ ๋ ๋ฒจ์์ ํ๊น /๊ฐ์ง/์์ฑ ๊ด๋ จ ์์ ์ ํจ๊ณผ์
2. Sourc Corpora
๊ธฐ์กด ๋ฐ์ดํฐ์ ์ฌ์ฉ ์์ด ์ฒ์๋ถํฐ ๊ตฌ์ถ
2.1. Coprpora Selection Criteria
- ์ ๊ทผ์ฑ : ์ต๋ํ ์ ํ X, ์์ ๋กญ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅ
- ๋ค์์ฑ : ๋ฎ์ ํ์ง์ ํ ์คํธ๋ ์ ๊ฑฐํ๋ฉฐ ์ผ์ ์์ค์ ํ์ง ๊ฐ์ง๋๋ก ๊ณต์(๋ฌธ์ด)&๋น๊ณต์(๊ตฌ์ด) ํ ์คํธ ๊ฐ ๊ท ํ
[Accessibility]
- ์ฌ์ฉ ์ ํ ์์ : ์์ &๋น์์ ๋ชจ๋ ํ์ฉ
- ํ์ : ์ฌ์ฉ์๋ ์์ ๋กญ๊ฒ ์ฌ๊ฐ๊ณตํ์ฌ ๋จ์ (์ค๋ฆฌ์ ๋ฌธ์ , ์ฃผ์ ์ค๋ฅ ๋ฑ) ํด๊ฒฐ
- ์ฌ๋ฐฐํฌ ๊ฐ๋ฅ
[Quality and Diversity]
- ์ ๊ทผ์ฑ ๊ณ ๋ คํ 20๊ฐ Corpora Dataset ์ค ๋ค์ ๊ธฐ์ค ๊ณ ๋ คํ์ฌ 10๊ฐ ์ ์
- ๋ค์์ฑ : ์ข์ ์์ญ ํน์ X
- ํ์ง : ํ๋ ํ๊ตญ์ด๋ก ์์ฑ / ์ฌ์ํ์ด๋ ์ ๋ ์ฑ ์ฐ๋ ค ์ฝํ ์ธ X
- 8๊ฐ์ง ํ์คํฌ ์ค ์ ์ด๋ ํ๋์ ์ฃผ์ ๋ฌ ์ ์์ด์ผ ํจ
- ๊ณต์&๊ตฌ์ด์ฒด ๋ชจ๋ ๋ค๋ฃฐ ์ ์๋ ๋ถ๋ถ ์งํฉ ์ ํ
- ์์ง๋ Corpora ์๋ฃ
- ๋ณผ๋์ฒด : ์ต์ข ์ ์ ๋ Corpora Dataset
- ์ฉ๋ : Small (~1k) / Medium (1k~50k) / Large (50k~)
2.2. Selected Corpora
๊ฐ๊ฐ์ ์์ง ๋ฉ์ปค๋์ฆ, ๊ธฐ๊ฐ, ๋๋ฉ์ธ, ์คํ์ผ, ๋ผ์ด์ผ์ค, ๋ฐฐ๊ฒฝ
Dataset | ์ค๋ช | ์ ์๊ถ | ์์ง๊ธฐ๊ฐ(๊ธฐ์ค) |
New Headline (YNA) |
์ฐํฉ๋ด์ค ํค๋๋ผ์ธ, ๋จ์ผ ๋ฌธ์ฅ ๋ถ๋ฅ์ ์ฌ์ฉ |
- | 2016~2020 |
Wikipeida | ๊ณต์ ๋ฌธ์ฒด ๊ฐ์ง ๊ณต๊ฐ ๋ฐฑ๊ณผ์ฌ์ | CC BY-SA 3.0 | 2020.12.01 |
Wikinew | ์ง๋จ ์ ๋๋ฆฌ์ฆ, ๋ฌด๋ฃ ์ ๊ณต ๋ด์ค ๊ธฐ์ฌ ์ฝ 500๊ฐ |
CC BY 2.5 | |
Wikitree | Wikitree ์ ๊ณต ๋ด์ค ๊ธฐ์ฌ ๋ฐ์ดํฐ์
, 2010๋ ์ ์์๋ ํ๊ตญ ์์ ๋ฏธ๋์ด ๊ธฐ๋ฐ ๋ด์ค ํ๋ซํผ, ๊ด๊ณ ๋ ํด๋ฆญ ๋ฏธ๋ผ์ฉ ํค๋๋ผ์ธ ํตํ ๋ถ์ ์ ํ ํธ๊ฒฌ ํํ๋๊ธฐ๋ ํ์ง๋ง ๊ด๋ฒ์ํ ์ฃผ์ ๋ฅผ ์ปค๋ฒํ๊ณ ์์ด ํฌํจ *2.2.1์ ์ธ๊ธ๋๋ ์ถ๊ฐ์ ์กฐ์น ์งํ |
CC BY-SA 2.0 | 2016~2020 |
Policy News | ํ๊ตญ ๊ตญ๊ฐ ๋ถ์ฒ, ๊ณต๊ณต๊ธฐ๊ด ๋ฐํ ๋ฌธ์, ์ ๋ถ๊ธฐ๊ด์ ๋ฐ์ธ/๊ณต์ง/์ธ๋ก ์ฐธ๊ณ ์ฌํญ |
KOGL Type 1 | ~ 2020 ๋ง |
ParaKQC | ์ค๋งํธํ ๊ธฐ๊ธฐ ์ํ 10,000๊ฐ์ ๋ฐ์ดํฐ์
, 10๊ฐ์ ์ ์ฌ ์ง๋ฌธ์ ๋ํด 1,000๊ฐ ์๋๋ก ๊ตฌ์ฑ, ์ค๋งํธํ ๊ธฐ๊ธฐ์ ๋ํ ์ ๊ฐ๋ฅํ ๋ค์ํ ์ฃผ์ |
CC BY-SA 4.0 | - |
Airbnb Reviews | Airbnb ํํ์ด์ง ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
, Airbnb์์ ์์ง/์ฌ์ ์ฒ๋ฆฌ๋ ๊ธฐ์กด ๋ค๊ตญ์ด ๋ฆฌ๋ทฐ ์ฌ์ฉ, ํ๊ตญ์ด ์์ฑ ๋ฆฌ๋ทฐ ์ผ๋ถ๋ฅผ ์ ๊ท ํํ์ผ๋ก ์๋ณ |
CC0 1.0 | - |
NAVER Sentiment Movie Corpus (NSMC) |
NAVER Movies ์คํฌ๋ฉํ ์ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
, ์จ๋ผ์ธ ์ ์ ๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ๋ก ํ ์คํธ ๋ด์ฉ๊ณผ 2๊ฐ์ง ๊ฐ์ ๋ผ๋ฒจ ์ ๊ณต, ์ด 20๋ง๊ฐ์ ๊ธ์ /๋ถ์ ๊ท ํ์ ์ธ ๋ฐ์ดํฐ์ |
CC0 1.0 | - |
Acrofan News (ACROFAN) |
๋ณด๋์๋ฃ์ ์ ์ฌํ ๊ธฐ์ ์ ์ ํ/์ด๋ฒคํธ ์๊ฐ ๋ด์ค ๊ธฐ์ฌ, ์ ์ฌ ์คํ์ผ/ํ์ ๊ฐ์ถ ๋ค์ํ ๋ฒ์ฃผ ์ปค๋ฒ |
CC BY-SA 4.0 for KLUE-MRC by Contract |
2020.12~2021.01 |
The Korea Economics Daily News |
ํ๊ฒฝ ์ ๋ฌธ ๊ธฐ์ฌ์ง, ๊ฒฝ์ /์ ์น/๋ฌธํ/IT ๋ฑ์ ์ฃผ์ |
CC BY-SA 4.0 for KLUE-MRC by Contract |
2013.01~2015.12 |
2.2.1. Potential Concerns
๋ฐ์ดํฐ ํ์ง ๋ฐ ์ฌํ์ /์ค๋ฆฌ์ ๋ฌธ์ ์ ๋ํ ๊ณ ๋ ค์ฌํญ
[Toxic Contect]
- ๋ด์ค ๊ธฐ์ฌ์ ๋ฐ์๋ ์ ์๋ ๊ธฐ์๋ ํธ์ง์๋ค์ ํธ๊ฒฌ
- ํนํ, Wikitree๋ ์์
๋ฏธ๋์ด ๊ธฐ๋ฐ์ด๋ผ๋ ํน์ฑ์ ๋ค๋ฅธ ๋ด์ค ๊ธฐ์ฌ๋ณด๋ค ์ ์ฌ์ ๋ฌธ์ ์์ ํจํด ํฌํจํ๊ณ ์๋ ๊ฒฝ์ฐ ๋ง์
- TC ๊ตฌ์ฑ ์, Wikitree์ ํค๋๋ผ์ธ ์ฌ์ฉ X
- MRC์ Wikitree ๊ธฐ์ฌ ๋ด์ฉ ์ฌ์ฉ X
- ๋ฌธ์ฅ์ด ์์ ํ๊ณ ํ์์ด ์ข์ ๋ค๋ฅธ ์์ ์ ์ฌ์ฉ
- ํนํ, Wikitree๋ ์์
๋ฏธ๋์ด ๊ธฐ๋ฐ์ด๋ผ๋ ํน์ฑ์ ๋ค๋ฅธ ๋ด์ค ๊ธฐ์ฌ๋ณด๋ค ์ ์ฌ์ ๋ฌธ์ ์์ ํจํด ํฌํจํ๊ณ ์๋ ๊ฒฝ์ฐ ๋ง์
- ์ฃผ์์ฒ๋ฆฌ ์ ๋ฌธ์ ์๋ ๋ฌธ์ฅ ํ๊ธฐ
- ์จ๋ผ์ธ ๋ฆฌ๋ทฐ, ์ ํด ๋ด์ฉ ํฌํจ ๊ฐ๋ฅ์ฑ ๋์
- Airbnb : ์์ ์ ๊ฒ ์์คํ ์ผ๋ก ์ธํ ์ ํด์ฑ ํฌํจ ๋ฆฌ๋ทฐ ๊ฑฐ์ X
- NSMC : ์ํ/๋ฐฐ์ญ/๊ฐ๋ ์ ๋ํ ๋ชจ์์ ๋ฐ์ธ ํฌํจ
- ํ๊ตญ์ด ํ์ค ๋ฐ์ธ ๋ฐ์ดํฐ์ ์ฌ์ฉํ ๊ฒ์ถ๊ธฐ ์ฌ์ฉํ์ฌ ์ ํด ์ปจํ ์ธ ํํฐ๋ง
- ํํฐ๋ง ์งํ ์ดํ ์ฃผ์์ฒ๋ฆฌ ๊ณผ์ ์์ ๋ฌธ์ ์๋ ๋ฌธ์ฅ ํ๊ธฐ
- ์จ๋ผ์ธ ๋ฆฌ๋ทฐ, ์ ํด ๋ด์ฉ ํฌํจ ๊ฐ๋ฅ์ฑ ๋์
[Personally Identifiable Information (PII)]
- ๊ณต์ธ์ผ๋ก ๊ฐ์ฃผ๋์ง ์๋ ๊ฐ์ธ ์๋ณ ๊ฐ๋ฅํ ๋ชจ๋ ์ ๋ณด (ex. ์ด๋ฆ, ์ฌํ ๋ณด์ ๋ฒํธ, ์ ํ๋ฒํธ, ๊ณ์ข๋ฒํธ ๋ฑ)
2.3. Preprocessing
- Korean Sentence Splitter(KSS) v2.2.0.2.14 ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ ๋ถํ ํ ์ฌ์ ์ฒ๋ฆฌ ์งํ
- KLUE ์ฃผ์ ์ฒ๋ฆฌ ๋จ๊ณ ๋ด ์๋ ๊ฒ์ฌ ๋ฐ ํํฐ๋ง ์ ์งํ
[Noise Filtering]
๋ ธ์ด์ฆ ํ ์คํธ๋ ํ๊ตญ์ด ์ด์ธ์ ํ ์คํธ ์ ๊ฑฐ
- ํด์ํ๊ทธ, HTMLํ๊ทธ, ์๋ชป๋ ๋ฌธ์, ๋น ๊ดํธ, ์ฐ์ ๊ณต๋ฐฑ ๋ฑ ์ ๊ฑฐ
- ํ์๋ ์ผ๋ณธ์ด 10์ ์ด์์ ๋ฌธ์ฅ ํํฐ๋ง
- ๋ด์ค ๊ธฐ์ฌ Corpora : ๋ฆฌํฌํฐ/์ธ๋ก /์ด๋ฏธ์ง/์์ค/์ ์๊ถ ํ๊ทธ ์ ๋ณด ์ ๊ฑฐ
[Toxic Content Removal]
์์น ์๋ ๋ด์ฉ/์ฑํฅ ํํผ ๋ฐ ๋ถ์ ์ ํ ๋ฌธ์ฅ ์ ๊ฑฐ ๋ชฉ์
- ํ๊ตญ์ด ํ์ค ์ธ์ด ๋ฐ์ดํฐ์
์ฌ์ฉ
- ์ฑ๋ณ ์ฑํฅ, ํ์ค ์์ฑ ๊ฐ์ง๊ธฐ ํ๋ จ
- 0.5 ์ด์์ ์์ธก ์ ์๋ก ์ฑ๋ณ ์ฑํฅ ๋ณด์ด๋ ๋ฌธ์ฅ ํ๊ธฐ
- 0.9 ์ด์์ ์์ธก ์ ์๋ก ํ์ค ๋ฐ์ธ ๋ณด์ด๋ ๋ฌธ์ฅ ํ๊ธฐ
- ์๊ณ๊ฐ์ ๊ฐ corpus์ ๋ํด ์๋์ผ๋ก ๊ฒฐ์
- ์จ๋ผ์ธ ๋ฆฌ๋ทฐ ์ฌ์ฉํ์ฌ ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
- ์จ๋ผ์ธ ํ ์คํธ์ ์ ํฉ
- ๊ณต์์ ํ ์คํธ์๋ ์ ํฉ X -> YNA / ACROFAN / ํ๊ฒฝ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ X
- ์ฑ๋ณ ์ฑํฅ, ํ์ค ์์ฑ ๊ฐ์ง๊ธฐ ํ๋ จ
[PII Removal]
- ๊ฐ์ธ์ ๋ณด ํฌํจ ๋ฌธ์ฅ ์ ๊ฑฐ
- ์ด๋ฉ์ผ ์ฃผ์, URL, ์ฌ์ฉ์ ์ธ๊ธ ํค์๋์ ์ผ์นํ๋ ์ ๊ท์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ ๊ฐ์ง ํ ์ ๊ฑฐ
2.4. Task Assignment
DST ์ ์ธํ 7๊ฐ์ง ํ์คํฌ์ ๋ํด ์์ ๋ฐ์ดํฐ์ ์ฌ์ฉ
* DST, ํฌ๋ผ์ฐ๋์์ปค์ ๊ฐ์ ๋ํ๋ก ๊ตฌ์ถ๋์ด์ ธ ์ ๋ฐ์ดํฐ์ ํ์ X
Task | Dataset | ํด๋น Dataset ์ ํ ์ด์ |
Topic Classification (TC) |
YNA | ๋จ์ผ ๋ฌธ์ฅ ์ฃผ์ ๋ถ๋ฅ |
Semantic Textual Similarity (STS) |
AIRBNB, POLICY, PARAKQC |
๋ค์ํ ์๋ฏธ๋ก ์ ๋ฌธ๋งฅ ํฌํจ * PARAKQC์ ์๋ ์ฟผ๋ฆฌ์ ์ฃผ์ ์ ๋ณด, ์๋ฏธ๋ก ์ ์ ์ฌ ๋ฌธ์ฅ ์ ์์ฑ ์ ์ ์ฉ |
Natural Language Inference (NLI) |
WIKITREE, POLICY, WIKINEWS, WIKIPEDIA, NSMC, AIRBNB |
MNLI๊ณผ ๊ฐ์ด ์ฌ๋ฌ ์์ค |
Named Entity Recognition (NER) |
WIKITREE, NSMC | ๋ช
๋ช
๋ ์ํฐํฐ๊ฐ ์์ฃผ ๋ฑ์ฅ ๊ณต์/๋น๊ณต์ ์์ฑ ์คํ์ผ ํฌํจ |
Relation Extraction (RE) |
WIKIPEDIA, WIKITREE, POLICY |
๊ณต์ธ ์ด๋ฆ๊ณผ ๋ค์ํ ์กฐ์ง ๊ฐ ๊ด๊ณ๊ฐ ์ ํ ๊ธธ๊ณ ์์ ํ ๋ฌธ์ฅ |
Dependency Parsing (DP) |
WIKITREE, AIRBNB | ๊ณต์/๊ตฌ์ด ์์ฑ ์คํ์ผ ๊ท ํ์กํ ์ ์์ฑ๋ ๋ฌธ์ฅ * NSMC๋ณด๋ค AIRBNB์ ๋ฌธ์ฅ์ด ๋ ์ ํ์ฑ๋์ด์์ |
Machine Reading Comprehension (MRC) |
WIKIPEDIA, ACROFAN, The Korea Economy Daily |
์ ์ฉํ ์ ๋ณด ๊ตฌ์ ์ ๊ณต |
3. KLUE Benchmark
- KLUE ๋ชฉ์
- ์์คํ ์ ํ๊ตญ์ด ์ดํด ๋ฅ๋ ฅ ํ ์คํธ ์ํ ๊ณ ํ์ง ํ๊ฐ ๋ฐ์ดํฐ์ ๋ฐ ์ ํฉํ ์๋ ๋ฉํธ๋ฆญ ์ ๊ณต
- Benchmark ๊ตฌ์ฑ ๋ฐฉ์ ์ค๋ช
- ์์ค Corpus ์ ํ ๋ฐฐ๊ฒฝ
- ์ฃผ์ ํ๋กํ ์ฝ
- ์ฃผ์ ํ๋ก์ธ์ค (* 1.1. Summary ๋ด ์ ์ฌ์ ์ค๋ฆฌ ๋ฌธ์ ์ ์ ์ฐธ๊ณ )
- ๋ฐ์ดํฐ์ ๋ถํ ์ ๋ต
- ๋ฉํธ๋ฆญ ์ค๊ณ ํ๋ก์ธ์ค
3.1. Topic Classification (TC) ~ 3.8. Dialogue State Tracking (DST)
* Task Overview์ ๋์ค์ง ์์ ์ฃผ์ ํน์ง ์ ๋ฆฌ
Task | ์ฃผ์ ํน์ง | ํ๊ฐ์งํ |
KLUE-TC | ใ
๋ฐํ์ผ์ ๊ธฐ์ค์ผ๋ก Train / Dev. / Test ๋ถ๋ฆฌ - Train set : 2020๋ ์ด์ ๋ฐํ - Test set : 2020๋ ์ดํ ๋ฐํ |
ใ
Macro F1 score - ๊ฐ ์ฃผ์ ์ ๋์ผํ ์ค์๋๊ฐ ๋ถ์ฌ๋ topic-wise F1 score์ ํ๊ท |
KLUE-STS | ใ
๋ฌธ์ฅ ์ ์ฌ ์ ๋งค์นญ ์ ๋์ผ ์๋ฏธ ๋ค๋ฅธ ํํ์ ๋ฌธ์ฅ ์ป๊ธฐ ์ํด NAVER Papago ์ฌ์ฉํ RTT(Round-Trip Translation) ์ ๋ต ์ฌ์ฉ ใ Greedy sentence matching ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ - ๋๋ค์ผ๋ก ๋ฌธ์ฅ ํ๋๋ฅผ ๊ณจ๋ผ ํด๋น ๋ฌธ์ฅ๊ณผ ROUGE ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ ๋งค์นญ - ์ ์ด๋ค์ง ๋ฌธ์ฅ ์ ์ธํ corpus ๋ด์์ ํด๋น ๊ณผ์ ๋ฐ๋ณต |
ใ
STS-b ํ๊ฐ ์ฒด๊ณ์ ๋ฐ๋ฅธ ํผ์ด์จ ์๊ด๊ณ์ - ์๋ ๋ผ๋ฒจ๋งํ ์ ์ฌ์ฑ ์ ์์ ๋ชจ๋ธ ์์ธก ์ ์ ๊ฐ์ ์ ํ ์๊ด๊ด๊ณ ์ธก์ ใ F1 score - ํจ๋ฌํ๋ ์ด์ฆ ์ฌ๋ถ ์ธก์ ๊ฐ 3์ ์๊ณ๊ฐ์ผ๋ก ๋ ํด๋์ค๋ก ๋๋ ํ ์ด์งํ๋ ๊ฒฐ๊ณผ์ ๋ํ ์ธก์ |
KLUE-NLI | ใ
Train / Dev. / Test ๋ถ๋ฆฌ ์ KLUE-RoBERTa ์ด์ฉ - ๊ฐ์ค ๋ฌธ์ฅ๋ง ์ฌ์ฉํ์ฌ ํ๋ จ์ํจ ํ ๋ผ๋ฒจ ์์ธก๊ฐ์ด 3๊ฐ์ง์ ๋์ผ(์ ์ฌ)ํ ํ๋ฅ ๋ก ๋์ค๋๋ก ํ ์คํธ ์ ๋ถ๋ฅ |
- |
KLUE-NER | ใ ํ๊ตญ์ด ํน์ฑ์ ๋ง๋๋ก character level tagging | ใ
์ํฐํฐ ์์ค macro F1 score (Entitty F1) - ์ํฐํฐ ์์ค์์์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ๋น๊ต - ์ฑ๋ฅ ํฅ์ ์ํด ํ ํฐํ ์ ๊ฒฝ์จ์ผํจ ใ ๋ฌธ์ ์์ค macro F1 score (Char F1) - ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ๋ถ๋ถ ์ค์ฒฉ ์ธก์ - ํด๋์ค๋ณ F1 ์ ์์ ํ๊ท |
KLUE-RE | ใ
๋ฌธ์ฅ ๋ด ์ํฐํฐ&๊ด๊ณ ์ ๋์ถ (e_subj, r, e_obj) ใ ๊ด๊ณ(30) : ์ธ๊ฐ๊ด๊ณ(18), ์กฐ์ง๊ด๊ณ(11), ๊ด๊ณX(1) - ์์ฃผ ์ฌ์ฉํ์ง ์๊ฑฐ๋ ํ๊ตญ ์ง์ญ์ ํน์ง์ ๋ง์ง ์๋ ๊ด๊ณ ํด๋์ค ์ ๊ฑฐ ๋ฐ ํตํฉ |
ใ
๊ด๊ณ X ์ ์ธํ macro F1 score - ๊ฐ ํ๋ณธ์ ๋์ผ ๊ฐ์ค์น ๋ถ์ฌํ์ฌ ๋ค์ ํด๋์ค์ ๋ ๋ง์ ๊ฐ์ค์น๊ฐ ๋ถ์ฌ๋๋๋ก ์ค์ ใ ๋ชจ๋ ๊ด๊ณ ํด๋์ค์ ๋ํ AUPRC - ์ค์ positive ๊ฐ์ด ๊ฑฐ์ ์๋ ๋ถ๊ท ํ ๋ฐ์ดํฐ์์ ์ ์ฉ |
KLUE-DP | ใ
๊ธฐ์กด TTA DP ๊ฐ์ด๋๋ผ์ธ ์์ ํ์ฌ ์ฃผ์์ฒ๋ฆฌ - TTA DP ๊ฐ์ด๋๋ผ์ธ, ๋ฌธ์ด์ฒด๋ง ํฌํจ - ์ฌ์ฉํ ๋ฐ์ดํฐ๋ ๊ตฌ์ด์ฒด์ ์น ๋ฐ์ดํฐ๋ ํฌํจํ๊ธฐ ๋๋ฌธ์ ํ๊ตญ์ด ๊ธฐ์ค์ ๋ง์ถฐ ์์ ํด์ ์ฌ์ฉํจ |
ใ
Unlabeled Attachment score (UAS) - HEAD ์์ธก๋ง ์นด์ดํธ - HEAD ์์ธก์ ๋ํ macro F1 score ๊ณ์ฐ ใ Labeled Attachment score (LAS) - HEAD์ DEPREL ๋ชจ๋ ์นด์ดํธ - HEAD ์์ธก์ด ์ฌ๋ฐ๋ฅธ DEPREL์ ๋ํ macro F1 score ๊ณ์ฐ - DEPREL ๋ถํฌ๊ฐ ๋น๋์นญํ๊ธฐ ๋๋ฌธ์ ๋์ ๋น๋ 1%์ธ ๋ผ๋ฒจ์ ์์ธก์ ํ๋์ ๋ผ๋ฒจ(OTHER)๋ก ๊ฒฐํฉ ํ F1 score ๊ณ์ฐ |
KLUE-MRC | ใ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ ์ํ ๋ด์ค ๊ธฐ์ฌ ๋ฐ์ดํฐ ํ์ฉ | ใ
EM (Exact Match) ใ ๋ฌธ์ ์์ค์ ROUGE-W (= LCCS ๊ธฐ๋ฐ F1) |
KLUE-DST (WoS) | ใ
5๊ฐ์ง ๋๋ฉ์ธ์ ํด๋น๋๋ ์ฃผ๊ณ ๋ฐ๋ ๋ํ ๋ฐ์ดํฐ์
- ์์ธ ๊ด๊ด๊ฐ๊ณผ ์ฌํ์ฌ ๊ฐ์ ๋ํ ์๋ฎฌ๋ ์ด์ - ๋๋ฉ์ธ : ํธํ , ์๋น, ๊ด๊ด์ง, ํ์, ์งํ์ฒ |
ใ
JGA (Joint Goal Accuracy) - ์ด ๋ํํด ์์์ ์ฌ๋กฏ-๊ฐ ์๊ณผ ์ค์ ๊ฐ์ด ์ผ์นํ๋ ๋น์จ ใ Slot micro F1 score - ์์ธก๋ ์ฌ๋กฏ-๊ฐ ์๊ณผ ๊ทธ๋ผ์ด๋-์ค์ ๊ฐ ์ ์ธก์ - ์ค์ ๊ฐ None์ธ ๊ฒฝ์ฐ slot micro F1 score ๋ฌด์๋จ |
4. Pretrained Language Models
- KLUE ์ฌ์ฉํ ์ฐ๊ตฌ์ ์ฉ์ด์ฑ์ ์ํด ๋ชจ๋ ๋ฒค์น๋งํฌ ํ์คํฌ์ ๋ํ ๊ธฐ์ค ์ ๊ณต
- BERT์ RoBERTa ํฌํจํ ์ธ์ด ๋ชจ๋ธ pretrained ํ์ฌ ์ ๊ณตํจ
4.1. Language Models
ํ๋ จ ๊ตฌ์ฑ ๋ณ๊ฒฝ ํตํ ์ฌ๋ฌ ํ๊ตญ์ด ๋ชจ๋ธ ์ฌ์ ํ๋ จ ์งํ
- KLUE-BERT, KLUE-RoBERTa ํ๋ จ
- ์ฌ์ ํ๋ จ ๋ง๋ญ์น, ์ ์ฒ๋ฆฌ ๊ณผ์ , ํ ํฐํ ์ ๋ต ๋ฑ์ ๊ตฌ์ฑ ๋ณ๊ฒฝ
[Pretraining Corpora]
ํ๊ตญ์ด ๋ง๋ญ์น ๋ฐ์ดํฐ์ 5๊ฐ์ง๋ฅผ ๊ฒฐํฉํ์ฌ ์ฝ 62GB์ ์ต์ข pretrained ๋ง๋ญ์น ๊ตฌ์ถ
- MODU
- ๊ตญ๋ฆฝ๊ตญ์ด์์์ ๋ฐฐํฌํ๋ ํ๊ตญ์ด ๋ง๋ญ์น ๋ชจ์
- ๊ณต์ ๊ธฐ์ฌ์ ๊ตฌ์ด์ฒด ํ ์คํธ ๋ชจ๋ ํฌํจ
- CC-100-Kor
- ๋ค๊ตญ์ด ์นํฌ๋กค๋ง ๋ง๋ญ์น๋ก ์ด ์ค ํ๊ตญ์ด ๋ง๋ญ์น๋ง ์ฌ์ฉ
- XLM-R ํ์ต์ ์ฌ์ฉ
- NAMUWIKI
- ํ๊ตญ์ด ์น ๊ธฐ๋ฐ ๋ฐฑ๊ณผ์ฌ์
- WIKIPEDIA์ ์ ์ฌํ์ง๋ง ๋ ํ์์
- NEWSCRAWL
- ๋ด์ค ์ง๊ณ ํ๋ซํผ์์ ์์ง๋ 2011~2020์ ๋ฐํ๋ ๋ด์ค ๊ธฐ์ฌ
- PETITION
- 2017.08~2019.3์ ๋ฐํ๋ ์ฌํ ๋ฌธ์ ์ ๋ํ ์ฒญ์๋ ๊ตญ๋ฏผ์ฒญ์ ๋ชจ์
[Preprocessing]
- 2.3. ์์ ์ธ๊ธํ ๋ฐฉ๋ฒ์ ํตํด ๋ฐ์ดํฐ ๋ ธ์ด์ฆ ํํฐ๋ง
- CC-100-Kor ์ NEWSCRAWL
- ์ ํ์ฑ๋ ๋ฌธ์ฅ ์ ์ง ์ํด ํด๋ฆฌ์คํฑํ ๋ฐฉ๋ฒ์ผ๋ก 200์ ์ด์ ๊ธธ์ด ๋ฌธ์ฅ ์ ์ง
- ์ ์ฌ์ฑ ๊ฒ์ฌ๋ฅผ ํตํด KLUE ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ํฌํ๋ ๋ฌธ์ฅ ์ ๊ฑฐ
[Ethical Considerations]
- ์ฌํ ํธํฅ ๋๋ ํ์ค ๋ฐ์ธ ์ ๊ฑฐ X
- ๋๊ท๋ชจ pretrained ๋ง๋ญ์น์ ๋ํด์ ์๋ ๊ฒ์ฌ ๋ถ๊ฐ๋ฅ
- ์ถํ ์ฌํ ํธํฅ ์ฝํ ์ธ ๋ ํ์ค ๋ฐ์ธ ์๋ ํ์ง ์ํ ํด๋น ๋ฐ์ดํฐ ์ ์ง
- PII, KISA์ ์ง์นจ์ ๋ฐ๋ผ ์ ๊ท ํํ ์ฌ์ฉํ์ฌ 16๊ฐ์ง ๋ฐ์ดํฐ ์ ํ ํ์ง ํ ๊ฐ๋ช ํ ์ฒ๋ฆฌ
[Tokenization]
- ์๋ก์ด ํ ํฐํ ๋ฐฉ๋ฒ morpheme-based subword tokenization ์ฌ์ฉ
- ํํ์ ๋ถ์๊ธฐ(Mecab-ko) ์ฌ์ฉํ์ฌ ํํ์ ๋จ์๋ก ์์ ํ ์คํธ ์ฌ์ ํ ํฐํ
- ์ต์ข ์ ์ผ๋ก BPE(wordpiece) ์ ์ฉ
- 32k ์ฌ์ด์ฆ์ Vocabulary ๊ตฌ์ถ
- ์ดํ์๋ ์ฌ์ฉ์ฑ๊ณผ ์๋ ํฅ์์ ์ํด BPE ๋ชจ๋ธ๋ง ์ฌ์ฉ
[Training Configurations]
- ํ ํฐ ์ํ์ค : ์ต๋ 512๊ฐ
- ์ ์ /๋์ ๋ง์คํน์ ํตํด pretraining ์งํ (๋ง์คํน WWM)
- ์ ์ ๋ง์คํน : BERT์์ ์ ์ฒ๋ฆฌ ์งํ ์ ๋๋คํ๊ฒ ๋ง์คํน ํ ํฐ ์ ์ฉํ๋ ๋ฐฉ์
- ๋์ ๋ง์คํน : RoBERTa์์ ๋ชจ๋ธ์ ์ ๋ ฅ ์ ๋ง์คํน ํ ํฐ ์ ์ฉํ๋ ๋ฐฉ์
- BERT, NSP ์ํ
4.2. Existing Language Models
๋ฒค์น๋งํฌ ํ๊ฐ๋ฅผ ์ํ ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ (๋ค์ค ์ธ์ด ๋ชจ๋ธ 2 + ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ 2)
- mBERT : ํ๊ตญ์ด ํฌํจ 104๊ฐ ์ธ์ด๋ก MLM๊ณผ NSP ์ฌ์ฉํ์ฌ ํ์ตํ ๋ค์ค์ธ์ด BERT
- XLM-R : MLM ์ฌ์ฉํ์ฌ ๋๋ ๋ค์ค ์ธ์ด๋ก RoBERTa ํ์ต
- KR-BERT
- BERT ๊ธฐ๋ฐ ์์ (character) ๋จ์ ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ ์คํ์์ค
- KLUE : KR-BERT character WordPiece ์ฌ์ฉ (16,424 ํ ํฐ)
- KoELECTRA
- MLM๊ณผ RTD๋ก ํ์ต๋ ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ ์คํ์์ค
- ํ์ต ๋ฐ์ดํฐ : ๋ด์ค ํฌ๋กค๋ง ๋ฐ์ดํฐ, MODU corpus
5. Fine-tuning Language Models
5.1. Task-Specific Architectures
8๊ฐ์ง์ KLUE ๋ฒค์น๋งํฌ, fine-tuning ์ ๋ต 4๊ฐ์ง๋ก ๋ถ๋ฅ ๊ฐ๋ฅ
Task-Specific Architecture | Task | ์ค๋ช | |
Single Sentence Classification |
KLUE-TC | ใ
๋ง์ง๋ง ์๋์ธต, ๋ ์ด๋ธ ์์ ๋ฐ๋ผ ์ ํ ๋งคํ ใ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ |
ใ ๋จ์ผ ๋ฌธ์ฅ ๋ถ๋ฅ ์์ ์ผ๋ก ์ ๋ ฅ์ ๋ํ ์ฒ๋ฆฌ ํ์ X |
KLUE-RE | ใ
๋ฌธ์ฅ ์ํฐํฐ ๋ํ๋ด๊ธฐ ์ํ ์ฃผ์ ์ ๊ฐ์ฒด ์ํฐํฐ ์์๊ณผ ๋์ ์๋ฒ ๋ฉ์ ํตํด ํ ํฐ ์ถ๊ฐ - <subj> ์ฃผ์ ์ํฐํฐ </subj> - <obj> ๊ฐ์ฒด ์ํฐํฐ </obj> |
||
Sentence Pair Classification / Regression |
KLUE-STS | ใ [SEP] ๊ณผ ๊ฐ์ ํ ํฐ์ผ๋ก ์ฐ๊ฒฐ๋ ์ ๋ ฅ๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ ๊ฒฐ์ | ใ
๊ฐ ๋ฌธ์ฅ ์์ ์ ์ฌ๋ ์ค์ ๊ฐ [0,5]๋ก ๋ผ๋ฒจ๋ง ใ [CLS] ํ ํฐ์ ์๋์ธต์์ ์ค์๋ก ๋งคํํ์ฌ MSE ์ต์ํ๋๋๋ก ํ๋ จ |
KULE-NLI | ใ
์ ์ -๊ฐ์ค ์์ผ๋ก 3๊ฐ์ง ํด๋์ค๋ก ๋ผ๋ฒจ๋ง ใ [CLS] ํ ํฐ์ ์๋์ธต์์ 3์ฐจ์ ๋ฒกํฐ๊ฐ์ ๋งคํํ์ฌ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ |
||
Multiple-Sentence Slot-Value Prediction |
KLUE-DST (WoS) |
ใ
์ฃผ์ด์ง ๋ํ ๋งฅ๋ฝ์ ๋ํ slot-value ์์ธก ํ
์คํฌ - ๋จ์ผ ๋ฐํ ์๋ ์ฌ๋ฌ๋ฒ(๋งฅ๋ฝ)์ ๊ฑธ์ณ ์์ธก๋์ด์ผํจ ใ ๋ฐํ ์ธ์ฝ๋, ์ํ ์์ฑ๊ธฐ, ์ฌ๋กฏ ๊ฒ์ดํธ ๋ก ๊ตฌ์ฑ๋ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ ์ฌ์ฉ - ๋ฐํ ์ธ์ฝ๋ : GRU์์ PLM์ผ๋ก ๋ณ๊ฒฝ - ์ํ ์์ฑ๊ธฐ : [CLS] ํ ํฐ์ ์ฒซ๋ฒ์งธ ๋์ฝ๋ ์ ๋ ฅ์ผ๋ก ๋ฐ์ - ์ฌ๋กฏ ๊ฒ์ดํธ : WoS์ MultiWOZ๋ณด๋ค Boolean ํ์ ์ด ๋ง์ ๋๊ฐ์ ์ฌ๋กฏ ๋ผ๋ฒจ๋ก ์์ธก (Y/N) - ์ํ ์์ฑ๊ธฐ์ ์ฌ๋กฏ ๊ฒ์ดํธ์ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ |
|
Sequence Tagging | KLUE-NER | ใ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ | ใ
ํ ํฐ ์์ค์ ํ๊น
: ๊ฐ ๋ฌธ์์ ๋ผ๋ฒจ ํ ๋น๋๋ฉฐ ํ ํฐํ ์ฌ์ฉ์ ์ ๊ฒฝ์จ์ผํจ ใ ์ํ ๊ฐ๊ฐ์ 12์ฐจ์ ๋ฒกํฐ๊ฐ(12๊ฐ์ ์ํฐํฐ ๋ฒ์ฃผ)์ ๋งคํ |
KLUE-MRC | ใ
์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํด ๋จ๋ฝ ๋ด์์ ๋ต๋ณ์ ๋ํ ์์๊ณผ ๋ ํ ํฐ ํ๊น
ใ ๊ฐ ํ ํฐ์ ์์ ํ ํฐ์ธ์ง ๋ ํ ํฐ์ธ์ง์ ๋ํ 2์ฐจ์ ๋ฒกํฐ์ ๋งคํ - ์ง๋ฌธ์ ๋๋ตํ ์ ์๋ ๊ฒฝ์ฐ, [CLS]๊ฐ ์์&๋ ํ ํฐ์ผ๋ก ๊ฐ์ฃผ |
||
KLUE-DP | ใ
์ํ์ค ํ๊น
๋ฌธ์ - ์ ๋ ฅ ๋ฌธ์ฅ ๋ด ๊ฐ ํ ํฐ, ํ๊ทธ 2๋ฒ(HEAD, ARC) ์ง์ - ํ ํฐํ ์ฌ์ฉ์ ์ ๊ฒฝ์จ์ผํจ ใ PLM์ ์ฌ์ฉํ์ฌ ํ์ ๋จ์ด ํํ ์ถ์ถ ํ ๊ฐ ๋จ์ด์ ์ฒซ ๋ฒ์งธ ๋ฐ ๋ง์ง๋ง ํ์ ๋จ์ด ํ ํฐ ํํ ์ฐ๊ฒฐํ์ฌ ๋จ์ด ๋ฒกํฐ ํํ ํ์ฑ ใ ์ฌ์ฉ ๋ชจ๋ธ - HEAD ์์ธก ์ํ biaffine attention - DEPREL ์์ธก ์ํ bilinear attention |
5.1.1. Single Sentence Classification
- ๋จ์ผ ๋ฌธ์ฅ ๋ถ๋ฅ์์๋ ๋ฏธ๋ฆฌ ์ ์๋ ๋ ์ด๋ธ ์ธํธ๋ก ๋ถ๋ฅ
- ๋ง์ง๋ง ์๋์ธต์ ๋ ์ด๋ธ ์์ ๋ฐ๋ผ ์ ํ์ผ๋ก ๋งคํ
- Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
- KLUE-TC : ๋จ์ผ ๋ฌธ์ฅ ๋ถ๋ฅ ์์ ์ผ๋ก ์ ๋ ฅ์ ๋ํ ์ฒ๋ฆฌ ํ์ X
- KLUE-RE
- ๋ฌธ์ฅ ์ํฐํฐ ๋ํ๋ด๊ธฐ ์ํ ์ฃผ์ ์ ๊ฐ์ฒด ์ํฐํฐ ์์๊ณผ ๋์ ์๋ฒ ๋ฉ์ ํตํด ํ ํฐ ์ถ๊ฐ
- <subj> ์ฃผ์ ์ํฐํฐ </subj>
- <obj> ๊ฐ์ฒด ์ํฐํฐ </obj>
5.1.2. Sentence Pair Classification / Regression
- ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ ๊ฒฐ์
- ์ ๋ ฅ ๋ฌธ์ฅ ์ ์ค๊ฐ์ [SEP]๊ณผ ๊ฐ์ ํ ํฐ์ผ๋ก ์ฐ๊ฒฐ๋จ
- KLUE-STS
- ๊ฐ ๋ฌธ์ฅ ์์ ์ ์ฌ๋ ์ค์ ๊ฐ [0,5]๋ก ๋ผ๋ฒจ๋ง
- [CLS] ํ ํฐ์ ์๋์ธต์์ ์ค์๋ก ๋งคํํ์ฌ MSE ์ต์ํ๋๋๋ก ํ๋ จ
- KLUE-NLI
- ์ ์ -๊ฐ์ค ์์ผ๋ก 3๊ฐ์ง ํด๋์ค๋ก ๋ผ๋ฒจ๋ง
- [CLS] ํ ํฐ์ ์๋์ธต์์ 3์ฐจ์ ๋ฒกํฐ๊ฐ์ ๋งคํํ์ฌ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
5.1.3. Multiple-Sentence Slot-Value Prediction

- DST(WoS)
- ์ฃผ์ด์ง ๋ํ ๋งฅ๋ฝ์ ๋ํ slot-value ์์ธก ํ ์คํฌ
- ๋จ์ผ ๋ฐํ ์๋ ์ฌ๋ฌ๋ฒ(๋งฅ๋ฝ)์ ๊ฑธ์ณ ์์ธก๋์ด์ผํจ
- ๋ฐํ ์ธ์ฝ๋, ์ํ ์์ฑ๊ธฐ, ์ฌ๋กฏ ๊ฒ์ดํธ ๋ก ๊ตฌ์ฑ๋ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ ์ฌ์ฉ
- ๋ฐํ ์ธ์ฝ๋ : GRU์์ PLM์ผ๋ก ๋ณ๊ฒฝ
- ์ํ ์์ฑ๊ธฐ : [CLS] ํ ํฐ์ ์ฒซ๋ฒ์งธ ๋์ฝ๋ ์ ๋ ฅ์ผ๋ก ๋ฐ์
- ์ฌ๋กฏ ๊ฒ์ดํธ : WoS์ MultiWOZ๋ณด๋ค Boolean ํ์ ์ด ๋ง์ ๋๊ฐ์ ์ฌ๋กฏ ๋ผ๋ฒจ๋ก ์์ธก (Y/N)
- ์ํ ์์ฑ๊ธฐ์ ์ฌ๋กฏ ๊ฒ์ดํธ์ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
5.1.4. Sequence Tagging
- KLUE-NER
- ํ ํฐ ์์ค์ ํ๊น : ๊ฐ ๋ฌธ์์ ๋ผ๋ฒจ ํ ๋น๋๋ฉฐ ํ ํฐํ ์ฌ์ฉ์ ์ ๊ฒฝ์จ์ผํจ
- ์ํ ๊ฐ๊ฐ์ 12์ฐจ์ ๋ฒกํฐ๊ฐ(12๊ฐ์ ์ํฐํฐ ๋ฒ์ฃผ)์ ๋งคํํ์ฌ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
- KLUE-MRC
- ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํด ๋จ๋ฝ ๋ด์์ ๋ต๋ณ์ ๋ํ ์์๊ณผ ๋ ํ ํฐ ํ๊น
- ๊ฐ ํ ํฐ์ ์์ ํ ํฐ์ธ์ง ๋ ํ ํฐ์ธ์ง์ ๋ํ 2์ฐจ์ ๋ฒกํฐ์ ๋งคํํ์ฌ Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
- ์ง๋ฌธ์ ๋๋ตํ ์ ์๋ ๊ฒฝ์ฐ, [CLS]๊ฐ ์์&๋ ํ ํฐ์ผ๋ก ๊ฐ์ฃผ
- KLUE-DP
- ์ํ์ค ํ๊น
๋ฌธ์
- ์ ๋ ฅ ๋ฌธ์ฅ ๋ด ๊ฐ ํ ํฐ, ํ๊ทธ 2๋ฒ(HEAD, ARC) ์ง์
- ํ ํฐํ ์ฌ์ฉ์ ์ ๊ฒฝ์จ์ผํจ
- PLM์ ์ฌ์ฉํ์ฌ ํ์ ๋จ์ด ํํ ์ถ์ถ ํ ๊ฐ ๋จ์ด์ ์ฒซ ๋ฒ์งธ ๋ฐ ๋ง์ง๋ง ํ์ ๋จ์ด ํ ํฐ ํํ ์ฐ๊ฒฐํ์ฌ ๋จ์ด ๋ฒกํฐ ํํ ํ์ฑ
- ์ฌ์ฉ ๋ชจ๋ธ
- HEAD ์์ธก ์ํ *biaffine attention
- * ์ธ์ฝ๋ฉํ ํ ํฐ์ ๋ํ์ฌ Header์ Modifier ๊ฐ๊ฐ ๋ฐ๋ก ์ถ์ํํ๊ณ Header : Modifier ์กฐํฉ์ ๋ํ Attention Scoring
- DEPREL ์์ธก ์ํ bilinear attention
- Cross-Entropy ์ต์ํํ๋๋ก ํ๋ จ
- HEAD ์์ธก ์ํ *biaffine attention
- ์ํ์ค ํ๊น
๋ฌธ์

5.2. Fine-Tuning Configurations
- Huggingface Transformer์ PyTorch-Lightning ์ฌ์ฉ
- Hyperparameter
- AdamW optimizer : ํ์ต๋ฅ {10−5 , 2 × 10−5 , 3 × 10−5 , 5 × 10−5}
- AdamW : ๊ฐ์ค์น ์ฆ๊ฐ ์ ํ์ ๋ Adam Opitimizer
- warm-up ratio : {0., 0.1, 0.2, 0.6}
- warm-up ratio : ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ ๊ณผ์ ์์์ ๋๋ค๊ฐ ๋ถ์ฌ๋ก ์ธํ ํ์ต ์งํ ์ํฅ ์ต์ํ ์ํ ์กฐ์น๋ก ์ด๊ธฐ์ ์์ ํ์ต๋ฅ ์ ์ฉํ ํ ์์ ๋ ํ ์ด๊ธฐ ํ์ต๋ฅ ๋ก ์ ํํ๋ ๋ฐฉ๋ฒ
- weight decay coefficient : {0.0, 0.01}
- batch size : {8, 16, 32}
- epochs : {3, 4, 5, 10}
- AdamW optimizer : ํ์ต๋ฅ {10−5 , 2 × 10−5 , 3 × 10−5 , 5 × 10−5}
- Dev. ๋ฐ์ดํฐ์ ์ฑ๋ฅ ๊ธฐ๋ฐ ์ต์ ํ๋ผ๋ฏธํฐ๊ฐ ์์ฑ
5.3. Evaluation Results
๋ค๋ฅธ NLU ๋ฒค์น๋งํฌ์ ๋ค๋ฅด๊ฒ ๋ชจ๋ ํ์คํฌ์ ์ฑ๋ฅ ํ๊ท ๊ฐ X
- KLUE-BERT BASE : YNAT, WoS
- KLUE-RoBERTa BASE : KLUE-RE, KLUE-MRC
- KoELECTRA BASE : KLUE-STS, KLUE-NLI
- ์ฃผ๋ชฉํ ๋งํ ์
- KLUE-BERT LARGE
- ํ ์คํธํ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ํฐ ๋ชจ๋ธ
- KLUE-NER์์ ์ข์ ํจ๊ณผ๋ฅผ ๋ณด์
- ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ์ฑ๋ฅ๊ณผ ๊ด๊ณ ์๋ค๋ ๊ฒ์ผ๋ก ์ถํ ๋ ๋ง์ ํ์ต ์ํค๋ฉด ๋ ์ข์ ํจ๊ณผ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋จ
- ๋จ์ผ ์ธ์ด ๋ชจ๋ธ์ด ์ ์ฌ ํฌ๊ธฐ์ ๋ค๊ตญ์ด ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ์ฑ๋ฅ ๋ฐ์ด๋จ
- KLUE-BERT LARGE
5.4. Analysis of Models
pretraining ์ํ ๋ง๋ญ์น์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์์ ์ฌ์ฉํ ๋ฐฉ๋ฒ์ ๋ํ ์ํฅ
[Corpus Pseudonymization]
- ๊ฐ๋ช ํ ๊ณผ์ ์์ ๋ฐ์ํ ๋ ธ์ด์ฆ, ์ฝ๊ฐ์ ์ฑ๋ฅ ๊ฐ์๋ฅผ ๋ณด์ด์ง๋ง ํฌ์ง ์์
- ์ต์ํ์ ๊ฐ๋ช ํ ์์ = ์ ๋ฌด ์ํ๊ณผ ๊ฐ์ธ ์ ๋ณด ์ ์ถ ์ํ ๊ท ํ ๋ง์ถ ์ ์๋ ์ข์ ๋ฐฉ๋ฒ
[Tokenization Strategy]
- ํํ์ ๊ธฐ๋ฐ ํ์ ๋จ์ด ํ ํฐํ์ BPE ๋น๊ต
- ํ์ ๋จ์ด ์์๋ ฅ : ๋จ์ด ๋น ์์ฑ๋๋ ํ๊ท ํ์ ๋จ์ด ์ ์ธก์
- ์ฐ์ ๋จ์ด ๋น์จ
- [UNK] ๋น์จ
- ํ ํฐํ ๋น๊ต ๊ฒฐ๊ณผ
- BPE๋ณด๋ค ๋์ง๋ง ์ฐ์ ๋จ์ด ๋น์จ๊ณผ ํจ๊ป ๊ณ ๋ คํ์ ๋ ๋ฐ๋น๋ก ํจ
- >> ๊ฐ๋ฅํ ์๋ ๋จ์ด๋ฅผ ์ ์งํ๋ฉฐ ํ์ํ ๋๋ ๊ฐ ๋จ์ด๊ฐ ์ ์ฌ์ ์ผ๋ก ๋ ๋ง์ ํ์ ๋จ์ด๋ฅผ ์์ฑํ๋ค๋ ์๋ฏธ
- >> ์ดํ ํฌ๊ธฐ ์ง์ (32k) ์, BPE๋ณด๋ค [UNK] ํ ํฐ ๋ ์ ๊ฒ ์์ฑํ์ฌ ์ฑ๋ฅ์ ์ํฅ
* ์์ ๋์ผํ ๋ด์ฉ ์ฌ์ ๋ฆฌ ์์ค์ผ๋ก [6. Ethical Considerations ~ 9. Conclusion] ์๋ต
๋๊ธ