Title: How multilingual is Multilingual BERT?
Published: 4. Jun. 2019.
Authors: Telmo Pires, Eva Schlinger, Dan Garrette @ Google Research
1. M-BERT
104개 언어의 wikipedia로 1개의 BERT 모델을 훈련했다.
language label이나 translation을 장려하는 개입은 하지 않았다.
2. 두개의 down-stream task (Named entity recognition, Part of speech tagging)을 Language X로 학습시킨 후 Language Y에 대해 inference한 결과(zero-shot experiment)를 알아보았다. 여기서 언어들은 NER, POS에서 조금씩 차이가 있지만, 공통적으로 모두, 4개의 유럽 언어를 사용했다.
NER: English, Dutch, Spanish, German
POS: English, Dutch, Spanish, Italian
한국어도 이게 되면 좋을텐데.
한국어랑 이렇게까지 비슷한 언어는.. 일본어 정도?
어순의 차이를 뛰어넘어서까지 cross-lingual한 학습이 되지는 않는다고 하니까...ㅠ
이 논문은 당장 나에게는 쓸모없겠다..
'NLP' 카테고리의 다른 글
ELMo, GPT1, GPT2, BERT, RoBERTa, ALBERT의 발전 흐름과 비교 (0) | 2020.05.29 |
---|