본문 바로가기

내 맘대로 읽는 논문 리뷰/NLP4

Deeper Transformer with ADMIN (2) (1) Very Deep Transformers for Neural Machine Translation (ADMIN 사용, deeper 모델 학습 결과 위주) https://arxiv.org/pdf/2008.07772v2.pdf (2) Understanding the Difficulty of Training Transformers (ADMIN 이론적 배경, 구체적 이론) https://arxiv.org/pdf/2004.08249.pdf 1번 논문의 ADMIN의 이론적 배경. 어쩌다 인터뷰한 기업에서 하는 주제라 공부하려 읽었었는데, transformer의 문제를 파헤친 것이 흥미로워 져서.. 이론 리뷰까지 왔다. 우선 모든 내 리뷰가 그렇겠지만, 내가 이해한대로 기록하는 것인지라 잘못된 정보가 많을 것이.. 2021. 3. 10.
Deeper Transformer with ADMIN (1) (1) Very Deep Transformers for Neural Machine Translation (ADMIN 사용, deeper 모델 학습 결과 위주) https://arxiv.org/pdf/2008.07772v2.pdf (2) Understanding the Difficulty of Training Transformers (ADMIN 이론적 배경, 구체적 이론) https://arxiv.org/pdf/2004.08249.pdf 본 논문은 자연어 처리 공부 중 기계 번역 관련 면접 볼 일이 생겨 접하게 되었다. 그런데 아주 간단한 테크닉을 통해 학습 stability를 높여서, 모델 크기를 더 키울 수 있게 되어 결과적으로 좋은 모델을 얻을 수 있게 한 것이 신기하여 간단하게 적어 본다. back.. 2021. 3. 10.
BART BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension arxiv.org/pdf/1910.13461.pdf Introduction BART는 seq2seq 모델을 pre-training하는 denoising autoencoder로, 지난 XLnet과 비슷하게 BERT(AE)와 GPT(AR)의 혼합된 모델이라 볼 수 있다. BERT는 각 mask단어를 독립적으로 예측하기에 생성 task에 단점이, GPT의 경우 양방향 상호작용을 학습하기 어렵다. 따라서 이를 보완하기 위한 학습 방법을 상정한 것이다. BART에서 가장 핵심적인 것은 학습 과정의 일반화로, B.. 2021. 3. 10.
MT-DNN MT-DNN arxiv.org/pdf/1901.11504.pdf Multi-Task Deep Neural Networks for Natural Language Understanding Intro learning vector space representation of text를 위해서, NLP에서는 두가지 approach를 이용하는데, 하나는 ElMo,GPT,BERT와 같은 pre-training 기법이며 하나는 Multi task learning(이하 MTL)이다. MTL의 영감은 사람의 학습에서 받은 것으로, 스케이팅을 배워본 사람이 안 배운 사람보다 스키를 더 잘 배우지 않을까? 라는 생각에서 온 것이다. MTL은 간단히 여러 task들을 같이 학습함으로써, task 상호간에 이득을 주게끔 학습하는 .. 2021. 3. 10.