NMT2 Deeper Transformer with ADMIN (2) (1) Very Deep Transformers for Neural Machine Translation (ADMIN 사용, deeper 모델 학습 결과 위주) https://arxiv.org/pdf/2008.07772v2.pdf (2) Understanding the Difficulty of Training Transformers (ADMIN 이론적 배경, 구체적 이론) https://arxiv.org/pdf/2004.08249.pdf 1번 논문의 ADMIN의 이론적 배경. 어쩌다 인터뷰한 기업에서 하는 주제라 공부하려 읽었었는데, transformer의 문제를 파헤친 것이 흥미로워 져서.. 이론 리뷰까지 왔다. 우선 모든 내 리뷰가 그렇겠지만, 내가 이해한대로 기록하는 것인지라 잘못된 정보가 많을 것이.. 2021. 3. 10. Deeper Transformer with ADMIN (1) (1) Very Deep Transformers for Neural Machine Translation (ADMIN 사용, deeper 모델 학습 결과 위주) https://arxiv.org/pdf/2008.07772v2.pdf (2) Understanding the Difficulty of Training Transformers (ADMIN 이론적 배경, 구체적 이론) https://arxiv.org/pdf/2004.08249.pdf 본 논문은 자연어 처리 공부 중 기계 번역 관련 면접 볼 일이 생겨 접하게 되었다. 그런데 아주 간단한 테크닉을 통해 학습 stability를 높여서, 모델 크기를 더 키울 수 있게 되어 결과적으로 좋은 모델을 얻을 수 있게 한 것이 신기하여 간단하게 적어 본다. back.. 2021. 3. 10. 이전 1 다음