transformer2 [논문리뷰] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 최초의 bi-directional(or non-directional) 방법으로 사전 훈련된 언어 모델이다. BERT는 대용량 unlabeled data로 모델을 미리 학습 시킨 후, 특정 task의 labeled data로 transfer learning을 하는 모델로서 self-supervised learning을 사용하여 단어와 문맥의 깊은 의미를 학습한다. Pretrain 후 모델은 최소한의 조정으로 다양한 작업과 다양한 데이터 세트에 맞게 조정할 수 있다. BERT는 특정 task를 처리하기 위해 새로운 network를 붙일 필요 없이, BERT 모델 자체의 fine-tuning을 통해 해당 task의 SOTA를 달성했다고 한다. Introduction Language .. 2023. 1. 25. [논문 리뷰] ATTENTION IS ALL YOU NEED (2017) Seq2Seq 모델 Encoder에서 압축한 context vector는 전체 입력 시퀀스 데이터가 길어질 경우 문장 앞 부분에 대한 정보 손실이 발생한다. (long term dependency problem) 이를 해결하기 위해 Attention mechanism이 나왔고, 현재 대부분의 언어 모델이 TransFormer 모델 기반이라고 해도 과언이 아닐만큼 언어 모델의 한 획을 그은 논문이라고 생각한다. 해당 논문은 2017년 Neural Information Processing Systems (Neural IPS)에서 발표된 논문이며, Google Brain과 Google Research 그룹에서 발표한 논문이다. Abstract RNN, 특히 LSTM과 GRU는 sequence modeling과.. 2022. 12. 7. 이전 1 다음