본문 바로가기

transformer2

[논문리뷰] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 최초의 bi-directional(or non-directional) 방법으로 사전 훈련된 언어 모델이다. BERT는 대용량 unlabeled data로 모델을 미리 학습 시킨 후, 특정 task의 labeled data로 transfer learning을 하는 모델로서 self-supervised learning을 사용하여 단어와 문맥의 깊은 의미를 학습한다. Pretrain 후 모델은 최소한의 조정으로 다양한 작업과 다양한 데이터 세트에 맞게 조정할 수 있다. BERT는 특정 task를 처리하기 위해 새로운 network를 붙일 필요 없이, BERT 모델 자체의 fine-tuning을 통해 해당 task의 SOTA를 달성했다고 한다. Introduction Language .. 2023. 1. 25.
[논문 리뷰] ATTENTION IS ALL YOU NEED (2017) Seq2Seq 모델 Encoder에서 압축한 context vector는 전체 입력 시퀀스 데이터가 길어질 경우 문장 앞 부분에 대한 정보 손실이 발생한다. (long term dependency problem) 이를 해결하기 위해 Attention mechanism이 나왔고, 현재 대부분의 언어 모델이 TransFormer 모델 기반이라고 해도 과언이 아닐만큼 언어 모델의 한 획을 그은 논문이라고 생각한다. 해당 논문은 2017년 Neural Information Processing Systems (Neural IPS)에서 발표된 논문이며, Google Brain과 Google Research 그룹에서 발표한 논문이다. Abstract RNN, 특히 LSTM과 GRU는 sequence modeling과.. 2022. 12. 7.