본문 바로가기

자연어2

[논문 리뷰] ATTENTION IS ALL YOU NEED (2017) Seq2Seq 모델 Encoder에서 압축한 context vector는 전체 입력 시퀀스 데이터가 길어질 경우 문장 앞 부분에 대한 정보 손실이 발생한다. (long term dependency problem) 이를 해결하기 위해 Attention mechanism이 나왔고, 현재 대부분의 언어 모델이 TransFormer 모델 기반이라고 해도 과언이 아닐만큼 언어 모델의 한 획을 그은 논문이라고 생각한다. 해당 논문은 2017년 Neural Information Processing Systems (Neural IPS)에서 발표된 논문이며, Google Brain과 Google Research 그룹에서 발표한 논문이다. Abstract RNN, 특히 LSTM과 GRU는 sequence modeling과.. 2022. 12. 7.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks (2014) 자연어 논문을 리뷰하기 위해 차례대로 논문 리뷰를 진행하려고 한다. 우선 가장 먼저 Seq2Seq 라고 불리는 Google에서 발표한 Sequence to Sequence Learning 논문부터 리뷰를 진행하기로 했다. Abstract 기존의 Deep Neural Networks는 고정 길이의 벡터 차원만 학습이 가능하기에, 일반적으로 길이가 다른 sequence에 적용이 어려웠다. 거의 대부분의 input text length는 일정하지 않고 서로 다르므로 Sequence to Sequence Learning 논문에서는 다층의 Long-Short-Term Memory (LSTM) 아키텍처를 통해 end-to-end 방법을 사용하여 sequence 학습을 가능하게 한다. LSTM을 통해 input se.. 2022. 9. 25.