본문 바로가기

전체 글11

[논문 리뷰] Massive Multi-task Representations with Pre-Finetuning 1. Abstract Language Model Pre-Training • unlabeled dataset을 활용한 학습 방법 • 대표적으로 문장에서 특정 단어를 맞추는 방식으로 Unspervised Learning • ELMO, BERT 등등 Multil-task learning • 여러 Task의 Labeled Dataset을 활용하여 1개의 모델 Supervised Learning • 장점 : 1. 지식 공유 : Task 1을 학습하면서 얻은 정보가 다른 연관 Task들에 좋은 영향을 줌 2. 과적합 방지 : 여러 task들을 학습하면서 보다 일반화된 특징(generalized representation)을 학습 3. 계산 효율성 : 동시에 학습하기 때문에 계산 비용이 적다 4. 다양성 : 현실에서.. 2022. 9. 24.
[검색엔진] Elasticsearch Elasticsearch란? Elasticsearch는 Apache Lucene(아파치 루씬) 기반의 오픈소스 분산 검색 엔진입니다. 전문검색(Full Text Search) 기능과 점수 기반의 다양한 정확도 알고리즘, 실시간 분석 등의 구현이 가능합니다. 또한 다양한 플러그인들을 사용해 손쉽게 기능의 혹장이 가능하며 아마존 웹 서비스(AWS), 마이크로소프트 애저(MS Azure) 같은 클라우드 서비스 그리고 하둡(Hadoop) 플랫폼들과의 연동도 가능 Elasticsearch 인덱스 Elasticsearch 인덱스는 서로 관련되어 있는 문서들의 모음입니다. Elasticsearch는 JSON 문서로 데이터를 저장합니다. 각 문서는 일련의 키(필드나 속성의 이름)와 그에 해당하는 값(문자열, 숫자, 부.. 2022. 9. 23.
[논문 리뷰] Detext : A Deep Text Ranking Framework with BERT 1. Introduction LinkedIn의 Search & Recommendation Ecosystem에 들어가는 아키텍쳐는 아래와 같은 모습으로서 엄청나게 많은 엔진들이 하루에 수천만번 검색이 이루어지는 대형 포털사이트에서 돌아간다. 최근의 BERT같은 자연어 모델은 분명 NLP에서 뛰어난 성과를 보이고 있지만, 검색 시스템에 직접 적용하기에는 BERT 모델의 높은 계산 비용으로 인해 매우 큰 부담이다. 그래서 링크드인에서는 직접 다양한 사례를 연구해서 BERT를 기반으로 모델을 구축하는 검색 시스템의 Ranking 시스템 프레임워크 DeText를 소개하고, 또한 인기 있는 NLP 모델에 새로운 기능을 부여하는 방법을 설명한다. DeText를 사용하면 사용자는 작업 유형에 따라 NLP 모델을 교환하.. 2022. 9. 22.