반응형

인공지능 논문정리/NLP 논문 9

[논문 요약] Non-Autoregressive Neural Machine Translation

NAR 기계 번역(NAT) Paper Review 이번 시간에는 문장의 모든 토큰을 한 번에 parallel하게 생성하는 방법인 Non-Autoregressive 기반의 기계 번역 분야의 지평을 열었던 NAT 논문에 대한 주요 내용 요약을 진행해보도록 하겠습니다. 논문의 제목은 "Non-Autoregressive Neural Machine Translation"이며, ICLR 2018에 등재된 paper입니다. 실험 배경 기존의 신경만 기반 기계 번역의 접근법은 1번에 1토큰씩 디코딩하여 생성하는 Autoregressive(AR) 방식의 번역(AT)이었습니다. 그러나, 이러한 방식은 토큰의 길이가 길어진다면 생성 시간이 많이 소요된다는 단점이 있었고, 이에 1번에 문장의 모든 토큰을 디코딩하여 생성해보려..

[논문 요약] UnitedQA: A Hybrid Approach for Open Domain Question Answering

UnitedQA Paper Review generative reader와 extractive reader 구조의 앙상블을 통하여 Open Domain Question Answering(ODQA) task에서의 성능을 크게 향상시킨 UnitedQA 논문의 주요 내용에 대한 요약을 진행해보도록 하겠습니다. 논문의 제목은 "UnitedQA: A Hybrid Approach for Open Domain Question Answering"이며, ACL 2021에 등재된 paper입니다. 실험 배경 ODQA task에서 질문의 답변을 문단 내에서 찾을 때, 답변의 start, end position을 예측하는 방식인 extractive reader가 이전의 주요 대세였고, RAG, FiD와 같이 답변 문장을 직접 ..

[논문 요약] Dense Passage Retrieval for Open-Domain Question Answering

NLP DPR Paper Review 이번 글에선 Open Domain Question Answering(ODQA) 분야에서 관련 문서 Retriever로 현재까지도 강력한 성능을 자랑하며 사용되고 있는 DPR 프레임워크에 대하여 발표했던 논문의 주요 내용들을 요약해보도록 하겠습니다. 논문의 제목은 "Dense Passage Retrieval for Open-Domain Question Answering"이며, EMNLP 2020에 등재된 paper입니다. 실험 배경 ODQA 분야에서 질문과 관련이 깊은 후보 문서 탐색(Retrieval) 후 해당 문서들 내에서 답변의 위치를 찾는 과정(Reader)으로 구성된 프레임워크가 좋은 성능을 보이고 있음이 나타났고, 이전의 Retriever 모델 구조로는 TF..

[논문 요약] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

NLP RAG Paper Review 이번 글에서는 Open Domain Question Answering(ODQA) 분야에 Generative Reader를 도입하여 성능 향상의 큰 획을 그은 RAG 논문에 대한 요약을 진행해보도록 하겠습니다. 논문의 제목은 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"이며, NeurIPS 2020에 등재된 paper입니다. 실험 배경 Extractive Reader vs Generative Reader 이전까지의 Retrieval-Reader 기반 ODQA 프레임워크에서 Reader의 구조로는 문단 내에서 답변의 시작과 끝 위치를 맞추는 Extractive Reader 구조를 택해왔었습니다. 여..

[논문 요약] REALM: Retrieval-Augmented Language Model Pre-Training

REALM Paper Review 이번 글에서는 Open-Domain QA(ODQA) 분야에 한 획을 그었던 REALM 논문에서 설명했던 기법을 간략하게 요약하여 다루어보도록 하겠습니다. 참고로, 해당 논문의 제목은 "REALM: Retrieval-Augmented Language Model Pre-Training"이며, ICML 2020 학회에 등재되었던 paper입니다. 실험 배경 트랜스포머 기반 언어 모델의 pre-train 과정은 성능에 있어 매우 중요하다는 것이 밝혀졌으며, 이 pre-train하는 과정에서는 지식들이 implicit한 방식으로 파라미터 내에 저장됩니다. 그러나 만일 언어 모델이 explicit하게 관련된 지식들을 먼저 찾을 수 있게 학습한 뒤, 해당 관련 지식을 참조하여 최종 ..

[논문 요약] Improving language models by retrieving from trillions of tokens

NLP RETRO Paper Review 2022년 구글 딥마인드에서 공개된 RETRO 논문의 핵심 내용들을 요약해보도록 하겠습니다. 논문의 제목은 "Improving language models by retrieving from trillions of tokens"입니다. 실험 배경 기존의 GPT-3 등의 대규모 언어 모델(LLM)들은 지속적으로 파라미터의 수와 데이터셋의 크기를 증가시키는 방향으로 성능 향상을 도모해왔습니다. 그러나 외부의 Knowledge base(KB)의 도움을 받게된다면 비교적 적은 수의 파라미터로도 언어 모델의 성능을 크게 향상시킬 수 있다는 발상을 했었으며, RETRO에서는 7B 정도의 파라미터로도 100B 이상의 LLM에 맞먹는 성능을 기록했었습니다. 위 Figure 1의 ..

[논문 요약] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering

Fusion-in-Decoder Paper Review 이번 글에서는 Open Domain QA 분야에서 강력한 성능을 보이는 Reader 구조인 Fusion-in-Decoder(FiD) 모델에 대한 논문의 내용을 요약해보도록 하겠습니다. 논문의 제목은 Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering이며, EACL 2021 학회에 등재된 페이퍼입니다. 실험 배경 수 많은 문단 중 질문과 관련된 문단을 먼저 탐색하고, 여기서 답변을 찾아야 하는 Open Domain QA(ODQA) 분야에서 문단 탐색(Retrieval)-찾은 문단에서 답변 탐색(Reader) 의 2단계 구조로 이루어진 모델 들이 강력..

[술술 읽히는 논문 요약] GloVe: Global Vectors for Word Representation

GloVe: Global Vectors for Word Representation 저자 : Jeffrey Pennington, Richard Socher, Christopher D. Manning 외 학회 : Empirical Methods in Natural Language Processing(EMNLP) 연도 : 2014년 실험 목적 기존 기법 종류 1. 통계 기반 예측 모델링 : LSA 등이 해당 장점 : 코퍼스 전체적으로 담겨있는 정보를 잘 활용 단점 : 디테일한 맥락 정보(옆 단어와의 관계 등)를 학습하는데에 어려움 2. local context window methods : Skip-gram 등이 해당 장점 : 디테일한 맥락 정보를 잘 활용함 단점 : 코퍼스 전체적으로 담겨있는 정보를 활용하는..

[술술 읽히는 논문 요약] Word2Vec 논문 - Skip-gram, CBOW

Efficient Estimation of Word Representations in Vector Space 저자 : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean 외 학회 : International Conference on Learning Representations (ICLR) 연도 : 2013년 실험 목적 apple, orange, dog -> 컴퓨터가 학습할 수 없는 형태(단어) [1, 2], [1.5, 3.2], [2.2, 0] -> 컴퓨터가 학습할 수 있는 형태(벡터) 단어 -> 벡터로 표현해보자! 기존 시도 통계 기반 모델링도 이전에 자연어 연구에서 시도되었고(N-gram 등) 단어를 벡터로 표현하려는 시도는 처음은 아니었음(LDA, LSA 등..

반응형