UnitedQA Paper Review
generative reader와 extractive reader 구조의 앙상블을 통하여
Open Domain Question Answering(ODQA) task에서의 성능을 크게 향상시킨
UnitedQA 논문의 주요 내용에 대한 요약을 진행해보도록 하겠습니다.
논문의 제목은
"UnitedQA: A Hybrid Approach for Open Domain Question Answering"이며,
ACL 2021에 등재된 paper입니다.
실험 배경
ODQA task에서 질문의 답변을 문단 내에서 찾을 때,
답변의 start, end position을 예측하는 방식인 extractive reader가 이전의 주요 대세였고,
RAG, FiD와 같이 답변 문장을 직접 생성해내는 generative reader가 새로운 강자로
등장하였습니다.
그러나 위의 Figure 1에 표현된대로 비슷한 성능(52% 정도의 Exact Match)을
보이는 3가지 종류씩의 Extractive 및 Generative Reader 간의 답변 유사도를 측정한 결과,
Extractive끼리와 Generative끼리의 유사도는 대체로 50% 이상으로 높은 반면,
Extractive와 Generative 간의 유사도는 대체로 50% 미만으로 낮은 것으로 드러났습니다.
이를 바탕으로 이전에 시도되지 않았던 다른 종류 Reader 간의 앙상블이 잠재력을
가질 수 있을 것이라는 가설 하에 실험을 진행하였고,
ODQA 분야의 hybrid reader approach의 지표를 열게 되었습니다.
UnitedQA 프레임워크 특징
UnitedQA에서 질문에 대한 답변을 찾는 과정은 크게
관련 문서를 찾는 Retrieval - 답변 후보를 찾는 Reading - 확률 값 linear interpolation을
통하여 최종 답변을 선별하는 Re-ranking의 과정으로 이루어집니다.
Retrieval은 기존의 다른 ODQA처럼 sparse vector 활용 방식인 BM25와
dense vector 활용 DPR을 같이 사용하여 진행됐으며, 여기서는 Reader의 구조가 중요하므로
이를 중점으로 프레임워크 구조 설명을 진행하였습니다.
Reader는 크게 Extractive 구조인 UnitedQA-E와 Generative 구조인 UnitedQA-G로
구성하였고, 이 두 구조를 나누어 설명을 진행하였습니다.
UnitedQA-E
ELECTRA 등의 pre-train 기반 고성능 extractive QA 모델 구조를 사용하여
Retrieval된 각 top-k 문단에 대해 [CLS] question [SEP] passage [SEP] 형태의 input을
인코딩하여 얻은 결과 $ h_i $(문단의 i번째 토큰의 representation) 벡터를 얻습니다.
begin 및 end position을 예측하기 위한 weight vector $w_b, w_e$를 두어
$ s_i = w^T h_i $의 내적으로 산출된 값을 softmax를 거쳐 문단의 i번째 토큰이
답변의 시작, 끝 토큰일 확률을 구하는 것이 해당 모델의 기본적인 구조입니다.
학습 과정에서는 EXT와 PDR의 두 가지 형태의 Loss 함수가 포함됩니다.
먼저 EXT loss는 전체 top-k passages들의 모든 토큰에 대한 softmax 값들을
고려하여 답변 후보 중 최대 확률을 가지는 start, end 토큰 조합에 대하여 모델링한 값과
top-k에 속한 각 passage들을 따로 고려하여 답변 확률 값의 합에 대한
log likelihood의 합을 모델링한 값을 더하여 계산됩니다.
이를 통하여 multi-passage level 및 단일 passage level의 특징을 모두 고려한
학습을 진행한 것이었습니다.
다음으로 PDR loss는 input 토큰 임베딩에 아주 작은 noise를 더하여 산출된 결과와
기존 결과와의 거리를 반영하여 작은 noise의 추가에도 robust한 결과를 낼 수 있도록
돕는 역할을 수행하였습니다.
EXT loss와 PDR loss를 더하는 비율은 하이퍼파라미터로 간주하여 학습을 진행했었습니다.
UnitedQA-G
FiD 논문과 유사하게 T5 구조의 generative 모델을 사용했었습니다.
일반적인 언어 모델 학습 방법과 비슷하게 passage x와 답변의 1~i-1번째 토큰이 주어졌을 때,
i번째 정답 토큰의 생성 확률의 log 값을 바탕으로 loss를 계산하였습니다.
추가로, 디코더의 Attention block에 bias를 추가 적용하여 retrieved된 passage의
정보를 reader에서 잘 반영할 수 있게 도와주었고,
adversarial training을 가정하여 생성된 adversarial embedding matrix를 대신 적용하여
얻어진 loss 함수를 혼합하여 최종 loss로 적용해 robustness를 강화하려 시도했었습니다.
최종적으로 두 모델을 hybrid하여 답변을 예측할 때에는 각 모델에서 나온 예측 확률을
위와 같은 식으로 linear interpolation을 수행하여 계산하였습니다.
(참고로, 실험에서의 extractive와 generative에서 예측 값의 혼합 비율은 6:4 정도였습니다.)
결과 분석
Table 2의 결과를 살펴보면, UnitedQA-E와 UnitedQA-G 단독 모델도
논문에서 제안한 개선된 방법을 통하여 baseline보다 성능이 향상된 결과를 보였습니다.
또한, 서로 다른 Extractive 모델끼리 앙상블한 결과와
Generative끼리 앙상블한 결과(위의 표에서 ++을 의미)보다
두 가지 구조를 혼합한 결과가 가장 높은 성능을 기록하였으며, SOTA를 달성함을 나타냈습니다.
위의 표들은 여기서 각 구조의 Reader를 학습할 때 해당 논문에서 적용되었던 세부 테크닉들이
성능을 향상했음에 기여했다는 점을 보여주었습니다.
특히, extractive 구조의 모델을 학습할 때 적용된 multi-passage level과
PDR loss는 미적용시에는 성능 하락의 폭이 꽤 컸다는 점을 눈여겨볼 수 있었습니다.
Retrieval되는 passage의 수가 커지면 Reader의 최종 성능도 좋아지는 경향은
두 데이터셋 모두에서 뚜렷했습니다.
다만, 눈여겨볼 점은 generative 구조의 모델이 탐색 passage의 수에 의하여 더 큰 폭으로
영향을 받았다는 점입니다.
두 구조의 모델 모두 who 종류의 질문에는 강세를 보였으나,
what 종류의 질문에는 모두 약세를 보였습니다.
when 종류같은 질문에서는 두 종류 모델의 성능 격차가 컸다는 점은 매우 주목해볼만 했습니다.