2305.15294 반복 검색-세대 시너지 효과로 검색 증강 대규모 언어 모델 개선하기

Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

논문: https://arxiv.org/abs/2305.15294

초록

대규모 언어 모델은 강력한 텍스트 처리기이자 추론기이지만, 여전히 오래된 지식과 환각 등의 한계가 있기 때문에 세상과 연결해야 합니다. 검색 증강 대규모 언어 모델은 외부 지식에 기반한 모델 생성에 대한 광범위한 관심을 불러일으켰습니다. 그러나 검색기는 특히 복잡한 정보가 필요한 쿼리의 경우 관련성을 포착하는 데 어려움을 겪습니다. 최근 연구에서는 대규모 언어 모델을 검색에 적극적으로 참여시켜 관련성 모델링을 개선하는, 즉 생성을 통해 검색을 개선하는 방안이 제안되었습니다. 이 백서에서는 검색과 생성을 반복적인 방식으로 시너지 효과를 내는 Iter-RetGen이라는 방법을 통해 강력한 성능을 달성할 수 있음을 보여줍니다. 모델 출력은 작업을 완료하는 데 무엇이 필요할 수 있는지를 보여주며, 따라서 더 관련성 높은 지식을 검색할 수 있는 정보를 제공해 다음 반복에서 더 나은 결과물을 생성하는 데 도움이 됩니다. 출력을 생성할 때 검색과 생성을 분리하는 최근의 작업과 비교했을 때, Iter-RetGen은 검색된 모든 지식을 전체적으로 처리하며 구조적 제약 없이 생성의 유연성을 크게 유지합니다. 멀티홉 질문 답변, 사실 확인, 상식적 추론에 대해 Iter-RetGen을 평가한 결과, 파라메트릭 지식과 비파라메트릭 지식을 유연하게 활용할 수 있으며, 검색 및 생성의 오버헤드가 적으면서도 최첨단 검색 증강 기준선보다 우수하거나 경쟁력이 있음을 보여주었습니다. 생성 증강 검색 적응을 통해 성능을 더욱 향상시킬 수 있습니다.