https://arxiv.org/pdf/2304.13007


Abstract:

  • 다중 단계 질문 응답(Multi-hop Question Answering, QA) 시스템에 대해 성능을 높이는 기법을 다룸. 기존에는 CoT 기법과 Self-Consistency 기법을 조합해서 투표를 통해 가장 적합한 답을 선택하는 방식이었음.
  • 이 방식의 단점은 중간 추론 단계를 고려해서 답변을 선택하는 매커니즘이 아닌 최종 답변만 보고 가장 일관적인 답을 선택하는 거임.
  • 이 문제를 해결하기 위해서 저자는 다중 사슬 추론(Multi-Chain Reasoning, MCR) 기법을 제안함.
  • MCR 은 CoT 의 최종 답변만을 집계하는게 아니라 다중 CoT 의 중간 추론 단계 정보도 이용해서 이들을 정보를 통합과 비교해서 최종적인 답변을 선택하는 방법임. 여러 CoT 에 대해 메타 추론을 하는 것. (메타 추론은 추론을 위한 추론으로, 추론을 평가하기 위해서 한 단계 위의 관점에서 추론을 사용하는 걸 말함)
  • 실험 결과, MCR은 7개의 다중 단계 QA 데이터셋에서 기존의 강력한 기준선보다 우수한 성능을 보여싿고 한다.

 

 

Introduction:

  • CoT + SC 기법의 한계:
    • 다양한 출력의 경우: 가능한 답변의 범위가 넓을 때, 각 추론 사슬이 서로 다른 답을 생성하여 명확한 다수결이 어려울 수 있음.
    • 중간 추론 단계의 정보 손실: 최종 답변에만 집중하면, 각 추론 사슬의 중간 단계에서 얻을 수 있는 유용한 정보를 활용하지 못함.
    • 설명 가능성의 저하: CoT와 SC를 함께 사용하면, 통합된 하나의 추론 과정이 없어 결과에 대한 명확한 설명을 제공하기 어려움.
  • 반면 MCR은 여러 개의 추론 사슬에서 정보를 수집하고 이를 통합하여 최종 답변과 설명을 생성하는 것임.
  • 예시를 통한 MCR과 SC의 비교:
    • 질문: “Brad Peyton은 지진학을 알아야 했나요?”
    • SC: 여러 추론 사슬의 최종 답변을 모아서 다수결로 결정. 이 경우 "아니요" 라는 잘못된 답을 선택할 수 있음.
    • MCR 방법: 각 추론 사슬의 중간 단계를 하나로 연결하고, 메타-추론 모델에 입력으로 넣음. 이 모델은 여러 사슬에서 나온 정보를 결합하여 올바른 답변과 그에 대한 설명을 제공함.
    • MCR 결과: MCR은 “지진학은 지진을 연구하는 학문이다”, “Brad Peyton은 영화 감독이다”, “San Andreas는 지진에 관한 영화다” 등의 정보를 결합하여 “네, 그는 지진학을 알아야 했다”라는 올바른 답과 설명을 제공하게 될거임.
  • MCR의 구성 요소:
    • 분해 모델과 검색기: 추론 사슬을 생성하기 위해 사용딤. 질문을 세부적인 단계로 분해하고 필요한 정보를 검색하는데 사용된다.
    • 메타-추론 모델: 여러 추론 사슬의 정보를 통합하여 최종 답변과 설명을 생성한다.
  • MCR의 장점:
    • 정보 통합 능력: 여러 추론 사슬에서 나온 다양한 정보를 결합하여 더 정확하고 풍부한 답변을 제공함.
    • 설명 가능성 향상: 통합된 설명을 통해 결과에 대한 신뢰성과 이해도를 높임.
    • SC의 한계 극복: 다수결의 불확실성, 중간 단계 정보의 활용 부족, 설명력 저하 등의 문제를 해결함.
  • MCR 은 7개의 다중 단계 QA 벤치마크에서 SC를 포함한 모든 기준선을 능가하는 성능을 보였다고 함.
  • MCR은 모든 데이터셋에서 기존 방법들을 능가하는 성능을 보였으며, 특히 SC보다 최대 5.7% 향상된 결과를 얻었다고 함.

다중 단계 질문 응답에 대한 최근 연구 동향:

  • 몇 가지 예시(few-shot) 프롬프트를 통해 LLM이 다중 단계 질문에 답변하도록 하는 방법이 나왔었음. (Wei et al., 2022; Nye et al., 2022; Yao et al., 2022).
  • CoT 기법을 통해서 단계별 추론을 하는 것도 나왔었음.
  • 그리고 Retriever 를 통한 RAG 기법을 이용해서 환각(hallucination) 을 줄이는 기법도 나왔었다. (Khot et al., 2023; Press et al., 2022; Yao et al., 2022; Lazaridou et al., 2023; Trivedi et al., 2022a; Khattab et al., 2022).
  • 또 여러 개의 추론 사슬과 그 답변을 결합하여 최종 답변을 도출하는 방법도 나왔음. (Wang et al., 2023; Li et al., 2022).
  • 이 논문은 다중 추론 사슬을 통합하는 기법에 초점을 맞추고 있음. 하지만 이 논문에서 제안하는 MCR 은 여러 개의 추론 사슬을 활용하여 질문에 대한 관련 증거를 수집하고, 이를 기반으로 최종 답변을 도출하는 방식임.

 

 

MCR - Method:

  • 이 기법은 여러 개의 추론 사슬을 생성하고, 이를 메타-추론하여 최종 답변과 설명을 제공하는 것에 초점을 맞춤.
  • 추론 사슬 (r) 은 다음과 같이 구성됨:
    • q_i: 중간 질문
    • e_i: 중간 질문에 대한 증거(코퍼스 C 내의 문장, 증거는 코퍼스 C 에서 있다고 가정)
    • a_i: 중간 질문에 대한 답변 (추론 모델을 통한 생성)
    • 질문 q를 답하기 위해 필요한 여러 단계의 추론 과정으로, (중간 질문-증거-답변) 삼중항의 리스트로 표현될거임.
  • Figure 3 은 MCR 방법을 나타내줌:
    • a) 추론 사슬 생성 (Steps 1-2):
      • 분해 모델(Decomposition Model) 과 검색기 (Retriever) 를 사용해서 여러개의 추론 사슬을 순서대로 생성함.
      • 분해 모델은 질문을 중간 질문들로 분해하는 역할을 함
      • 검색기는 각 중간 질문에 대한 관련 증거 e_i를 코퍼스 C에서 검색을 함.
      • 중간 답변은 분해 모델의 질문과 증거와 이전 단계들과 함께 생성함.
      • 이떄 각 질문들에 대해서 여러번의 추론을 해봄. 하나는 탐욕적 디코딩(greedy decoding) 방식으로 생성해보고, 나머지는 샘플링 방식 (temperature 를 0.7 정도) 로 줘서 생성해본다.
    • b) 메타-추론 모델을 통한 최종 답변 생성 (Step 3):
      • 위 과정에서 생성된 여러 추론들을 (논문에서는 5개 정도) 컨택스트로 활용함.
      • 이 여러 추론 사슬에 대한 컨택스트를 이용해서, 메타-추론을 수행하는 LLM 을 통해서 최종 답변을 생성함.
      • 각 추론 사슬에서 중요한 정보를 추출할거임.
      • 기존 연구에서는 여러 추론 사슬의 최종 답변ㅇ을 사용했지만 이 방법은 추론 사슬 전체를 컨텍스트로 활용해서 답변을 생성함.
  • 프롬프트는 Few-shot 으로 구성될 수 있을거고, 각 추론 사슬의 (q_i, a_i) 쌍을 나열하고, 마지막에 원래 질문과 그에 대한 단계별 추론과 최종 답변을 포함할 것. 다음 Figure 4 를 참고.

 

 

MCR Decomposition Prompt - 2WIKIMQA 기준:

  • 보면 질문이 주어졌을 때 후속 질문과 중간 답변을 스스로 생성해보고 최종 답변을 만들어보는 프롬프트임.
  • 이런 프롬프트를 줘서 후속 질문들을 순서대로 만들어보고, MCR 에서는 증거를 찾아서 후속 질문에 답변을 하도록 만드는듯.
  • 그리고 최종 메타 추론 프롬프트에서 이를 컨택스트로 제공해서 최종 답변을 내고.
Given the following question, answer it by providing follow up questions and intermediate answers. If no follow up questions are necessary, answer the question directly. You are also provided with the most relevant google snippet for each intermediate question.

--- 

# 
Context1:XaweryZ ̇uławski:Polish-RussianWar(Wojnapolsko-ruska)isa2009PolishfilmdirectedbyXaweryZ ̇uławski basedonthenovelPolish-RussianWarunderthewhite-redflagbyDorotaMasłowska.SotheanswerisXaweryZ ̇uławski. Context2:XaweryZ ̇uławski:XaweryZ ̇uławski;NationalFilmSchoolinŁódz ́·1995–present·MariaStrzelecka·2. Question: Who is the mother of the director of film Polish-Russian War (Film)?
Are follow up questions needed here: Yes.
Follow up: Who is the director of the film Polish-Russian War (Film)? Intermediateanswer:ThedirectorofthefilmPolish-RussianWarisXaweryZ ̇uławski. Followup:WhoisthemotherofXaweryZ ̇uławski? Intermediateanswer:ThemotherofXaweryZ ̇uławskiisMałgorzataBraunek.
So the final answer is: Rick Scott Małgorzata Braunek.
...

#
Context1: John, Count Palatine of Neumarkt: John (Johann von Pfalz-Neumarkt; 1383  14 March 1443) was the Count Palatine of Neumarkt from 1410 to his death. The son of Rupert III of the Palatinate, he married Catherine of Pomerania in 1407.
Context2: John, Count Palatine of Neumarkt: John (Johann von Pfalz-Neumarkt; 1383  14 March 1443) was the Count Palatine of Neumarkt from 1410 to his death. The son of Rupert III of the Palatinate, he married Catherine of Pomerania in 1407.
Question: Who is Catherine Of Pomerania, Countess Palatine Of Neumarkt’s father-in-law?
Are follow up questions needed here: Yes.
Follow up: Who is the husband of Catherine of Pomerania, Countess Palatine of Neumarkt?
Intermediate answer: The husband of Catherine of Pomerania, Countess Palatine of Neumarkt is John, Count Palatine of Neumarkt.
Follow up: Who is the father of John, Count Palatine of Neumarkt?
Intermediate answer: The father of John, Count Palatine of Neumarkt is Rupert III of the Palatinate.
So the final answer is: Rupert III of the Palatinate.

 

 

MCR Meta-reasoner Prompt - 2WIKIMQA 기준:

Given a question and a context, answer the question and explain why. If you are unsure, answer Unknown.

--- 
#
Context:
Who is the wife of Douglas Leiterman? The wife of Douglas Leiterman is Beryl Fox.
Where was Beryl Fox born? Beryl Fox was born in Winnipeg, Manitoba.
When and where was Mary born? Mary was born in c. 18 BC or September 8 (21), 16 BC Herodian Kingdom of Judea. Where was Beryl Fox born? Beryl Fox was born in Winnipeg, Manitoba.
Who is the wife of Douglas Leiterman? The wife of Douglas Leiterman is Mary.
Who is the wife of Douglas Leiterman? The wife of Douglas Leiterman is Beryl Fox.

Question:
Where was the wife of Douglas Leiterman born?

Answer:
The wife of Douglas Leiterman is Beryl Fox. Beryl Fox was born in Winnipeg, Manitoba.
So the answer is: Winnipeg, Manitoba.
...

#
Context:
When did Elio Petri die? Elio Petri died on 10 November 1982.
Who is the director of The Working Class Goes to Heaven? The director of The Working Class Goes to Heaven is Elio Petri. Who is the director of Crimen A Las Tres? The director of Crimen A Las Tres is Luis Saslavsky.
Who is the director of Crimen A Las Tres? The director of Crimen A Las Tres is Luis Saslavsky.
When did Luis Saslavsky die? Luis Saslavsky died on March 20, 1995.
Who is the director of Crimen A Las Tres? The director of Crimen A Las Tres is Luis Saslavsky.
When did Elio Petri die? Elio Petri died on 10 November 1982.
When did Luis Saslavsky die? Luis Saslavsky died on March 20, 1995.
When did Luis Saslavsky die? Luis Saslavsky died on March 20, 1995.
When did Elio Petri die? Elio Petri died on 10 November 1982.
Who is the director of The Working Class Goes to Heaven? The director of The Working Class Goes to Heaven is Elio Petri. Who is the director of The Working Class Goes to Heaven? The director of The Working Class Goes to Heaven is Elio Petri.

Question:
Which film has the director died first, Crimen A Las Tres or The Working Class Goes To Heaven?

Answer:
The director of Crimen A Las Tres is Luis Saslavsky. The director of The Working Class Goes to Heaven is Elio Petri. Luis Saslavsky died on March 20, 1995. Elio Petri died on 10 November 1982.
So the answer is: The Working Class Goes To Heaven.
#

 

 

실험 설정과 결과:

  • 실험 설정:
    • 데이터셋:
      • 오픈 도메인 환경에서 다중 단계의 추론이 필요한 질문들을 대상.
      • 데이터 셋 분류 - 암묵적 추론(Implicit Reasoning):
        • 질문의 언어만으로는 명시적으로 추론 단계를 도출할 수 없으며, 상식이나 산술적 추론이 필요한 경우.
        • 여러 가지 유효한 추론 사슬이 존재할 수 있음.
        • 평가한 데이터셋: STRATEGYQA, FERMI, QUARTZ
      • 데이터 셋 분류 - 명시적 추론(Explicit Reasoning):
        • 질문의 언어에 추론 단계가 명시적으로 표현되어 있는 경우
        • 평가한 데이터셋: HOTPOTQA, 2WIKIMQA, BAMBOOGLE, FEVEROUS
        • FEVEROUS 을 추가한 이유는 사실 검증을 위한 것임. 주장(claim)을 검증하기 위해 여러 사실을 확인해야 하며, 증거는 문장이나 표 또는 둘 다일 수 있다.
    • 모델:
      • code-davinci-002라는 LLM 을 사용. 그리고 검색이 추가된 형태
      • 맥락 내 학습(in-context learning) 예시로 프롬프트
    • 프롬프트 구성:
      • 데이터셋에 따라 예시의 수는 6~12개
      • 분해 프롬프트 예시는 학습 및 개발 세트에서 무작위로 선택된 예제와 그에 해당하는 정답 추론 사슬을 기반으로 함.
    • 메타-추론기(Meta-Reasoner):
      • 단일 사슬 이상의 추론이 미치는 영향을 측정하기 위해 두 가지 변형을 실험해봄.
      • MCR(Multi-Chain Reasoning):
        • 메타-추론기는 다섯 개의 추론 사슬을 다중 사슬 컨텍스트로 받음.
        • 하나는 탐욕적 디코딩, 다른 4개는 온도 t=0.7 로 샘플링.
      • SCR(Single-Chain Reasoning):
        • 다중 사슬 컨텍스트의 효과를 분석하기 위한 대조군
        • SCR에서는 메타-추론기가 MCR과 동일한 프롬프트를 받지만, 컨텍스트에는 탐욕적 디코딩으로 생성된 하나의 사슬만 포함됨.
    • 기준선(Baselines):
      • SA(Self-Ask):
        • 단일 추론 사슬의 답변
        • 탐욕적 디코딩으로 생성됨.
      • SC(Self-Consistency):
        • 여러 추론 사슬을 통합하는 기준선
        • 분해 모델에서 샘플링된 여러 사슬에 기반하여 다수결로 최종 답변을 반환.
    • 검색기(Retrieval):
      • Press et al. (2022); Lazaridou et al. (2023); Paranjape et al. (2023)와 유사하게, SerpAPI 서비스를 통한 구글 검색 기반의 검색기를 사용.
      • 구글에서 상위 1개의 증거를 반환해서 사용.
  • 실험 결과:
    • MCR은 모든 데이터셋에서 성능 향상을 보임:
      • STRATEGYQA: +1.4%
      • FERMI: +0.6%
      • QUARTZ: +4.0%
      • HOTPOTQA: +5.7%
      • 2WIKIMQA: +2.5%
      • BAMBOOGLE: +1.5%
      • FEVEROUS: +1.5%
    • MCR 과 SC 를 합친 기법인 MCR+SC@3 이 더 나은 성능을 보인다. MCR은 컨텍스트 길이 제한 때문에 더 많은 사슬을 직접 추가하기는 어려움을 보이기도 함.

 

+ Recent posts