Re-Reading Improves Reasoning in Large Language Models

youngerjesus 2024. 10. 12. 17:48

2024. 10. 12. 17:48

https://arxiv.org/pdf/2309.06275

Abstract:

LLM 의 추론 능력을 강화하기 위해 새로운 프롬프팅 기법인 RE2 (Re-Reading) 를 제안하는 논문.
핵심 아이디어는 질문을 두 번 처리하는 단순하지만 효과적인 접근 방식을 통해 모델의 이해 능력을 향상시키는 것.
기존의 Chain-of-Thought (CoT) 같은 프롬팅 방법과는 달리, RE2는 출력에서 추론을 유도하는 대신 입력 처리 과정에 집중한다.
LLM은 unidirectional decoder-only 구조(순방향으로만 처리)로 설계되지만, RE2는 두 번 읽기를 통해 양방향적인 정보 인코딩 효과를 부분적으로 달성할 수 있음.
첫 번째 읽기는 전체 맥락을 이해하고, 두 번째 읽기는 구체적인 세부 사항을 반영하여 더 나은 추론을 가능하게 하는 것.
14개 데이터셋, 112개의 실험을 통해 RE2의 성능을 검증해보니, 다양한 추론 벤치마크에서 RE2가 일관된 성능 향상을 일으켰다고 함. 이는 LLM이 질문을 재읽는 과정에서 이해력을 높이는 데 기여한다는 것을 입증.
RE2는 다양한 언어 모델, 프롬팅 전략(CoT 포함), 앙상블 전략과 효과적으로 결합할 수 있음.
단순한 기법임에도 불구하고 강력한 범용성과 높은 적용성을 보여준다.

Introduction:

기존 연구는 주로 출력 과정에서 추론을 유도하는 프롬팅 전략에 집중헀음. 대표적으로 Chain of Thought (CoT): 모델이 단계적으로 생각을 출력하게 하는 전략.
이와 같은 연구는 입력 단계의 이해를 향상시키려는 시도는 부족했다고 봄.
그리고 현재의 LLM들은 decoder-only 아키텍처를 사용한다. 즉 unidirectional attention 을 사용함.
Unidirectional attention은 각 토큰이 자신 이전의 토큰만 볼 수 있기 때문에, 입력 문장의 전체적인 맥락을 파악하기가 어려움. 반대로 BERT와 같은 인코더 기반 모델은 양방향(bidirectional) attention을 사용하여 보다 전반적인 이해를 제공한다.
이러한 한계는 문제를 해결하기 전에 질문을 충분히 이해하는 과정을 방해할 수 있음. 따라서 LLM이 복잡한 문제를 다루기 위해서는 입력 이해력의 향상이 필수적이다.
인지 과학 연구에 따르면, 인간은 학습과 문제 해결 과정에서 질문을 여러 번 읽어 이해를 심화하는 경향이 있다고 함. 이러한 점을 고려해, 이 논문은 LLM이 질문을 두 번 읽는 전략을 제안한다. 이를 통해 입력에 대한 더 깊은 이해를 유도할 수 있을거임.
연구팀은 LLaMA-2 모델을 사용해 GSM8K 데이터셋(Cobbe et al., 2021)에서 질문을 두 번 읽도록 실험을 해봤다고 함. 질문을 재읽는 전략이 양방향적인 이해(bidirectional understanding) 를 가능하게 하며, LLM의 추론 성능을 향상시킬 수 있다고 함.
RE2 는 첫 번째 읽기에서 전체 맥락을 파악하고 두 번째 읽기에서 그 맥락을 바탕으로 다음 토큰에 더 효과적으로 주목하게 될 것.

RE2 와 CoT 와의 관계: Plug & Play 모듈:

Plug & Play 모듈은 특정 기능이나 구성 요소를 기존 시스템에 쉽게 연결하고 바로 사용할 수 있는 모듈을 의미함. 쉽게 연결하고 붙일 수 있는 모듈.
RE2는 CoT와 함께 사용될 때 입력 단계의 이해를 심화하여, 더 나은 추론 결과를 제공해줄 수 있을 것.
CoT 뿐 아니라 다른 추론 방법인 Plan-and-Solve (PS), Program-Aided Language models (PAL) 에도 적용을 해보니 성능 향상이 일관되게 나타났다고 함.
CoT 뿐 아니라 few-shot 설정, self-consistency(자기 일관성) 등에도 쉽게 통합될 수 있을 것.

RE2 Prompting:

Q: {Input Query}
Read the question again: {Input Query}
# Thought-eliciting prompt (e.g.,“Let’s
think step by step") #

RE2(Re-Reading): 몇 번까지 읽으면 좋을까?

질문을 2번까지 재읽을 때 성능이 향상되었다고 함.
3번 이상 질문을 반복하면 성능이 하락하기 시작한다고 함. 이건 LLM이 질문을 반복적으로 읽으면, 답변을 생성하는 대신 질문을 반복해서 출력하려는 경향이 생길 수 있기 때문이라고 한다.
또 LLM 은 사전 학습 데이터와 일치하는 방식으로 동작하려고 하는데 일반적으로 데이터에서 질문을 두 번까지만 반복하지 3번이상 하는 경우는 거의 없음. 그래서 3번부터는 모델이 훈란을 겪을 수 있다.
두 번만 읽는것이 가장 나음.

질문의 복잡성이 RE2와 CoT(Chain-of-Thought) 프롬팅의 추론 성능에 미치는 영향:

질문의 복잡성은 추론 단계의 수로 측정했음.
일반적으로 질문의 복잡성이 증가할수록 모든 프롬팅 기법의 성능이 저하되는 경향이 있음.
하지만 RE2를 추가했을 때, 복잡한 문제에서도 성능이 더 나아지는 경향이 있다고 함.
특히 다소 복잡한 문제에서는 RE2가 더 두드러진 성능 향상을 가져왔다고 한다.

다양한 재읽기 지침(re-reading instructions) 이 RE2 와 CoT 성능에 어떤 영향을 미칠까?:

ChatGPT와 GSM8K 데이터셋을 사용하여 여러 가지 재읽기 지침을 실행
Read the question again 와 같은 명시적인 재읽기 지침을 추가한 경우 가장 성능이 좋았다고 한다. 단순히 질문을 두 번 반복하는 방식보다.
연구팀은 CoT 지침(“Let’s think step by step”)을 두 번 반복하는 경우(P3, P4)도 실험해봤다고 함. CoT 지침을 반복하는 것은 성능에 추가적인 이점을 제공하지 않았다고 함.
추론 과정 자체를 반복하는 것이 질문을 반복해 읽는 것만큼 효과적이지 않다고 함.

RE2 의 Limitations:

RE2의 기저 원리에 대한 이해는 아직 부족할 수 있음.
RE2는 입력을 두 번 반복하기 때문에 입력 길이가 늘어남. 이로 인해, 긴 질문을 처리할 때 추론 속도가 약간 느려질 수 있다.
이 연구에서는 멀티턴 대화나 멀티모달 데이터 처리와 같은 다른 응용 분야에서는 RE2의 효과를 검증하지 않았음.

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Large Language Models are Zero-Shot Reasoners (0)	2024.10.17
Graph of Thoughts: Solving Elaborate Problems with Large Language Models (0)	2024.10.16
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent debate (0)	2024.10.10
Evaluation Tips (0)	2024.10.10
Many-Shot In-Context Learning (0)	2024.10.09

여정민의 블로그

Re-Reading Improves Reasoning in Large Language Models

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바