Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models

youngerjesus 2024. 11. 3. 14:42

2024. 11. 3. 14:42

https://arxiv.org/abs/2306.06891

Abstract:

CoT 프롬프트를 통해서 언어모델의 추론 능력을 향상 시킬 수 있지만, 문제가 복잡해질수록 CoT의 길이도 빠르게 늘어나 최대 컨텍스트 크기를 초과하게 되는 문제도 발생함.
기존에는 이 컨택스트 한계를 늘리는 방향의 연구가 이뤄졌지만 이 논문에서는 다른 접근법을 제시한다.
이 논문은 언어 모델이 문제를 여러 컨텍스트로 나누어 처리하도록 하는 새로운 추론 프레임워크인 “생각의 재귀(Recursion of Thought, RoT)“를 제안함.
RoT는 모델이 특정 특수 토큰을 출력하여 특정 컨텍스트 관련 작업을 수행하도록 함. 따라서 모델은 복잡한 문제를 작은 부부느로 분할해서 나눠서 처리하도록 하는게 가능해진다.

Introduction:

CoT 방법에는 중요한 한계가 있음:
- 시퀀스 모델의 컨텍스트 크기는 무한정 늘릴 수 없다는 것.
- 여기서 컨텍스트란 모델이 출력을 생성할 때 참조하는 입력 토큰들의 집합을 의미함.
- 실제로 모든 시퀀스 모델은 여러 이유로 최대 컨텍스트 길이에 제한이 있음.
- 예를 들어, Transformer 모델은 컨텍스트 길이에 따라 계산 비용이 제곱으로 증가하며, RNN은 장기적인 의존성 처리에 어려움을 겪는다.
- 따라서 최신 언어 모델조차도 최대 컨텍스트 길이를 수천 개의 토큰으로 제한하고 있음.
- 그러나 실제로 복잡한 문제들은 답을 도출하기 위해 수백만 개의 토큰에 해당하는 추론 단계를 필요로 할 수 있다.
이러한 문제를 해결하기 위해, 컨텍스트 크기를 단순히 늘리는 기존의 접근법과는 다른 방향을 모색하는게 이 논문에서 제안하는 것.
분할 정복(divide and conquer) 전략에서 영감을 받아서 새로운 추론 프레임워크인 생각의 재귀(Recursion of Thought, RoT) 를 제안한다.
RoT는 모델이 특수한 토큰을 생성하여 재귀적으로 여러 개의 컨텍스트를 만들 수 있게 험.
이를 통해 문제의 해결 과정이 최대 컨텍스트 크기를 초과하덜다ㅗ 모델은 이를 여러개의 짧은 컨택스트로 나눠서 처리할 수 있음.
이 방법은 언어 모델을 실제로 제어가능할 때 적용하는 방법. 특정 토큰을 출력하도록 만드는거니까.

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering (0)	2024.11.11
Skeleton-of-Thought: Prompting LLMS For Efficient Parallel Generation (0)	2024.11.03
Tree of Thoughts: Deliberate Problem Solving with Large Language Models (0)	2024.11.03
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models (0)	2024.11.02
Decomposed Prompting: A MODULAR APPROACH FOR SOLVING COMPLEX TASKS (0)	2024.11.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여정민의 블로그

Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역