https://arxiv.org/abs/2306.06891


Abstract:

  • CoT 프롬프트를 통해서 언어모델의 추론 능력을 향상 시킬 수 있지만, 문제가 복잡해질수록 CoT의 길이도 빠르게 늘어나 최대 컨텍스트 크기를 초과하게 되는 문제도 발생함.
  • 기존에는 이 컨택스트 한계를 늘리는 방향의 연구가 이뤄졌지만 이 논문에서는 다른 접근법을 제시한다.
  • 이 논문은 언어 모델이 문제를 여러 컨텍스트로 나누어 처리하도록 하는 새로운 추론 프레임워크인 “생각의 재귀(Recursion of Thought, RoT)“를 제안함.
  • RoT는 모델이 특정 특수 토큰을 출력하여 특정 컨텍스트 관련 작업을 수행하도록 함. 따라서 모델은 복잡한 문제를 작은 부부느로 분할해서 나눠서 처리하도록 하는게 가능해진다.

 

Introduction:

  • CoT 방법에는 중요한 한계가 있음:
    • 시퀀스 모델의 컨텍스트 크기는 무한정 늘릴 수 없다는 것.
    • 여기서 컨텍스트란 모델이 출력을 생성할 때 참조하는 입력 토큰들의 집합을 의미함.
    • 실제로 모든 시퀀스 모델은 여러 이유로 최대 컨텍스트 길이에 제한이 있음.
    • 예를 들어, Transformer 모델은 컨텍스트 길이에 따라 계산 비용이 제곱으로 증가하며, RNN은 장기적인 의존성 처리에 어려움을 겪는다.
    • 따라서 최신 언어 모델조차도 최대 컨텍스트 길이를 수천 개의 토큰으로 제한하고 있음.
    • 그러나 실제로 복잡한 문제들은 답을 도출하기 위해 수백만 개의 토큰에 해당하는 추론 단계를 필요로 할 수 있다.
  • 이러한 문제를 해결하기 위해, 컨텍스트 크기를 단순히 늘리는 기존의 접근법과는 다른 방향을 모색하는게 이 논문에서 제안하는 것.
  • 분할 정복(divide and conquer) 전략에서 영감을 받아서 새로운 추론 프레임워크인 생각의 재귀(Recursion of Thought, RoT) 를 제안한다.
  • RoT는 모델이 특수한 토큰을 생성하여 재귀적으로 여러 개의 컨텍스트를 만들 수 있게 험.
  • 이를 통해 문제의 해결 과정이 최대 컨텍스트 크기를 초과하덜다ㅗ 모델은 이를 여러개의 짧은 컨택스트로 나눠서 처리할 수 있음.
  • 이 방법은 언어 모델을 실제로 제어가능할 때 적용하는 방법. 특정 토큰을 출력하도록 만드는거니까. 

+ Recent posts