Large Language Models Cannot Self-Correct Reasoning Yet

youngerjesus 2024. 11. 16. 03:29

2024. 11. 16. 03:29

https://arxiv.org/pdf/2310.01798

Abstract:

이 논문은 대형 언어 모델(LLMs)의 현재 능력과 한계에 대해 논의하고 있음.
LLM 은 분명 다양한 응용 분야에서 탁월한 텍스트 생성 능력을 보여주고 있음.
그러나 생성된 내용의 정확성과 적절성에 대한 우려가 계속되고 있다. 이는 LLM 이 때때로 부정확하거나 부적절한 정보를 생성할 수 있는 문제를 나타냄.
이러한 문제를 해결하기 위해서 현대적인 접근법으로 자기 수정(self-correction) 방법론이 제안되고 있음. 이는 모델이 스스로 자신의 응답을 검토하고 수정하는 과정을 말함.
이 논문은 내재적 자기 수정(intrinsic self-correction) 에 초점을 맞추어, LLM이 외부 피드백 없이 자신의 고유한 능력만으로 초기 응답을 수정하려는 시도를 검토함.
연구 결과로 LLM 은 외부의 도움 없이 스스로 응답을 수정하는 데 어려움을 겪으며, 때로는 자기 수정 후에 성능이 오히려 저하되기도 한다는 것을 발견함. 즉 자기 수정 능력이 제한적이라고 한다.
이러한 발견을 바탕으로, 저자들은 이 분야에서의 미래 연구 방향과 실제 응용에 대한 제언을 제공함.

Introduction:

기대와는 달리, 연구 결과 LLM들은 이러한 설정에서 자기 수정에 어려움을 겪으며, 대부분의 경우 자기 수정 후에 성능이 오히려 저하되었다고 함.
이는 이전 연구와는 대조적인 결과임. 이전 연구들의 개선은 오라클 레이블(정답)을 사용하여 자기 수정을 유도했기 때문에 성능이 개선되었다고 함. 이러한 레이블이 없다면 개선이 사라진다고 한다.
자기 수정은 설계상 여러 번의 LLM 응답을 사용하므로, 동일한 추론 비용을 가진 기준선과 비교하는 것이 중요함. 이를 비교하기 위해서 다중 에이전트 토론(multi-agent debate) 방법을 조사했지만, 동일한 수의 응답을 고려할 때 그 효능은 자기 일관성(self-consistency) 방법보다 나을 것이 없다는 것을 발견함. (그러니까 비용 대비 효과를 고려한다면 Self-Consistency 와 다를바 없다. 더 많은 투자를 한다면 multi-agent debate 가 성능이 더 높은듯.)
그리고 자기 수정으로 인한 개선된 결과는 초기 프롬프트에서 더 상세하게 지시하는 것으로도 해결할 수 있다고 제안함. 단순한 피드백을 초기 지침에 통합하는 것임.
이러한 발견을 바탕으로, 저자들은 LLM의 자기 수정 능력에 대한 미묘한 측면을 조명하고, 진정으로 추론을 개선할 수 있는 방법을 탐구하기 위한 향후 연구를 촉구함.

실험과 결과 분석:

실험 설정:
- 테스트 모델: GPT-3.5-Turbo, GPT-4, GPT-4-Turbo, Llama-2 등 다양한 모델을 평가
- 데이터셋: GSM8K, CommonSenseQA, HotpotQA
- 연구에서는 자기 수정을 위한 세 단계의 프롬프트 전략을 적용함:
  - a) 초기 생성: 모델에게 최초 응답을 생성하도록 요청
  - b) 피드백 생성: 모델에게 이전 생성된 응답을 검토하고 피드백을 제공하도록 요청
  - c) 피드백을 반영한 재응답: 모델에게 원래 질문에 대해 피드백을 반영하여 다시 응답하도록 요청
- 내재적 자기 수정 프롬프트:
  - Assume that this answer could be either correct or incorrect. Review the answer carefully and report any serious problems you find.“라는 기본 피드백 프롬프트를 사용함.
실험 결과:
- 오라클 레이블을 사용한 자기 수정 (Self-Correction with Oracle Labels):
  - 이전 연구들(Kim et al., 2023; Shinn et al., 2023)을 따라, 정답의 정확성을 판단하기 위해 오라클 레이블을 사용하여 자기 수정 루프를 중단함.
  - 이는 각 단계에서 생성된 답변이 올바른지 확인하기 위해 실제 정답(ground-truth label)을 활용하는 방식임.
  - 이렇게 하면 유의미하게 성능이 향상되긴 함.
  - 하지만 실제로는 정답을 이미 알고 있는 경우가 없기 때문에 이런 결과는 의미가 없을 수 있음.
- 내재적 자기 수정 (Intrinsic Self-Correction):
  - 오라클 레이블을 제거하고, LLM이 스스로 자기 수정 과정을 중단할지 여부를 독립적으로 판단하도록 요구해봄.
  - 다음 이미지는 Tables 3과 4에서는 정확도와 모델 호출 횟수를 나타내고 있음. 보면 모든 모델의 정확도가 감소하는 걸 볼 수 있다.
  - 보다 포괄적인 평가를 위해, 여러 가지 다른 자기 수정 프롬프트를 설계하여 추론 성능을 향상시킬 수 있는지 확인해봤다고 함. 하지만 아래 이미지와 같이 성능이 저하되었다고 한다.

실험 결과 분석:

변경된 답변의 결과 요약 (Figure 1 & Figure 2):
- GSM8K 데이터셋:
  - GPT-3.5는 약 74.7%의 경우 초기 답변을 유지함.
  - 나머지 경우에는 올바른 답변을 잘못된 답변으로 수정하는 경우가 잘못된 답변을 올바르게 수정하는 경우가 많음.
  - 이는 LLM이 자신의 추론이 올바른지 제대로 판단하지 못한다는 근본적인 문제를 드러냄.
- CommonSenseQA 데이터셋:
  - GPT-3.5는 답변을 변경할 가능성이 더 높았음.
  - CommonSenseQA의 잘못된 답변 옵션들이 질문과 다소 관련이 있어, 자기 수정 프롬프트가 모델을 다른 옵션을 선택하도록 편향 시킬 수 있음.
Llama-2 역시 올바른 답변을 잘못된 답변으로 수정하는 경우가 잦음.
GPT-4 및 GPT-4-Turbo 모델은 초기 답변을 유지할 가능성이 높음. 초기 답변에 대한 자신감이 더 높거나, 자기 수정 프롬프트에 덜 영향을 받는 더 견고한 모델이기 떄문일 수 있음.
분명 Table 2에서는 오라클 레이블(ground-truth label)을 사용하여 올바른 답변이 잘못으로 변경되지 않도록 방지함. 하지만 실제 문제 해결 상황에서는 이러한 오라클 레이블이 제공되지 않기 때문에, 모델이 스스로 답변의 정확성을 판단하고 수정하는 것이 중요함.

CONCLUSION AND DISCUSSION:

외부 피드백이 제공될 경우, 이를 적절히 활용하는 것이 모델 성능 향상에 유리하다고 함:
- 예를 들면 Chen et al. (2023b)은 코드 실행 결과를 피드백 프롬프트에 포함시켜 LLM의 코드 생성 성능을 크게 향상시켰다고 한다. 특히, 문제 설명에 단위 테스트(Unit Tests)와 같은 명확한 코드 실행 행동이 포함될 때, 코드 실행기가 예측된 프로그램의 정확성을 판단하는 데 완벽한 검증자로 작용한다고 함.
- Gou et al. (2023)은 검색 엔진과 계산기와 같은 다양한 외부 도구와 상호 작용할 때 LLM이 응답을 더 효과적으로 검증하고 수정할 수 있음을 보여줌.
- Cobbe et al. (2021); Lightman et al. (2023); Wang et al. (2023b)와 같은 연구들은 고품질 데이터셋으로 검증자(verifier)나 비평 모델(critique model)을 훈련시켜 LLM의 출력을 검증하거나 정제함으로써 예측 오류를 수정했다고 함.
- 자동으로 생성된 외부 피드백 외에도, 사용자와 상호 작용할 때 직접 피드백을 제공하여 원하는 콘텐츠를 생성하도록 유도할 수 있음.
피드백 프롬프트에 작업 설명의 일부를 남겨두는 대신, 초기 프롬프트에 명확하고 구체적인 지침을 포함시키는 것이 낫다고 함.

Limitations:

기존 연구들은 모델 응답의 스타일 변경이나 안전성 강화와 같은 특정 선호도에 맞추어 자기 수정을 성공적으로 활용한 사례를 보여주기도 함.
LLM들은 주어진 작업과 관련하여 자신의 응답이 적절한지 여부를 정확하게 평가할 수 있는 능력에는 차이가 있음. 예를 들어, LLM들은 응답이 부적절한지 여부를 제대로 평가할 수 있지만 (Ganguli et al., 2023), 자신의 추론 오류를 식별하는 데는 어려움을 겪을 수 있다.
다른 도메인에서 LLM의 성능을 향상시킬 수 있는 자기 수정 전략이 존재할 가능성이 있음 .예를 들어, 기존 연구들은 모델 응답의 스타일 변경이나 안전성 강화와 같은 특정 선호도에 맞추어 자기 수정을 성공적으로 활용한 사례를 보여주었음. (Self-refine 포함)
LLM들은 오도된 피드백에 쉽게 영향을 받을 수 있다는 점도 지적되기도 함.
"LLMs는 추론을 자기 수정할 수 없다”는 “LLMs는 추론을 할 수 없다" 와 같지 않음. 추론 능력이 있지만 문제에 대해 잘못된 해답을 제공하고 자신의 실수를 수정하지 못하는 개인을 생각해보면 됨. 이러한 자기 수정의 불가능성은 그들의 추론 능력을 부정하지 않음.

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Making Large Language Models Better Reasoners with Step-Aware Verifier (0)	2024.11.16
Answering Questions by Meta-Reasoning over Multiple Chains of Thought (0)	2024.11.16
Universal Self-Consistency for Large Language Model Generation (0)	2024.11.16
Getting MoRE out of Mixture of Language Model Reasoning Experts (0)	2024.11.15
Exploring Demonstration Ensembling For In-Context Learning (0)	2024.11.15

여정민의 블로그

Large Language Models Cannot Self-Correct Reasoning Yet

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바