https://openreview.net/pdf?id=FQepisCUWu


Abstract:

  • 전통적으로 텍스트를 평가하는 것은 많은 시간과 노력이 필요한 복잡한 작업임. 하지만 LLMs가 등장하면서 연구자들은 이를 인간 평가자의 대안으로 활용하려는 시도를 하고 있다.
  • 단일 에이전트 기반의 접근법은 가능성을 보여주지만, 여전히 인간 수준의 평가 품질과는 격차가 있다는 한계가 있음.
  • 여기서 제안된 접근법은 다중 에이전트 토론 프레임워크임:
    • 인간 평가 과정에서 여러 평가자가 협력하는 방식에 착안하여, 단일 에이전트 프롬프트 전략을 넘어서는 다중 에이전트 시스템을 제안
    • 이건 ChatEval 시스템임.
  • 이 프레임워크의 실험 및 결과:
    • ChatEval을 두 가지 벤치마크에서 테스트한 결과, 인간의 평가와 높은 상관관계를 보이며 우수한 정확도를 나타냈다고 함.
    • 다양한 페르소나를 가진 역할 프롬프트의 활용이 다중 에이전트 토론 과정에서 성능 향상에 필수적이라는 것도 발견함. 동일한 역할을 사용하면 성능이 저하되었기 떄문.

Introduction:

  • 텍스트 평가를 위해서 자동 평가 지표인 Rouge, BLEU, METEOR와 같은 n-그램 기반 자동 평가 지표가 도입되었지만 이러한 지표들은 특히 열린 형식의 생성 작업이나 전문 지식이 필요한 분야에서 인간의 판단과 약한 상관관계를 보임.
  • LLM-as-a-judge 접근법: 최근의 대형 언어 모델(LLM)의 뛰어난 텍스트 이해와 지시 수행 능력을 활용하여, LLM을 텍스트 평가자로 사용하는 연구들이 등장함.
  • 이러한 접근법은 LLM이 인간의 평가와 유사한 결과를 제공할 수 있음을 보여주며, 이는 비용과 노력이 많이 드는 인간 평가의 대안으로서 잠재력을 가지고 있음.
  • 강력한 단일 LLM도 다양한 작업을 수행할 수 있지만, 최근 연구는 여러 LLM이 협업과 토론을 통해 서로의 성능을 향상시킬 수 있음을 보여줌. 즉 단일 LLM 은 한계가 있다.
  • 여러 LLM을 그룹화하고 상호작용 메커니즘을 설계하여, 각 LLM이 독특한 응답과 사고 과정을 여러 라운드에 걸쳐 제안하고 숙고할 수 있음.

 

ChatEval 시스템:

 

 

METHODOLOGY:

  • 토론 에이전트(Debater Agents):
    • 각각의 LLM 을 개별적인 Agent 로 취급.
    • 에이전트들은 주어진 프롬프트에 기반해서 응답을 한다.
    • 다른 에이전트들의 응답은 대화 기록으로 활용되며, 다음 프롬프트에 포함된다.
    • 그룹 토론 진행:
      • 각 에이전트는 다른 에이전트들의 응답을 자동으로 받아들이고, 이에 따라 자신의 응답을 생성한다.
      • 이 과정은 인간의 개입 없이 자동으로 이루어짐.
  • 다양한 역할 명세(Diverse Role Specification):
    • 다양한 역할 명세는 프레임워크에서 필수적임.
    • 모든 에이전트가 공통의 프롬프트 템플릿을 공유하지만, ‘역할 설명(role description)’ 부분을 각기 다른 역할 프롬프트로 대체된다.
    • 이는 에이전트들에게 독특한 페르소나나 전문성을 부여하여, 각 에이전트가 다른 관점을 반영하도록 하는거임.
  • 의사소통 전략(Communication Strategy):
    • 대화 기록의 유지 방식을 설명하기 위해 “의사소통 전략” 이라는 용어를 사용함.
    • 그림 2에 나타난 것처럼, 주로 세 가지 의사소통 전략을 설계했음.
    • One-by-one:
      • 토론 에이전트들이 미리 정해진 순서에 따라 차례대로 응답을 생성하는 방식.
      • 각 에이전트는 이전 에이전트들이 한 말을 자신의 대화 기록에 추가해서 사용한다. 즉, 이전 에이전트들의 응답을 참고하여 자신의 의견을 제시하는 것.
      • 정해진 토론 횟수만큼 이 과정을 반복하고, 최종적으로는 각 에이전트의 응답을 모아서 평가 결과를 도출할 수 있다.
      • 에이전트들의 발언 순서가 토론 내용과 결과에 영향을 미칠 수 있다고 함. 즉 후순위 에이전트일수록 더 많은 정보에 접근할 수 있다고도 함.
    • Simultaneous-Talk:
      • 모든 에이전트들이 동시에 응답을 생성하는 방식
      • 각 라운드에서 생성된 모든 에이전트의 응답을 하나의 버퍼(buffer) 에 저장된다.
      • 다음 라운드에서 버퍼의 내용을 모든 에이전트의 대화 기록에 추가됨.
      • 이 과정을 정해진 토론 횟수만큼 반복하고 최종적인 결과를 낸다.
      • 모든 에이전트가 동일한 정보에 기반하여 응답을 생성할 수 있어서, 발언 순서로 인한 편향은 없앨 수 있다는게 특징.
    • Simultaneous-Talk-with-Summarizer:
      • Simultaneous-Talk 전략에 요약자(summarizer) 역할을 추가한 것.
      • 각 라운드가 끝날 때, 추가적인 LLM을 사용하여 현재까지의 대화를 요약한다.
      • 요약된 내용은 모든 에이전트의 대화 기록에 추가됨.
      • 버퍼의 내용을 요약자가 요약하고, 이 요약본이 모든 에이전트의 대화 기록에 추가되는 것.
      • 요약을 통해 중요한 정보에 집중할 수 있고, 중복된 정보나 불필요한 정보를 없앨 수 있다.

 

 

실험 및 결과:

  • 실험 설정:
    • LLM 으로 GPT 3.5 와 GPT-4 를 이용
  • 벤치마크:
    • Open-ended Question Answer:
      • 자연어 처리(NLP)와 생성 AI 분야에서 핵심적인 역할을 하는 열린형 질문 답변
      • Chiang et al.(2023) 의 연구에서 가져온 80개의 열린형 질문을 사용 했음. 이 질문들은 상식, 반사실, 코딩 등 다양한 카테고리를 포함한다.
    • Dialogue Response Generation:
      • 대화 응답 생성 작업으로, 주어진 대화 문맥에 대해 일관되고 적절한 응답을 생성하는 것
      • Topical-Chat (Gopalakrishnan et al., 2019) 데이터셋을 사용
  • 비교 대상 방법 (Baselines):
    • 단일 에이전트 방법(Single-Agent):
      • 하나의 LLM에 직접 질의하여 평가를 수행하는 방법
    • 다중 에이전트 방법(Multi-Agent):
      • 여러 LLM을 사용하여 앙상블하거나 토론 방식을 통해 평가를 수행
    • ChatEval 설정:
      • 기본적으로 One-by-One 의사소통 전략을 사용하고, 에이전트 수는 2명, 토론 라운드는 2회로 설정
      • 단일 에이전트와 다중 에이전트 설정 모두에서 위치 보정 기술(Position Calibration Techniques) 을 적용
  • 평가 방법:
    • 정확도(Accuracy): 전체 인스턴스 중 올바르게 분류된 비율을 측정합니다.
    • 카파 상관 계수(Kappa Correlation Coefficient): 우연에 의한 일치 가능성을 고려하여 모델과 인간 평가자 간의 일치도를 측정합니다.
  • 실험 결과:
    • 단일 에이전트 평가와 비교하여, ChatEval은 평가 프로세스의 성능을 향상시켜 인간의 선호도와 더 높은 일치를 보였음.
    • ChatEval은 ChatGPT와 GPT-4 설정 모두에서 FairEval의 최고 성능을 달성
    • ChatEval과 비교하여, 기본적인 앙상블 방법은 평가자의 성능을 현저하게 향상시키지 못하였음.

 

 

THE IMPORTANCE OF DIVERSE ROLE PROMPTS:

 

 

의사소통 전략 연구(The Study of Communication Strategies):

  • 서로 다른 의사소통 전략은 역할 수(role numbers) 와 토론 횟수(discussion turns) 에 따라 다양한 성능 변화를 보인다고 함.
  • Simultaneous-Talk-with-Summarizer 전략의 확장성:
    • 이 전략은 역할 수와 토론 횟수가 증가함에 따라 성능이 꾸준히 향상되는 일관된 상승 추세를 보인다고 함.
    • 이는 요약 방식의 대화 기록이 컨텍스트 길이의 급격한 증가를 막아주어, LLM의 추론 능력을 유지시켜주기 때문이라고 가정

 

 

ChatEval 시스템이 어떻게 인간과 유사한 행동을 보이는지:

  • 사례 소개:
    • 질문: “스트레스를 다루는 가장 효과적인 방법은 무엇인가요?”
    • 상황:
      • 두 개의 보조 AI(어시스턴트)가 이 질문에 대한 응답을 제공합니다.
      • 두 응답 모두 스트레스를 다루는 유사한 전략과 설득력 있는 설명을 제공합니다.
      • 품질 측면에서 큰 차이가 없어서 어느 응답이 더 우수한지 판단하기 어렵습니다.
    • 이러한 미묘한 평가 상황에서 ChatEval의 중요성이 부각됩니다
    • 단순한 점수나 단일 평가로는 구분하기 어려운 경우, 다중 에이전트 토론을 통한 깊이 있는 평가가 필요합니다.
  • 에이전트들의 인간 유사 행동:
    • ChatEval의 토론 과정에서 에이전트들이 보이는 인간과 유사한 행동은 평가 과정을 더욱 풍부하게 이해하는 데 도움을 줌:
    • (1) 시작 발언 (Opening Statement):
      • 에이전트 Alice가 토론을 시작
      • 명확한 입장을 제시하여 토론의 기초를 세웁
      • 이후 논의의 방향을 안내하고 토론의 흐름을 주도한다.
    • (2) 대안 제시 (Alternative Proposal)
      • 에이전트 Bob이 다른 관점을 제시
      • 다양한 해석의 필요성을 강조
      • 토론을 확장하고 비판적 사고를 촉진
    • (3) 입장 유지 (Stance Maintenance)
      • Alice는 반대 의견에도 불구하고 자신의 초기 입장을 계속 유지
      • 자신의 주장을 고수하는 헌신을 보여주고, 다른 참여자들에게 그들의 관점을 개선하도록 도전
      • 모든 참여자가 더 높은 수준의 참여와 비판적 사고에 이르게 함.
    • 4) 합의 도출 (Seeking Consensus)
      • 토론의 절정에서 참여자들은 공동의 합의에 도달
      • 상호 이해와 타협을 통해 이루어짐

+ Recent posts