https://arxiv.org/abs/2207.01206


Abstract:

  • 기존의 언어 접지(grounding) 벤치마크들은 현실 세계의 복잡한 언어 요소가 부족하거나, 데이터·피드백 수집에 많은 인적 자원이 필요해 확장성에 문제가 있음. 이를 해결하기 위해 실제 이커머스 웹 환경을 시뮬레이션한 WebShop을 제안함. (그러니까, 언어 모델이 외부 상황과 상호작용 할 수 있는 벤치마크를 제안)

  • 환경 소개

    • WebShop은 약 118만 개의 실제 제품 정보와 12,087개의 크라우드소싱 텍스트 지시사항으로 구성된 이커머스 웹사이트 환경임. 에이전트는 주어진 텍스트 지시사항(“이런 제품을 사 달라”)을 이해하고, 여러 종류의 웹페이지를 탐색하며 다양한 액션을 통해 제품을 찾고 구매하는 과정을 수행함.
  • 데이터 수집

    • 과제 수행을 위해 1600건 이상의 사람 시연 데이터를 모았고, 강화학습(RL), 모방학습(IL), 사전학습된 이미지·언어 모델 등을 이용해 다양한 에이전트를 학습 및 평가함.
  • 모델 성능

    • 최적 모델은 29%의 성공률 달성
    • 규칙 기반 휴리스틱은 9.6%의 성공률
    • 인간 전문가의 경우 59%
    • 에이전트 성능은 규칙 기반을 크게 상회하지만, 인간 전문가보다는 여전히 낮음.
  • 이런 벤치마크의 등잗으로 더 나은 LLM Agent 를 제안할 수 있을 것.

+ Recent posts