https://arxiv.org/pdf/2311.12793


Abstract:

  • 이 논문은 대규모 멀티모달 모델(Large Multi-Modal Models, 이하 LMMs)을 개선하기 위해, 더 나은 이미지-텍스트 데이터셋(캡션)을 제안하는 연구임.
  • LMMs가 이미지와 텍스트라는 서로 다른 모달리티를 정합(alignment)하기 위해서는 많은 양의 고품질 데이터가 필요한데, 일반적으로 이 고품질 데이터가 부족한 것이 문제라고함.
  • 이 연구에서는 ShareGPT4V라는 새로운 대규모 캡션 데이터셋을 구축하고, 이를 활용하여 LMMs 성능을 크게 향상시켰다고 주장함.
  • ShareGPT4V 데이터셋의 특징:
    • 1.2백만(120만) 개에 달하는 “매우 상세(descriptive)”한 캡션으로 구성되어 있음.
    • 기존 데이터셋보다 훨씬 다양한 주제와 풍부한 묘사를 포함
    • 다양성과 정보량이 뛰어나다고 함:
      • 세계에 대한 지식(일반 상식, 지리, 역사, 문화 등),
      • 물체의 세부 특징(색, 질감 등),
      • 물체 간의 공간적 관계(어디에 위치해 있는지, 상호 관계는 어떠한지),
      • 미적 평가(“아름답다”, “독특한 분위기” 등)를 모두 커버
  • 이 데이터의 생성 과정은 다음과 같음:
    • GPT-4V 를 이용해서 고품질 캡션 10만(100K) 를 직접 수집함:
      • GPT4-Vision을 사용하여 데이터 소스별로 맞춤화된 프롬프트로 캡션을 생성했다고 함.
      • 프롬프트는 대체로 “꼼꼼히 작성하도록 하는” 명령이 있었다고 하는듯.
      • 데이터 소스는 다양한 곳에서 구했다고. (예: COCO, LAION, SAM 등)
    • 그런 뒤, 이 10만 개의 캡션을 학습데이터로 삼아 특별히 고도화된(훈련된) 모델을 이용해 캡션을 확장함. 최종적으로 120만 개 수준의 데이터셋을 만든다고 함.
    • ^그러니까, 10만개의 데이터로 1차 학습 후, 훈련된 모델을 통해서 120만개의 데이터를 만든다는거임? ㅇㅇ
  • 이 데이터셋을 Pre-training 또는 SFT 에서 활용했더니 성능 향상에 도움을 많이 줬다고 함.

 

Introduction:

  • 기존 이미지 캡션 데이터 (LMM 을 학습시키는데 사용되는)는 너무 짧은 설명을 포함하고 있다는 문제가 있었다고 함. 그래서 이걸 ShareGPT4V 데이터 셋을 이용해서 해결하려고 하고:
    • 시각 정보는 본질적으로 많은 세부 정보와 풍부한 의미(semantic)를 담고 있는데, 기존의 이미지-텍스트 데이터셋들은 짧고 핵심적인 요소(“자동차가 있다”, “사람이 서 있다”) 위주로만 캡션을 작성한 경우가 많다라고 함.
    • 이렇게 간결한 캡션들은 비전(영상)과 언어(텍스트)의 정합을 깊이 있게 학습하기에 충분치 않으며, 결과적으로 LMM이 시각 정보를 제대로 활용하거나 이해하지 못하는 상황이 발생한다고 함.
  • 기존에 SFT 단계에서 사용하던 이미지-텍스트 쌍 일부를 고도화된 GPT4-Vision이 생성한 캡션으로 대체해서 활용했더니 일관된 성능 개선을 이용했다고 함.
  • 결국 고성능 모델을 이용해서 합성된 데이터를 이용해서 파인튜닝 했고, 이런 파인튜닝이 생성한 데이터 셋은 퀄리티가 높다. 이런 연구임.

 

ShareGPT4V Implementation Details:

  • 1단계: GPT4-Vision 을 통한 초기 캡션 생성:
    • 이미지 수집: 다양한 데이터 소스로부터 약 10만 개의 이미지를 수집하였고, 다양한 주제와 장면을 포함했다고 함.
      • 여기서는 초기 시드의 다양성 데이터를 위해서 인터넷, 공개 데이터 셋에 있는 정보를 활용했다고 함.
      • 중요한 건 시드 데이터도 분류해서 다양성을 유지헀다는 것. (이미지의 다양성만 하더라도, 객체 탐지 이미지, 세그멘테이션 이미지, 복잡한 텍스트를 포함한 이미지 등)
    • 프롬프트 설계: GPT4-Vision의 능력을 최대한 활용하기 위해 신중하게 설계된 데이터 특화 프롬프트를 사용했다고 한다. 주로 이미지의 세부 정보를 상세하게 묘사하도록 설계되었다고.
    • 캡션 생성: GPT4-Vision을 활용하여 각 이미지에 대한 고품질의 상세한 캡션을 생성했다고 함. 보통 942자 정도.
  • 2단계: 캡션 모델을 통한 대규모 캡션 확장
    • 이 단계에서 생성된 10만 개의 고품질 캡션을 사용하여 캡션 모델을 훈련.
    • 이 모델은 GPT4-Vision의 캡션 품질을 학습하여, 프롬프트 없이도 상세한 캡션을 생성할 수 있다고 함.
    • 총 120만개의 고품질 캡션을 확보했다고 한다.
  • 이렇게 만들어진 캡션은 세계 지식, 객체의 속성, 공간적 관계, 미학적 평가 등을 포함하여 이미지의 복잡한 정보를 자세히 묘사한다고.
  • 여기서는 품질 검증을 위해서 이 데이터를 가지고 다른 모델을 학습 시켜보고, 그 모델의 성능을 가지고 평가를 해봤다고 함.

 

 

이미지 묘사 특화 프롬프트와 기본 프롬프트에 대해서 보자

기본 프롬프트:

"only describing the content one can determine confidently from the image"

"Do not describe the contents by itemizing them in list form"

"Minimize aesthetic descriptions as much as possible"
  • 이미지에서 확실히 관찰할 수 있는 내용만을 묘사
  • 리스트 형태의 나열식 설명을 피하고 자연스러운 서술형 설명 유도
  • 주관적인 미적 평가를 최소화하고 객관적 설명에 중점

 

데이터 소스별 특화 프롬프트:

  • COCO, LCS, SAM용 프롬프트:
    • 상세한 물리적 특성 묘사 강조
    • 주요 요구사항:
      • 객체 유형과 색상
      • 객체 수량
      • 객체 동작
      • 정확한 위치 정보
      • 객체간 상대적 위치관계
  • Web-Celebrity용 프롬프트:
    • 인물 중심의 묘사
    • 주요 요구사항:
      • 인물의 행동
      • 표정
      • 정확한 위치 정보
      • 인물/캐릭터 이름

+ Recent posts