GENIE: Achieving Human Parity In Content-Grounded Datasets Generation

youngerjesus 2025. 1. 19. 19:23

2025. 1. 19. 19:23

https://arxiv.org/pdf/2401.14367

Abstract:

‘Content-grounded generation’(콘텐츠 기반 생성) 작업, 예컨대 긴 답변 생성(Long-Form Question-Answering, LFQA), 요약(summarization), 정보 추출(information extraction) 등에서는 대규모·고품질의 학습 데이터가 중요하다고 함.
그러나 실제 사람이 작성한 고품질 데이터셋을 대규모로 확보하기는 쉽지 않으며, 제한된 데이터로 인해 모델이 성능을 발휘하기 어렵다는 문제가 있음.
저자들은 고품질 콘텐츠 기반 데이터셋을 자동으로 생성하기 위한 기법인 Genie 를 제안함:
- Content Preparation: 우선 데이터의 ‘소스’가 될 수 있는 텍스트 혹은 지식(콘텐츠)을 준비
- Generation: 준비된 콘텐츠로부터 과업(예: 질문-답변 생성, 요약, 정보 추출 등)에 맞는 학습 예제를 생성
- Filtering: 생성된 데이터의 품질(문장이 자연스러운지, 사실적·충실한지 등)을 보장하기 위해 필터링 과정을 거침.
여기서 말하는 Content 는 지식과 같은 텍스트를 말함. 이를 이용해서 요약, 질문-답변 등을 할거임.
Content-grounded Generation이란, 모델이 답변·요약·추론 등의 텍스트를 어떤 주어진 콘텐츠(정보)에 기반해 생성해야 하는 과업들을 말함.

Introduction:

Content-grounded Generation 을 아직은 LLM 이 수행하기에 부족하다고 함.
이런 능력을 향상 시키기 위해서는 고품질의 데이터를 확보해서 파인튜닝을 해야하는데 인간의 데이터를 수집하기에는 어려운 부분이 있음. 비용적으로.
예로 장문(長文) 기반 답변(예: long-form QA)처럼, 길고 복잡한 콘텐츠를 바탕으로 정교한 응답을 생성하는 데이터셋을 만들려면, 사람이 하나하나 작성·검수해야 하기에 비용이 많이 듬.
특히, 긴 텍스트를 읽고 정확한 답을 하거나 특정 도메인 요약을 해내야 하는 등 고품질·대규모의 콘텐츠 기반 데이터셋은 아직도 매우 부족하다고 함.
Genie 는 3단계로 구성됨:
- Content Preparation:
  - 데이터를 먼저 모으고(수집) 정제(clean)
- Generating:
  - 대형 언어 모델(LLM)을 Few-shot Prompting으로 활용해, (1)에서 준비한 콘텐츠를 기반으로 “질문-답변 쌍” 혹은 요약문 등 실제 학습에 활용할 예시들을 생성
- Filtering:
  - 자동 생성된 텍스트들이 충실성(Faithfulness), 문장 구조(Well-formedness), 전반적 품질 등의 기준에 부합하는지 확인하는 단계를 거쳐서 저품질, 부정확한 데이터를 걸러냄.

Genie - Implementation details:

Content Preparation:
- ^이 단계에서 모델이 참고할 콘텐츠(근거 텍스트)를 확보하는 단계로, 원본(raw) 문서에서 필요한 지식을 추출해 문단(패시지) 형태로 정리하는 단계:
  - 노이즈가 많이 낀 데이터는 사용하기가 힘드니까,
  - 실제로 LLM 이 작업을 첯리할 때도 노이즈가 낀 문서보다는 구조화 해둔 데이터 기반으로 답변하는게 더 나을거임.
- 다만, 원본 데이터의 형식이 각각 다를 수 있으므로, 실제 구현에서는 데이터를 어떤 규칙( rule-based )으로 분할·가공하느냐가 중요할 것이라고 함.
- 예시:
  - 이미 줄 단위로 깔끔히 정리된 텍스트이거나, 표(table) 형태로 되어 있거나, 다른 데이터셋에서 쉽게 뽑아올 수 있다면 별도의 복잡한 처리를 하지 않고 바로 사용 가능.
  - 그러나 일반적인 웹 페이지나 위키 문서를 사용할 때는, HTML 구조에서 노이즈를 제거하고, 중요한 본문만 추출한 뒤 문서 구조를 적절히 보존하는 식으로 가공.
- 여 글에서는 데이터를 가공해서 Markdown 형식으로 최종적으로 변환했다고 함:
  - 문서 구조를 최대한 살려서(예: 리스트, 표, 링크, 이미지 참조, 문단, 섹션 구조 등) 보존
Generation:
- 인컨텍스트 학습(in-context learning) 방식으로 4개의 예시를 줘서 새로운 데이터를 생성하는 식으로 사용함.
- 논문에서는 두 가지 모델을 사용하여 각각 두 가지 버전의 생성 데이터를 만들었다고 함:
  - 서로 다른 규모, 사전학습 방식, 튜닝 상황을 가진 모델을 활용해도 비슷한 성능 경향을 얻어낼 수 있음을 확인하여, 기법의 일반화 가능성을 입증하고자
FILTERING:
- Generation 단계에서 만들어진 “(콘텐츠, 예시)” 쌍(질문·답변, 요약문 등)에 대해, 다음 기준 척도(Criteria) 에 따라서 판단:
  - 형식(Format)
  - 충실성(Faithfulness)
  - 품질(Quality)
- 좀 더 디테일하게:
  - Format:
    - 형식 요소 누락 여부: 예컨대 QA 예시에서, [question]과 [answer] 접두(prefix)가 제대로 달렸는지, Summarization에서 [document], [summarize], [summary] 등이 빠지지 않았는지 확인.
    - 길이 기준:
      - 너무 짧은 예시(10단어 미만)는 제외.
      - 너무 긴 예시( LFQA의 경우: 본문 길이의 1.5배 초과, 요약의 경우: 본문 길이의 0.25배 초과 )도 제외
  - Faithfulness (충실성):
    - 충실성(groundedness): 생성된 내용이 실제 근거 텍스트와 일치하며, 거짓·과장·왜곡이 없는지를 의미.
    - 자연어 추론(NLI, Natural Language Inference) 모델 활용:
      - Premise: 주어진 콘텐츠(본문), Hypothesis: 모델이 생성한 예시(답변, 요약문 등) 이때 “Hypothesis가 Premise로부터 타당하게 추론되는가?”를 평가함.
  - Quality (품질):
    - 단순한 사실 충실도 이외에도, 실제 사람이 자연스럽고 유용하다고 여길 만한 답변·요약인지 평가하는 요소임.
    - 이것도 모델을 활용. 다만 여기서 사용하는 Reward Model은 사람이 선호하는 텍스트(답변, 요약 등)에 대해서 더 높은 점수를 주도록 미리 학습된 모델임.
    - 전형적으로 Reinforcement Learning from Human Feedback(RLHF) 과정에서 사용되는 기법이기도 함.
    - 구체적으로는 reward-model-deberta-v3-large-v2 (DeBERTa-v3 아키텍처 기반) 을 사용함.

사용하는 평가 방법(Evaluation Metrics):

K-Precision을 평가 메트릭 중 하나로 소개. 이건 답변이 할루시네이션 없이 정확하게 텍스트 내용가지고 답변했는지 평가하는 척도임.
나머지 두 개는 ROUGE, BERT-Score 임. BERT-Score 는 의미적 유사도를 평가하는 것.

저작자표시 비영리

'Generative AI > Data' 카테고리의 다른 글

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions (0)	2025.01.20
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations (0)	2025.01.20
A Survey on Data Synthesis and Augmentation for Large Language Models (0)	2025.01.18
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? (0)	2025.01.17
Data-centric Artificial Intelligence: A Survey (0)	2024.11.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여정민의 블로그

GENIE: Achieving Human Parity In Content-Grounded Datasets Generation

'Generative AI > Data' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역