Abstract:
- ‘Content-grounded generation’(콘텐츠 기반 생성) 작업, 예컨대 긴 답변 생성(Long-Form Question-Answering, LFQA), 요약(summarization), 정보 추출(information extraction) 등에서는 대규모·고품질의 학습 데이터가 중요하다고 함.
- 그러나 실제 사람이 작성한 고품질 데이터셋을 대규모로 확보하기는 쉽지 않으며, 제한된 데이터로 인해 모델이 성능을 발휘하기 어렵다는 문제가 있음.
- 저자들은 고품질 콘텐츠 기반 데이터셋을 자동으로 생성하기 위한 기법인 Genie 를 제안함:
- Content Preparation: 우선 데이터의 ‘소스’가 될 수 있는 텍스트 혹은 지식(콘텐츠)을 준비
- Generation: 준비된 콘텐츠로부터 과업(예: 질문-답변 생성, 요약, 정보 추출 등)에 맞는 학습 예제를 생성
- Filtering: 생성된 데이터의 품질(문장이 자연스러운지, 사실적·충실한지 등)을 보장하기 위해 필터링 과정을 거침.
- 여기서 말하는 Content 는 지식과 같은 텍스트를 말함. 이를 이용해서 요약, 질문-답변 등을 할거임.
- Content-grounded Generation이란, 모델이 답변·요약·추론 등의 텍스트를 어떤 주어진 콘텐츠(정보)에 기반해 생성해야 하는 과업들을 말함.
Introduction:
- Content-grounded Generation 을 아직은 LLM 이 수행하기에 부족하다고 함.
- 이런 능력을 향상 시키기 위해서는 고품질의 데이터를 확보해서 파인튜닝을 해야하는데 인간의 데이터를 수집하기에는 어려운 부분이 있음. 비용적으로.
- 예로 장문(長文) 기반 답변(예: long-form QA)처럼, 길고 복잡한 콘텐츠를 바탕으로 정교한 응답을 생성하는 데이터셋을 만들려면, 사람이 하나하나 작성·검수해야 하기에 비용이 많이 듬.
- 특히, 긴 텍스트를 읽고 정확한 답을 하거나 특정 도메인 요약을 해내야 하는 등 고품질·대규모의 콘텐츠 기반 데이터셋은 아직도 매우 부족하다고 함.
- Genie 는 3단계로 구성됨:
- Content Preparation:
- 데이터를 먼저 모으고(수집) 정제(clean)
- Generating:
- 대형 언어 모델(LLM)을 Few-shot Prompting으로 활용해, (1)에서 준비한 콘텐츠를 기반으로 “질문-답변 쌍” 혹은 요약문 등 실제 학습에 활용할 예시들을 생성
- Filtering:
- 자동 생성된 텍스트들이 충실성(Faithfulness), 문장 구조(Well-formedness), 전반적 품질 등의 기준에 부합하는지 확인하는 단계를 거쳐서 저품질, 부정확한 데이터를 걸러냄.
- Content Preparation:
Genie - Implementation details:
- Content Preparation:
- ^이 단계에서 모델이 참고할 콘텐츠(근거 텍스트)를 확보하는 단계로, 원본(raw) 문서에서 필요한 지식을 추출해 문단(패시지) 형태로 정리하는 단계:
- 노이즈가 많이 낀 데이터는 사용하기가 힘드니까,
- 실제로 LLM 이 작업을 첯리할 때도 노이즈가 낀 문서보다는 구조화 해둔 데이터 기반으로 답변하는게 더 나을거임.
- 다만, 원본 데이터의 형식이 각각 다를 수 있으므로, 실제 구현에서는 데이터를 어떤 규칙( rule-based )으로 분할·가공하느냐가 중요할 것이라고 함.
- 예시:
- 이미 줄 단위로 깔끔히 정리된 텍스트이거나, 표(table) 형태로 되어 있거나, 다른 데이터셋에서 쉽게 뽑아올 수 있다면 별도의 복잡한 처리를 하지 않고 바로 사용 가능.
- 그러나 일반적인 웹 페이지나 위키 문서를 사용할 때는, HTML 구조에서 노이즈를 제거하고, 중요한 본문만 추출한 뒤 문서 구조를 적절히 보존하는 식으로 가공.
- 여 글에서는 데이터를 가공해서 Markdown 형식으로 최종적으로 변환했다고 함:
- 문서 구조를 최대한 살려서(예: 리스트, 표, 링크, 이미지 참조, 문단, 섹션 구조 등) 보존
- ^이 단계에서 모델이 참고할 콘텐츠(근거 텍스트)를 확보하는 단계로, 원본(raw) 문서에서 필요한 지식을 추출해 문단(패시지) 형태로 정리하는 단계:
- Generation:
- 인컨텍스트 학습(in-context learning) 방식으로 4개의 예시를 줘서 새로운 데이터를 생성하는 식으로 사용함.
- 논문에서는 두 가지 모델을 사용하여 각각 두 가지 버전의 생성 데이터를 만들었다고 함:
- 서로 다른 규모, 사전학습 방식, 튜닝 상황을 가진 모델을 활용해도 비슷한 성능 경향을 얻어낼 수 있음을 확인하여, 기법의 일반화 가능성을 입증하고자
- FILTERING:
- Generation 단계에서 만들어진 “(콘텐츠, 예시)” 쌍(질문·답변, 요약문 등)에 대해, 다음 기준 척도(Criteria) 에 따라서 판단:
- 형식(Format)
- 충실성(Faithfulness)
- 품질(Quality)
- 좀 더 디테일하게:
- Format:
- 형식 요소 누락 여부: 예컨대 QA 예시에서, [question]과 [answer] 접두(prefix)가 제대로 달렸는지, Summarization에서 [document], [summarize], [summary] 등이 빠지지 않았는지 확인.
- 길이 기준:
- 너무 짧은 예시(10단어 미만)는 제외.
- 너무 긴 예시( LFQA의 경우: 본문 길이의 1.5배 초과, 요약의 경우: 본문 길이의 0.25배 초과 )도 제외
- Faithfulness (충실성):
- 충실성(groundedness): 생성된 내용이 실제 근거 텍스트와 일치하며, 거짓·과장·왜곡이 없는지를 의미.
- 자연어 추론(NLI, Natural Language Inference) 모델 활용:
- Premise: 주어진 콘텐츠(본문), Hypothesis: 모델이 생성한 예시(답변, 요약문 등) 이때 “Hypothesis가 Premise로부터 타당하게 추론되는가?”를 평가함.
- Quality (품질):
- 단순한 사실 충실도 이외에도, 실제 사람이 자연스럽고 유용하다고 여길 만한 답변·요약인지 평가하는 요소임.
- 이것도 모델을 활용. 다만 여기서 사용하는 Reward Model은 사람이 선호하는 텍스트(답변, 요약 등)에 대해서 더 높은 점수를 주도록 미리 학습된 모델임.
- 전형적으로 Reinforcement Learning from Human Feedback(RLHF) 과정에서 사용되는 기법이기도 함.
- 구체적으로는 reward-model-deberta-v3-large-v2 (DeBERTa-v3 아키텍처 기반) 을 사용함.
- Format:
- Generation 단계에서 만들어진 “(콘텐츠, 예시)” 쌍(질문·답변, 요약문 등)에 대해, 다음 기준 척도(Criteria) 에 따라서 판단:
사용하는 평가 방법(Evaluation Metrics):
- K-Precision을 평가 메트릭 중 하나로 소개. 이건 답변이 할루시네이션 없이 정확하게 텍스트 내용가지고 답변했는지 평가하는 척도임.
- 나머지 두 개는 ROUGE, BERT-Score 임. BERT-Score 는 의미적 유사도를 평가하는 것.