(3) CS294/194-280 Advanced Large Language Model Agents

youngerjesus 2025. 8. 2. 14:56

2025. 8. 2. 14:56

AI Agent 가 유망한 기술임에는 틀림없고, 이를 위한 핵심 프레임워크는 다음과 같음

기반 역량 (가장 근본적)
- 인식 (Perception): 외부 환경으로부터 정보를 받아들이는 능력.
- 기억 (Memory): 정보를 저장하고 인출하는 능력.
- 구현 (Embodiment): 물리적 또는 가상 환경에서 행동을 수행하는 능력.
고차원 역량 (기반 역량 위에 구축됨)
- 추론 (Reasoning): 인식과 기억을 바탕으로 새로운 결론을 도출하는 능력.
- 월드 모델 (World Models): 환경의 상태와 변화를 모델링하는 능력.
- 계획 (Planning): 추론과 월드 모델을 바탕으로 목표 달성을 위한 행동 순서를 결정하는 능력.

각각의 이 분야들에서 현 시점에 문제는 뭔지 어떻게 발전해나가고 있는지 등을 이해해보자.

기억(HippoRAG 소개):

기존 Embedding 기반의 RAG 의 문제점: 파편적인 정보 검색이라서 종합된 내용을 검색하기 힘듬. (e.g 스탠포드에서 알츠하이머를 연구하는 교수는? → 알츠하이머 연구하는 교수, 스탠포드에서 연구하는 교수 두 가지 정보가 쪼개진 경우에 임베딩 RAG 는 이 질문에 답하기 힘듬. 물론 이 두 가지 정보 모두 쿼리와 연관되어 있으나 필요한 정보를 찾기 위해선 연관된 문서를 하나씩 조회해보면서 필요한 정보가 있는지 “검토” 하는 작업이 요구됨)
HippoRAG 의 강점: 지식 그래프 기반으로 정보를 연결해서 저장해있기 때문에, 질문이 들어오면 해당 질문과 연관된 노드들을 찾아줌. (종합된 정보를 검색하는 능력, 다중 홉 추론, Path Finding 등에 강하다). 부분 단서 만으로 완성된 기억을 찾아내는 기법이라고 함. 여러 QA 데이터 셋에서도 뛰어난 성능을 보였다고 함.
HippoRAG 의 단점: 일화에 대한 기억(eposodic memory), 시간적 공간적 기억에 대한 정보들 처리 능력은 부족함.
내가 생각하는 RAG 의 방향: 보편적으로 쓸 수 있는 RAG 하나만 구축하기 보다, 각 RAG 마다 강점이 있을 것이라고 생각함. 이런 RAG 들에 병렬적으로 요청해서 필요한 정보를 뽑아내서 종합할 수 있다면 그게 가장 유망하지 않을까?

인식과 구현(나는 행동으로 정의) 에 대해서 연구:

이 분야는 데이터를 입력하고, 행동을 결정하는 분야일텐데 정보를 넣어주고(데이터 엔지니어링) 행동이라는 출력은 추론과 많이 연결되어 있으므로 따로 소개하진 않은듯.

암묵적 추론에 대한 소개

암묵적 추론에 대한 정의: CoT 없이 기본으로 추론을 해낼 수 있는 능력. 이게 기본빵이라는 전제를 하고 있는것 같음. (이게 맞다.) 이런 추론 능력이 없다면 사상누각에 불과하기 때문임. 여기서 말하는 기본 추론은 A는 B 의 아들이다, A 는 직업이 C이다, B 아들의 직업은? 이라고 물으면 C라고 대답할 수 있는 기본 추론등을 말함)
여러 추론 능력 강화 기법이 있음. CoT, CoT 기반의 토큰 학습으로 인한 Thinking mode, RL 을 이용한 추론 능력 강화(e.g Alphaproof 등) 근데 이러한 능력은 사전학습에서 얻어진 기본 추론에다가 방향성을 명확히 더한 것이라는 가설을 말하고 있음. 그렇기 때문에 중요하다. 이 원리를 이해하는게 상한선을 파악하는데 도움을 줄 수 있고.
Grokking 등장: 모델이 학습을 하게되면 암기하다가(일반화 능력은 떨어져서 out-of distribution 에는 성능이 안나옴) 계속 학습을 시키면 어느 순간부터 일반화 능력이 향상되는 사례가 있다고 함.

월드 모델과 계획

계획이 중요함에 대해서 말하는 건 불필요하다. 당연하기 때문. (우리 모두 게획없이 한번에 결과를 달성할 수 있을 정도로 뇌 용량을 가지지 않았기 때문, 그래서 계획을 분해하고 쪼개서 서브 테스크 하나씩 해결한다, 어찌보면 핸들링할 수 있는 테스크 난이도에 따라서 계획이 중요하다고 생각함. 쉬운 작업의 테스크 같은 경우는 쪼갤 필요가 없음. 바로하면됨. 훨씬 수준이 높은 목표를 달성해내기 위해서, 이 과정에서 실수하지 않도록 하기 위해서 계획을 세우는 것이긴 함)
기존 계획 방법 한계(ReAct, Tree Search): ReAct 는 근시안적이며, 함정에 빠졌을 경우 헤어나오기 힘듬, 어느 시점부터 자신이 해왔던 기록들을 잃어버릴 수 있음, Tree Search 는 Backtracking 같은 매커니즘에 의존하는데 현실 세상의 문제는 Irreversible 한 특징이 있음.
Model-based Planning 을 제안: 시뮬레이션 기반으로 계획을 세우고 가장 가치가 높아보이는 가장 현실성 있는 계획을 선택하는 것. LLM 이 시뮬레이션 할 수 있는 능력이 있긴함, 이게 분명 최적의 선택이 아닐수도 있다는 단점도 있음. 하지만 실행속도, 결과의 완성도 측면에서 두가지 변수를 어느정도 고려한 것이기도 함. Model based planning 에 몬테카를로 검색 방법의 아이디어가 합쳐진다면 완벽할 것 같음.

저작자표시 비영리 (새창열림)

'Generative AI > Agent' 카테고리의 다른 글

(1) CS294/194-280 Advanced Large Language Model Agents (0)	2025.08.03
(4) CS294/194-280 Advanced Large Language Model Agents (0)	2025.08.02
(2) CS294/194-280 Advanced Large Language Model Agents (0)	2025.08.02
TapeAgents: a Holistic Framework for Agent Development and Optimization (0)	2025.01.03
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering (0)	2025.01.01

여정민의 블로그

(3) CS294/194-280 Advanced Large Language Model Agents

기억(HippoRAG 소개):

인식과 구현(나는 행동으로 정의) 에 대해서 연구:

암묵적 추론에 대한 소개

월드 모델과 계획

'Generative AI > Agent' 카테고리의 다른 글

+ Recent posts

티스토리툴바