AgentCPM 리포트 초안 심화 교차로 딥리서치 뽑기

고정 아웃라인으로 시작하는 plan-then-write는 처음 계획이 빈약하면 끝까지 통찰이 얕아지기 쉽습니다. AgentCPM-Report는 글쓰기를 추론으로 보고 초안을 근거로 계속 보강하는 WARP를 제안합니다. 다만 평가·로컬 서사·종료 라벨링은 꼼꼼한 검증이 필요합니다.

WARP가 만드는 ‘통찰 천장’ 돌파 구조

이 논문이 “뭘 한다”를 한 문장으로 줄이면, 글쓰기를 결과물이 아니라 추론 과정으로 재정의하고 그 과정을 정책(policy)으로 학습시키는 시도입니다. 저자들은 기존 plan-then-write가 “초기 아웃라인 품질에 과도 의존”하여 보고서는 구조적으로 그럴듯해도 새 연결이나 깊은 통찰이 잘 나오지 않는 ‘insight ceiling’에 부딪힌다고 주장합니다. 그리고 그 대안으로 WARP(Writing As Reasoning Policy)를 제안하며, 핵심 루프를 Evidence-Based Drafting(근거 기반 작성)과 Reasoning-Driven Deepening(추론 기반 심화) 두 상태의 교대 구조로 설명합니다. 이때 중요한 차이는 “아웃라인을 고정하지 않는다”는 점입니다. 초안을 쓰다가 논리적 공백이나 얕은 부분이 드러나면 EXPAND로 outline을 갱신하고, 다시 SEARCH/WRITE로 근거를 채우는 방식입니다. 이는 논문이 인용하는 인간의 ‘knowledge-transforming’ 글쓰기 흐름과도 맞닿아 있으며, 단순히 단계 이름만 바꾼 것이 아니라 “초안 자체를 다음 추론의 관측치로 쓰는” 설계를 갖습니다.

논문은 이 전체 흐름을 행동(action) 공간으로 명시합니다. 상태는 (Q, O, D, C) 즉 사용자 질의 Q, 동적 outline O, 현재 draft D, 그리고 현재 루프에서 검색된 컨텍스트 C로 구성되고, 에이전트는 {INITIALIZE, SEARCH, WRITE, EXPAND, TERMINATE} 중 하나를 선택하는 순차 의사결정 문제로 정식화합니다. 특히 INITIALIZE는 처음부터 상세 목차를 “완성”하려 하지 않고, 의도적으로 sparse한 Level-1 outline(섹션 제목과 간단한 writing intent)만 만든다고 밝힙니다. 이는 작은 모델이 처음부터 지나치게 구체화하다가 근거 없는 구조를 만들어버리는 위험을 낮추려는 설계로 읽힙니다.

여기서 사용자의 장점 평가가 정확히 먹히는 이유는, WARP가 인간 집필의 실제 감각을 모델 설계로 옮겼기 때문입니다. 현실의 리서치 글쓰기는 “아웃라인을 완성해두고 쓰는” 경우보다 “쓰면서 부족함을 발견해 다시 조사하고, 그에 맞춰 목차가 바뀌는” 경우가 더 흔합니다. WARP는 바로 그 ‘되돌아감’을 시스템 수준에서 정당한 행동으로 만들고, EXPAND가 단순 옵션이 아니라 품질을 올리는 핵심 동작이 되도록 학습 파이프라인을 설계합니다. 논문이 SFT→Atomic RL→Pipeline RL로 갈수록 Expand 사용 빈도가 늘고(예: DeepResearch Bench에서 Expand 평균이 SFT 4.44 → Atomic RL 8.88 → Pipeline RL 8.63), Level-3 섹션 수가 크게 증가한다는 분석은 “심화 행동이 실제로 구조를 촘촘하게 만든다”는 주장을 뒷받침합니다.

다만 여기서 한 번 더 냉정하게 봐야 하는 지점은, “심화=통찰”이 자동으로 성립하느냐입니다. 심화는 분량과 하위 항목을 늘리는 데 매우 유리하지만, 통찰은 분량이 아니라 ‘새 연결의 타당성’과 ‘근거로 검증 가능한 주장’에 달려 있습니다. WARP가 의미 있는 이유는 심화 자체가 아니라, Evidence 기반 작성과 Reasoning 기반 심화를 번갈아 붙여 “심화가 근거와 결합되도록” 설계했다는 점입니다. 즉, Expand가 늘어도 Search/Write가 함께 따라붙지 않으면 ‘그럴듯한 목차만 긴 보고서’가 되기 쉽고, 반대로 Search/Write만 늘어나면 ‘정보 나열’이 되기 쉽습니다. WARP는 이 둘을 교대로 묶어 통찰이 나오기 쉬운 작업 순서를 만든 것이 핵심입니다.

WARP 구성요소	독자에게 유리한 이유
Evidence-Based Drafting(SEARCH→WRITE)	근거 밀도가 올라가며 ‘요약형 글’로 붕괴할 확률이 줄어듭니다
Reasoning-Driven Deepening(EXPAND/TERMINATE)	초안을 보고 논리 공백을 찾아 목차를 갱신하므로 ‘초기 아웃라인 의존’이 낮아집니다
동적 outline(고정 계획 금지)	통찰이 뒤늦게 떠오르는 상황을 시스템이 흡수할 수 있습니다

LLM-as-Judge 의존이 만드는 ‘통찰 착시’ 리스크

사용자 비평에서 가장 날카로운 부분은 “통찰(Insight) 개선 측정이 LLM-as-Judge 편향에 크게 의존한다”는 점입니다. 논문은 벤치별 평가 모델을 명시합니다. DeepResearch Bench는 Gemini-2.5-Pro, DeepConsult는 o3-mini, DeepResearch Gym은 GPT-4.1-mini를 judge로 사용했다고 밝힙니다. 그리고 Atomic Skill RL에서도 ‘holistic quality’, ‘faithfulness’ 같은 항목을 LLM judge로 점수화해 보상에 반영합니다. Table 1에서 planning/writing의 Holistic Quality와 Faithfulness가 LLM judge를 사용하는 것으로 표시되어 있고, 파이프라인 RL에서는 보고서 레벨의 comprehensiveness/insight/instruction-following/readability를 다시 judge로 평가해 학습을 밀어줍니다.

문제는 이 구조가 “좋은 글”을 학습한다기보다 “judge가 좋아하는 글”을 학습할 위험을 키운다는 점입니다. 특히 Insight는 정의가 모호하고, 평가자가 장문·구조화·전문용어·다층 목차를 통찰로 오인할 수 있습니다. WARP는 구조를 잘 만들고 Expand로 세부 항목을 촘촘히 만드는 데 강점이 있으니, 같은 사실을 더 길고 더 정돈되게 서술해도 Insight 점수가 오르는 편향이 생길 수 있습니다. 논문이 Forced Expansion 실험에서 deepening step을 강제로 늘리면 Comprehensiveness와 Insight가 함께 오르다가 약 9 step 근처에서 plateau가 온다고 보고하는데, 이것이 “정보 포화”일 수도 있지만 “평가기가 더 이상 차이를 구분 못하는 포화”일 가능성도 있습니다. 즉, plateau를 근거로 “최적 심화 깊이가 9 근처”라고 단정하면 위험합니다. plateau는 정보적 한계가 아니라 측정기의 한계일 수도 있기 때문입니다.

그렇다고 LLM-as-Judge를 버리자는 이야기는 아닙니다. 오히려 이 논문이 하려는 ‘프로세스 디자인’ 연구는 자동 평가가 없으면 반복 실험이 어렵습니다. 다만 다음 3가지 보완이 들어가면, 통찰 개선 주장이 훨씬 단단해집니다.

첫째, 소규모라도 사람 평가 교차검증이 필요합니다. 전체 100개 과제 중 10개만 추려도 좋습니다. “통찰”이란 말이 사람에게도 납득되는지 확인하는 최소한의 안전장치입니다.
둘째, 주장-근거 정합성(예: claim-level entailment, 인용 근거로부터의 지지 여부) 같은 자동 검증 지표를 함께 제시해야 합니다. 논문은 faithfulness를 LLM judge로 벌점화한다고는 하지만, 통찰이 높아질수록 ‘그럴듯한 연결 만들기’가 늘 수 있어 기계적 정합 지표가 같이 있어야 합니다.
셋째, 길이/인용수 통제 ablation이 필요합니다. WARP는 search/write 루프가 강하니 인용 밀도가 자연히 증가할 수 있고, judge가 이를 품질로 높게 줄 수 있습니다. 같은 길이, 같은 인용수로 맞춘 뒤에도 Insight가 유지되는지 보여주면 “통찰=분량/인용 착시” 반론이 약해집니다.

논문 성과 자체도 요약해두면 좋습니다. DeepResearch Bench에서 AgentCPM-Report(Pipeline RL)가 Insight 52.64, Comprehensiveness 50.54를 기록하고, Gemini-2.5-Pro-deepresearch의 Insight 49.45, Comprehensiveness 49.51을 넘었다고 보고합니다. 또한 plan-then-write와 WARP를 같은 대형 모델(Qwen3-235B-A22B)로 프롬프트 기반 비교했을 때도 WARP가 Insight에서 +1.19 개선을 보였다고 Table 3에 제시합니다. 다만 이 수치가 “진짜 통찰”인지 “평가 루브릭의 선호”인지 가르는 추가 증거가 약하다는 것이 사용자 비평의 핵심이며, 저는 이 비판이 정당하다고 봅니다.

로컬KB 서사와 종료(pruning) 편향을 함께 점검해야 합니다

논문은 “fully local, on-device deep research”를 중요한 메시지로 내세웁니다. 온라인 대형 모델 의존을 줄이면 배포 장벽과 개인정보/보안 리스크가 낮아진다는 주장 자체는 설득력이 있습니다. 그러나 사용자의 비평처럼, 실제 시스템 구성은 “완전 로컬”이라고 부르기엔 현실 부담이 큽니다. 논문 부록에서 로컬 DB가 약 286만 문서로 구성된다고 밝힙니다. 그중 약 271만은 arXiv 논문 초록(abstract)이고, 나머지 15만은 웹페이지 문서인데, 이 웹페이지는 Gemini 2.0-Flash로 요약해 문서 길이와 품질을 통제했다고 적혀 있습니다. 또한 임베딩 모델(MiniCPM-Embedding-Light)로 벡터화하고 FAISS로 인덱싱한 뒤 UltraRAG로 파이프라인을 구현했다고 설명합니다.

이 구성이 의미하는 바는 명확합니다. “클라우드 LLM 호출 없이도” 로컬 검색·작성 파이프라인을 유지할 수 있다는 장점은 있지만, 사용자 관점에서 “로컬=간편”은 아닙니다. 저장공간, 인덱싱 시간, 지속 업데이트, 최신성 관리, 도메인 커버리지 문제가 남습니다. 더구나 웹 요약 생성 단계에서 이미 Gemini를 사용했다면, ‘프라이버시 서사’는 훈련/데이터 준비 단계에서 부분적으로 약해집니다. 물론 제품 형태로 배포할 때는 웹 요약 없이도 돌아가게 만들 수 있고, 학습용 데이터 구축과 사용자 실행 환경은 분리될 수 있습니다. 하지만 논문이 “fully local”을 강하게 말할수록 독자는 실행 환경까지 완전 로컬로 상상하기 쉬우니, 메시지의 스코프를 더 명확히 하는 편이 오해를 줄입니다.

다음으로 trajectory pruning입니다. 이 논문이 “종료 결정이 어렵다”는 현실을 회피하지 않고 정면으로 다룬 것은 큰 강점입니다. 교사 모델이 expand를 끝없이 하거나 임의로 종료하는 최적 중단 문제를 해결하기 위해, 교사를 강제로 과확장(over-expand)시키고, 각 중간 draft를 체크리스트 기반 점수로 평가한 뒤 최고 점수 시점에서 자르고 그 지점을 TERMINATE로 재라벨링합니다. 그리고 pruning을 적용한 SFT가 적용하지 않은 SFT보다 전 지표에서 좋아졌다고 Table 5로 보고합니다(예: Overall 45.80→46.73, Insight 47.35→48.10).

하지만 사용자의 비판처럼 “점수 최대=정답 종료 시점” 가정은 위험합니다. 점수 함수(체크리스트/리워드 모델)가 진짜 목표(사용자 만족, 검증 가능성, 오류 최소화)와 어긋나면, pruning은 그 편향을 강화합니다. 특히 LLM judge 기반의 holistic score가 길이·구조·용어 사용을 선호한다면, 최고점이 “필요 이상 확장된 시점”이 될 수 있습니다. 그러면 terminate 정책은 ‘정보 포화’가 아니라 ‘평가 최적화 포화’에서 멈추는 습관을 학습합니다. 논문이 3레벨 구조, 최대 deepening 12 같은 제약을 둔 것도 효율을 위한 선택이지만, 이는 동시에 “점수 함수가 과확장을 좋아해도 시스템이 더 못 늘리는 상한”이 되어 부작용을 가릴 수 있습니다.

이 리스크를 줄이는 실천적 개선은 다음과 같습니다.

점수 함수 다변화가 필요합니다. Insight/Comprehensiveness 같은 추상 지표만이 아니라, “근거로 뒷받침된 주장 비율”, “인용의 실제 지지 여부”, “반론/한계 서술의 정확성”처럼 편향이 덜한 항목을 섞어야 합니다.

pruning 종료점을 “최고점 단일 시점”이 아니라 “상위 k개 시점 중 최소 길이” 혹은 “점수 증가율이 특정 임계값 이하로 떨어지는 최초 시점” 같은 규칙과 혼합하면, ‘길이 선호’ 편향을 완화할 수 있습니다.

forced expansion plateau(약 9 step) 해석을 강화하려면, plateau 이후 구간에서 “사실 오류 증가율”이나 “새로운 근거 추가량” 같은 부정적 지표가 실제로 악화되는지 함께 제시해야 합니다. plateau가 정보 포화인지 평가 포화인지 구분할 수 있습니다.

마지막으로 “폐쇄형 시스템보다 낫다” 주장입니다. 논문은 DeepResearch Bench에서 Gemini-2.5-Pro-deepresearch를 넘었다고 수치로 제시하지만, 공정성 논점이 남습니다. 각 시스템의 검색 환경, 컨텍스트 길이 제한, 인용 정책, 출력 길이 상한, 도구 사용 가능 범위가 완전히 동일하지 않으면 “시스템 간 비교”는 쉽게 논쟁이 됩니다. 이 논문은 자체 시스템의 제약(3레벨 구조, deepening 최대 12)을 명시한 편이지만, 비교 대상의 제약을 동등하게 맞췄는지까지는 독자가 한 번 더 확인하고 싶어집니다. 특히 Insight 같은 주관 지표일수록 동등조건이 중요합니다.

결국 이 논문의 “진짜 강점”은 사용자가 말했듯 스케일링이 아니라 프로세스 디자인이라는 메시지입니다. 8B 모델(MiniCPM4.1-8B)을 백본으로 삼고도, WARP+다단계 학습으로 ‘리서치 보고서’ 능력을 끌어올렸다는 점은 분명히 흥미롭습니다. 다만 “통찰 개선”을 더 믿게 만들려면, (1) 평가 편향을 줄이는 교차검증, (2) 로컬/프라이버시 서사의 스코프 명확화, (3) pruning이 리워드 편향을 증폭하지 않는다는 안전장치가 추가로 필요합니다.

WARP는 초안을 관측치로 삼아 근거 작성과 심화를 교대하며 고정 아웃라인의 통찰 천장을 낮춥니다. 그러나 LLM-as-Judge 편향, ‘로컬’ 메시지와 실제 구성의 간극, pruning의 리워드 편향 증폭 가능성은 추가 검증이 필요합니다.

자주 묻는 질문 (FAQ)

Q. WARP는 기존 plan-then-write와 무엇이 가장 다르나요? A. plan-then-write는 아웃라인을 먼저 고정하고 글을 채우는 반면, WARP는 작성 중 드러난 공백을 근거로 EXPAND로 아웃라인을 계속 갱신하며 Drafting과 Deepening을 교대로 수행하는 정책입니다.

Q. 논문에서 말하는 “통찰(Insight) 향상”을 그대로 믿어도 되나요?
A. 벤치별로 Gemini-2.5-Pro, o3-mini, GPT-4.1-mini 같은 LLM judge를 사용하며, RL 보상에도 LLM judge 항목이 포함됩니다. 따라서 사람 평가 교차검증, 길이/인용 통제, 주장-근거 정합 자동평가 같은 보완이 있으면 신뢰도가 더 높아집니다.

Q. “완전 로컬”이라면 정말 내 PC만으로 가능한가요?
A. 논문 설정은 약 286만 문서(약 271만 arXiv 초록 + 15만 웹 요약)를 로컬 DB로 두고 FAISS 인덱싱을 전제로 합니다. 또한 웹 요약은 Gemini 2.0-Flash로 생성했다고 적혀 있어, 실행 환경과 데이터 준비 단계의 ‘로컬’ 범위를 구분해 이해하는 것이 안전합니다.

[출처]
https://arxiv.org/html/2602.06540v1

AgentCPM 리포트 초안 심화 교차로 딥리서치 뽑기

WARP가 만드는 ‘통찰 천장’ 돌파 구조

LLM-as-Judge 의존이 만드는 ‘통찰 착시’ 리스크

로컬KB 서사와 종료(pruning) 편향을 함께 점검해야 합니다

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

프로필