AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

4B급 엣지 모델이 에이전트 과제에서 약한 이유를 “능력 부족”으로만 보면 해법이 커집니다. AgentCPM-Explore는 병목을 안정성·신호품질 문제로 재정의하고, 모델을 키우기보다 학습 신호와 컨텍스트를 정리해 성능을 끌어올립니다. 다만 비교 공정성, pass@1 관점, 필터링 편향 같은 리스크도 함께 점검해야 합니다.

안정성 관점에서 다시 본 4B의 한계

이 논문의 출발점은 “작은 모델은 원래 못한다”가 아니라 “작은 모델은 흔들리기 쉬워서 못 하는 것처럼 보인다”입니다. 저자들은 4B급 에이전트 학습에서 반복적으로 관측되는 병목을 3가지로 분해합니다. 첫째는 SFT에서의 catastrophic forgetting과 과적합입니다. 목표 시나리오의 교사 궤적에 맞추는 과정에서 일반 능력(롱컨텍스트 이해나 복합 지시 따르기 등)이 덮여 쓰여, 오히려 이후 RL과 일반화의 상한을 낮춘다고 설명합니다. 둘째는 RL 단계에서의 reward signal noise 민감성입니다. 에이전트 RL은 긴 궤적 끝에서 보상이 돌아오고, 도구·네트워크·포맷 같은 외생 요인도 실패로 기록되기 쉬운데, 4B는 이런 오염된 신호를 “내 잘못”으로 학습해 정책 엔트로피가 붕괴하거나 보수적 반복 패턴으로 수렴하는 현상이 잘 생긴다고 합니다. 셋째는 long context에서의 정보 오염입니다. 실제 에이전트 환경에서는 관측이 길고 중복·잡음이 많아 컨텍스트 모델링 용량이 작은 4B가 빠르게 결정 품질을 잃는다는 주장입니다.

이 프레임이 실무적으로 좋은 이유는, 문제를 “파라미터 부족”이 아니라 “학습 과정에서 깨지는 안정성”으로 옮겨 놓기 때문입니다. 실제로 논문은 GAIA에서 pass@64 조건에서 97.09%까지 도달했다고 보고하며, 이를 근거로 ‘정답 경로는 이미 정책 공간에 존재하지만 단발 추론에서 안정적으로 끌어내지 못한다’는 메시지를 강하게 제시합니다. 또한 RL이 고K에서의 좋은 성능을 저K로 ‘압축’해주는 경향이 있으나, pass@2에서 pass@1로의 점프가 특히 어렵고 이 구간에서 분산이 커진다고 인정합니다. 이 대목이 저는 논문의 가장 정직한 부분이라고 봅니다. “대부분 해결 가능”이라는 문구가 독자에게 과장처럼 들릴 수 있는 이유가 바로 여기에 있는데, 제품 환경에서는 pass@1~pass@2가 훨씬 중요하기 때문입니다. 논문이 말하듯 high-K 샘플링은 불확실성을 다양성으로 헤지할 수 있지만, pass@1은 ‘가장 신뢰할 수 있는 정책’을 단번에 선택해야 하는 문제로 변합니다. 결국 이 논문의 진짜 교훈은 “엣지 모델도 답을 알고 있을 수 있다”가 아니라 “엣지 모델의 핵심 과제는 선택(selection) 안정화”라는 쪽에 더 가깝습니다.

여기서 사용자 비평을 한 단계 확장하면, ‘안정성’은 두 종류로 나뉩니다. (1) 학습 안정성(붕괴 없이 업데이트가 지속되는가)과 (2) 추론 안정성(pass@1에서 변동이 줄어드는가)입니다. 논문은 전자(학습 붕괴 방지)를 세 가지 시스템 처방으로 강하게 잡았고, 후자(단발 선택)를 향후 과제로 명확히 남겨 둡니다. 저는 이 구분을 독자가 분명히 잡고 읽어야 과장 논란이 줄어든다고 봅니다. “pass@64 97%”는 ‘존재 증명’에 가깝고, 실제 경쟁력은 ‘pass@1 신뢰도’를 어떻게 올릴지에 달려 있기 때문입니다.

4B 병목(논문 제시)	의미/실전 체크포인트
SFT 망각·과적합	일반능력 보존이 RL 상한을 좌우합니다(merge·보존 벤치 필수)
RL 보상 신호 노이즈	오염된 실패를 ‘내 탓’으로 학습하면 엔트로피 붕괴가 납니다(필터링 설계 필요)
롱컨텍스트 오염	요약 품질·인터페이스가 정보 병목입니다(서머라이저가 시스템 성능을 좌우)

필터링 중심 설계가 주는 이득과 ‘분포 왜곡’ 리스크

논문에서 가장 실전 감각이 강한 원칙은 “filtering over attribution”입니다. 에이전트 RL에서는 정교한 credit assignment를 꿈꾸기 쉽지만, 현실은 도구 호출 실패·네트워크 지연·포맷 파싱 오류·과도하게 긴 궤적 같은 외란이 너무 잦습니다. 저자들은 작은 모델이 이런 노이즈를 흡수할 여유(중복 파라미터)가 없다고 보고, 노이즈를 ‘설명’하려 하지 말고 아예 역전파 전에 제거하자는 전략을 택합니다. 구체적으로 환경 노이즈 필터링(타임아웃, 서버 에러, 네트워크 지연 패턴 등), 포맷 오류 필터링(JSON 파싱 실패, 특수 토큰 규격 위반, 장문 반복으로 잘림 등), 극단 궤적 필터링(너무 짧은 성공은 학습 가치가 낮고, 너무 긴 실패는 원인 귀속이 어려워 폐기)을 3단으로 둡니다. 그리고 일부 필터를 제거하면 성능이 오히려 떨어지고, 정책 엔트로피 collapse 같은 이상 징후가 나타난다고 설명합니다.

이 접근의 강점은 “학습 붕괴를 시스템적으로 막는다”는 점입니다. 작은 모델이 RL에서 망가지는 전형적 경로는, ‘정답에 가까운 탐색’을 하다가도 외생 실패로 벌점을 받고, 그 벌점이 누적되며 ‘안전한 회피 행동’이나 ‘반복 출력’으로 쪼그라드는 것입니다. 논문은 오염된 실패를 제거하거나 중립 보상으로 처리해 이런 왜곡을 줄이려 합니다. 실무에서 이 메시지가 특히 유용한 이유는, 많은 팀이 “보상 모델을 더 똑똑하게” 만들려다 인프라/포맷/툴 안정성 문제를 간과하기 때문입니다. 작은 모델일수록 이 문제는 알고리즘보다 운영에서 먼저 터집니다.

하지만 사용자 비평대로, “필터링이 안정성을 주는 대신 학습 분포를 왜곡할 수 있다”는 리스크는 반드시 짚어야 합니다. 너무 긴 실패 궤적을 버리면 hard negative가 사라지고, 배포 환경에서 흔히 나는 포맷 오류를 학습에서 제거하면 “현장 오류 대응력”이 오히려 약해질 수 있습니다. 특히 에이전트는 실패를 복구하는 능력이 중요한데, 실패 데이터를 ‘오염’으로만 취급하면 복구 학습이 빈약해질 수 있습니다. 논문도 필터링의 필요성을 강조하지만, 각 필터가 얼마나 많은 샘플을 제거하는지, 제거가 어떤 난이도/도메인 편향을 만드는지의 정량 보고는 더 있으면 좋습니다.

제가 실전 적용자라면, 필터링을 “버리기”로만 쓰지 않고 “학습 경로 분기”로 씁니다. 예를 들어 포맷 오류는 전체 궤적 역전파를 막되, 포맷 스킬만 따로 미세 조정하는 보조 학습으로 돌릴 수 있습니다. 환경 노이즈는 전부 폐기하기보다, 툴 품질 지표와 함께 “인프라 실패” 레이블을 달아 정책이 재시도·우회 도구 선택을 학습하게 할 수도 있습니다. 극단 궤적도 ‘너무 긴 실패’를 다 버리는 대신, 실패 구간을 잘라내어 요약-기반 재시작 같은 복구 정책 학습에 활용할 수 있습니다. 논문이 제시한 인프라(타임아웃, 자동 재시도, 표준화된 에러 코드 등)를 보면 이런 확장이 자연스럽습니다.

또 하나 현실적 포인트는 “비교 공정성”입니다. 논문은 여러 모델을 Table 1에 함께 놓고, 4B가 일부 벤치에서 더 큰 모델(또는 클로즈드 모델)보다 낫다고 주장합니다. 그러나 에이전트 벤치마크는 툴 스택, 검색 환경, 리트라이 정책, 타임아웃, 브라우저/리더(예: Jina Reader) 같은 시스템 차이가 점수에 크게 영향을 줍니다. 논문은 자체 인프라를 자세히 적어(서버/클라이언트 타임아웃, 검색 자동 재시도, URL 내용 토큰 truncation 등) 재현성을 돕지만, 비교 대상이 동일 인프라였는지에 대한 독자의 의심은 남을 수 있습니다. 그래서 ‘필터링이 만든 안정성 향상’이 모델 고유 성능인지, 시스템 엔지니어링의 승리인지 분리해 보여주는 표준화 체크리스트가 메인에 들어가면 설득력이 더 커집니다.

실천 팁으로 정리하면 다음과 같습니다.

필터는 “제거율”을 반드시 로그로 남겨야 합니다. 제거율이 높아질수록 분포 편향 가능성이 커집니다.

포맷 오류는 폐기만 하지 말고, 포맷 전용 보조학습으로 되돌리는 경로를 두는 것이 좋습니다.

환경 노이즈는 단순 중립 보상보다 “재시도 정책 학습”의 데이터로 전환하는 설계가 실용적입니다.

벤치마크 비교를 할 때는 툴/리트라이/타임아웃/예산을 표준화한 표를 함께 공개하는 것이 안전합니다.

병합 전략과 요약기 인터페이스가 결정하는 ‘선택’의 품질

논문이 “모델 하나 더 키우기” 대신 택한 두 번째 축이 parameter-space model merging입니다. 저자들은 SFT 모델이 타깃 과제 능력은 늘지만 일반 능력이 더 크게 약화되고, 그 약화가 오히려 타깃 성능 상한도 깎는다고 봅니다. 반대로 base model은 일반 능력은 유지하지만 타깃 실행 능력이 약합니다. 그래서 두 모델의 상보성을 파라미터 공간에서 결합해 “일반 이해력 + 특화 실행력”을 동시에 갖게 만들고, 그 merged model을 RL의 출발점(정책 모델)으로 씁니다. 논문은 DELLA merge를 사용하며 λ=0.9를 설정하고, λ가 일반능력 보존과 도메인 주입 간 trade-off를 조절한다고 설명합니다.

이 선택은 논리적으로 타당합니다. 작은 모델에서는 SFT가 곧 파라미터 공간의 재배치로 이어지고, 일반 능력이 ‘공짜로 남아’ 있지 않기 때문입니다. 다만 사용자 비평처럼 “왜 DELLA가 최선인가”는 대조군이 더 있으면 좋습니다. 예를 들어 단순 평균/가중 평균, 다른 머지 기법, λ 스윕 곡선(성능-일반능력 보존)을 함께 제시하면 “망각 완화” 주장이 더 단단해집니다. 논문도 λ가 변위 크기를 조절한다고 말하니, 그 곡선을 독자가 보고 싶어하는 것은 자연스럽습니다. 또한 ‘일반 능력 보존’을 실제로 확인하려면 롱컨텍스트/IF 같은 별도 보존 벤치가 같이 있어야 논리 완결성이 생깁니다.

세 번째 축인 context information refinement는 더 실전적입니다. 논문은 요약기가 단순 부품이 아니라 “정보 병목”이라고 봅니다. 에이전트가 도구로 가져온 관측이 길고 중복될수록, 4B는 컨텍스트 오염으로 빠르게 무너집니다. 저자들은 두 개의 루프로 이를 해결합니다. 첫째는 intent communication 병목을 풀기 위해, 정책 모델이 요약기에 전달하는 ‘purpose(요약 의도)’를 RL 목표에 포함해, 요약기가 이해하기 좋은 목적 서술을 정책이 학습하도록 합니다. 둘째는 요약기 자체의 정보 추출 능력을 distillation 기반 SFT로 강화합니다. 고성능 teacher(예: DeepSeek-V3.2-thinking)로 다중 샘플을 생성해 요약 데이터로 만들고, 이를 4B 요약기에 증류합니다.

논문이 보여주는 흥미로운 결과는 “더 강한 요약기”보다 “서로 적응된 인터페이스”가 더 낫다는 메시지입니다. 에이전트-요약기 조합을 고정하고 요약기만 바꾸는 실험에서, 요약기 성능이 좋아질수록 GAIA가 오르지만, end-to-end RL로 에이전트가 purpose를 요약기에 맞게 학습했을 때는 강한 요약기 조합보다도 더 좋은 결과가 나왔다고 설명합니다. 즉, 부품 스펙 경쟁보다 “인터페이스 공동 진화”가 효율적이라는 결론입니다.

다만 사용자 비평(요약기에 원 질문을 안 준 결정의 현실성)은 정확합니다. 논문은 질문을 주면 요약기가 직접 답을 풀어버리는 혼선을 피하기 위해 질문을 제공하지 않았다고 밝힙니다. 해석은 깔끔하지만, 실제 제품에서는 목표(질문) 없이 좋은 요약을 만들기 어렵습니다. 그래서 실전적으로는 “질문 제공”을 금지하기보다, “요약기는 답을 생성하지 말고 근거 추출만 하라” 같은 제약을 두는 편이 더 현실적입니다. 즉, 질문을 주되 치팅을 막는 인터페이스 설계가 후속 과제입니다. 또한 이 선택이 성능에 주는 영향을 ‘질문 제공 vs 미제공’으로 통제한 ablation이 더 풍부하면 논문의 메시지가 더 안전해집니다.

마지막으로, 비교 공정성 이슈를 다시 강조해야 합니다. 에이전트 시스템은 모델뿐 아니라 도구 인프라가 성능을 좌우합니다. 논문은 타임아웃(서버 120초, 클라이언트 180초), 검색 자동 재시도(최대 3회), URL 내용 truncation(예: 95K 토큰), 128K 컨텍스트 학습 설정 등 시스템 세부를 꽤 구체적으로 적습니다. 이 장점이 그대로 “동일 조건 비교” 요구로 이어집니다. 클로즈드 모델 대비 우수라는 강한 문구를 유지하려면, 최소한 주요 비교군에 대해 동일 툴/동일 리트라이/동일 예산/동일 프롬프트 정책을 표로 박아두는 것이 독자 설득에 결정적입니다.

실천 체크리스트로 마무리하면, 4B급 에이전트를 올리려는 팀이 당장 적용할 수 있는 우선순위는 다음과 같습니다.

pass@K 곡선을 먼저 그려 ‘존재 vs 선택’ 문제를 분리해야 합니다. pass@64가 높은데 pass@1이 낮다면 ‘가치 추정/검증기’가 핵심입니다.

병합은 성능만 보지 말고 일반능력 보존 지표를 함께 봐야 합니다. λ 스윕과 보존 벤치를 같이 운영하는 것이 안전합니다.

요약기는 모델 성능의 상한을 정하는 부품입니다. 더 강한 요약기 교체만큼이나 purpose 인터페이스의 적응이 중요합니다.

필터링은 “안정화 장치”이지만, 제거율·편향·복구 학습 공백을 반드시 측정해야 합니다.

AgentCPM-Explore는 4B의 한계를 ‘능력 부족’이 아닌 안정성·신호품질 문제로 재정의하고, 병합·필터링·요약 인터페이스로 학습 붕괴와 컨텍스트 오염을 줄입니다. 다만 공정 비교, pass@1 중심 검증, 필터링 편향과 머지 대조군은 추가 근거가 필요합니다.

자주 묻는 질문 (FAQ)

Q. pass@64가 97%면 “엣지 모델은 대부분 풀 수 있다”로 봐도 되나요? A. 존재 가능성은 보여주지만 제품 결론으로 바로 일반화하기는 조심스럽습니다. 논문도 pass@2→pass@1 구간이 특히 어렵고 분산이 커진다고 인정합니다. 핵심은 ‘단발 선택 안정화’이며, 검증기/가치 추정 같은 보완이 필요합니다.

Q. “filtering over attribution”은 왜 작은 모델에서 특히 유효한가요?
A. 작은 모델은 보상 노이즈를 흡수할 여유가 적어, 오염된 실패를 학습하면 정책 엔트로피 붕괴나 반복 출력으로 수렴하기 쉽습니다. 논문은 환경 노이즈·포맷 오류·극단 궤적을 3단 필터로 제거해 학습 붕괴를 막습니다.

Q. 필터링을 많이 하면 오히려 실전 오류 대응력이 떨어지지 않나요?
A. 그 위험이 있습니다. 포맷/긴 궤적 실패가 배포에서 자주 발생한다면, 데이터를 버리기만 하면 복구 정책 학습이 약해질 수 있습니다. 제거율과 편향을 수치로 공개하고, 포맷 오류는 별도 보조학습으로 돌리는 등 분기 설계가 안전합니다.

Q. DELLA merge(λ=0.9)를 썼는데, 왜 이 방법이 최선이라고 볼 수 있나요?
A. 논문은 λ가 일반능력 보존과 도메인 주입의 trade-off를 조절한다고 설명하지만, 단순 평균/다른 머지 기법/λ 스윕과 같은 대조군이 더 있으면 주장이 훨씬 단단해집니다. 실전에서는 보존 벤치와 함께 λ 스윕 곡선을 운영하는 편이 안전합니다.

[출처]
https://arxiv.org/html/2602.06485v1

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

안정성 관점에서 다시 본 4B의 한계

필터링 중심 설계가 주는 이득과 ‘분포 왜곡’ 리스크

병합 전략과 요약기 인터페이스가 결정하는 ‘선택’의 품질

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

프로필