InftyThink+ 오래 생각시키는 걸 RL로 다듬으면

긴 추론을 늘리면 성능이 오르지만, 비용은 제곱으로 커지고 컨텍스트 한계와 “lost-in-the-middle”로 품질도 흔들립니다. InftyThink+는 추론을 여러 라운드로 끊어 요약으로 이어 붙이되, “언제 요약할지·무엇을 남길지·요약 후 어떻게 이어갈지”를 SFT와 RL로 분리 학습해 최적화합니다. 다만 보상·크레딧 할당·검증기 의존성 같은 설계가 무엇을 개선했는지 해석을 더 까다롭게 만들 수 있습니다.

형식학습: SFT는 ‘포맷’만 가르치고, 그게 왜 필요한가

논문이 문제를 정확히 짚는 지점은 “iterative reasoning이 본질적으로 순차적 의사결정”이라는 주장입니다. 기존 장문 CoT는 한 번에 길게 밀어붙이는 방식이라 컨텍스트가 길어질수록 self-attention 비용이 L²로 증가하고, 컨텍스트 윈도우를 넘으면 아예 결론에 도달하지 못하며, 중간에 중요한 정보가 묻히는 현상이 커집니다. InftyThink 패러다임은 이를 “라운드 단위 추론 + 요약”으로 바꿉니다. 각 라운드 i에서 모델은 (질의 q, 이전 요약 s_{i-1})만 보고 추론 r_i를 생성한 뒤 새로운 요약 s_i를 생성합니다. 마지막에는 요약 대신 결론 c를 생성하며 종료합니다. 핵심은 매 라운드가 “고정된 컨텍스트 창”에서 동작한다는 점입니다. 전체 추론이 아무리 길어져도 한 라운드의 입력 길이는 제한되므로, 추론 깊이를 컨텍스트 길이와 분리(decouple)할 수 있다는 논리입니다.

그런데 이 구조가 실제로 작동하려면, 모델이 최소한 “InftyThink 스타일로 말하는 법”을 알아야 합니다. 여기서 논문이 말하는 형식학습이 등장합니다. 저자들은 RL에 바로 던지지 않고 cold-start 단계에서 SFT로 포맷을 먼저 학습시킵니다. 구체적으로 기존의 바닐라 데이터 (q, r, c)를 가져와 추론 r을 길이 상한 η(예: 6k) 내에서 문장 경계를 보존하며 여러 조각 {r1,…,rn}으로 나누고, 일반 목적 LLM(예: Qwen3-4B-Instruct-2507)로 중간 요약 {s1,…,s_{n-1}}를 생성해 (q, r1, s1), (q, s_{i-1}, r_i, s_i), (q, s_{n-1}, r_n, c) 형태의 학습 인스턴스로 바꿉니다. 요약 길이는 γ(예: 1k)로 제한해 압축을 강제합니다. 또한 토크나이저에

, , 같은 특수 토큰을 추가해 형식적 경계를 명시합니다.

이 형식학습이 설득력 있는 이유는, RL이 잘하려면 먼저 “행동 공간이 정리”되어야 하기 때문입니다. InftyThink+에서 모델의 행동은 단순히 다음 토큰을 내는 것이 아니라, (1) 현재 라운드를 계속 추론할지, (2) 요약을 낼지, (3) 결론으로 종료할지 같은 구조적 결정을 포함합니다. 이 결정을 텍스트로 구현하려면 출력 형식이 안정적이어야 하고, 요약과 결론의 경계가 명확해야 합니다. SFT는 바로 그 ‘문법’을 빠르게 익히는 단계로 기능합니다. 논문도 cold-start 이후 모델은 “문법적으로는” 멀티라운드 출력이 가능하지만, 언제 요약해야 하는지, 무엇을 남겨야 하는지, 요약을 어떻게 활용해야 하는지 같은 전략은 여전히 배우지 못한다고 명시합니다.

다만 사용자 비평을 더 밀어붙이면, 이 단계에서 이미 중요한 암시가 하나 생깁니다. 요약이 자연어로 표현되는 순간, 요약은 “중간 상태”이면서 동시에 “정보 병목”이 됩니다. 병목은 효율을 주지만, 잘못된 가정이 요약에 들어가면 이후 라운드 전체가 오염될 수 있습니다. 논문도 “초기 요약이 나쁘면 이후 추론이 망가진다”는 취지로 반복해서 강조합니다. 따라서 형식학습의 품질은 단순 문법 문제가 아니라, 이후 RL이 최적화할 수 있는 ‘상태 표현의 공간’을 결정하는 단계가 됩니다. 이 점을 고려하면 SFT를 “포맷만”이라고 축소해 보기도 어렵고, 반대로 “SFT가 만든 요약 스타일이 RL을 과도하게 규정할 위험”도 함께 떠오릅니다. 예컨대 cold-start 요약이 특정한 문체/구조(제약 목록, 중간 결론, 남은 미지수 등)를 고정해버리면 RL은 그 공간 안에서만 전략을 다듬게 됩니다. 그래서 후속 연구에서는 cold-start 요약기의 다양화(여러 요약자 앙상블, 서로 다른 요약 규칙)나, 요약 형식 자체를 구조화(제약/가정/목표/미해결 항목을 필드로)하는 시도가 함께 논의될 여지가 큽니다.

정리하면, 형식학습은 “RL을 가능하게 만드는 발판”이라는 점에서 논문 설계가 자연스럽습니다. 다만 이 발판이 곧 요약 표현의 귀납편향이 되므로, 포맷 학습이 어디까지 중립적인지(혹은 어느 정도 편향을 의도적으로 넣는지)는 논문이 더 명시하면 방어력이 커질 포인트입니다.

전략학습: RL이 ‘언제·무엇·어떻게’를 배운다는 말의 진짜 의미

논문의 핵심 주장인 “SFT는 형식, RL은 전략”이 가장 또렷해지는 구간은 RL 설계입니다. InftyThink+의 RL은 일반적인 1회 생성이 아니라 “하나의 문제 q가 여러 라운드 출력 묶음(trajectory)을 만든다”는 구조를 전제로 합니다. 저자들은 최대 반복 횟수 φ를 두고(실험에서는 φ=5), 매 라운드 j마다 (q, s_{j-1})로 프롬프트를 구성해 출력 o_j를 생성합니다. 종료 조건은 (i) 결론을 내면 종료, (ii) 형식이 깨지면 종료, (iii) φ에 도달하면 종료입니다. 즉 정책이 학습하는 것은 단순히 답을 맞히는 것이 아니라, “몇 라운드를 쓸지”까지 포함한 장기 전략입니다.

사용자 비평이 정확히 지적했듯, 이 논문이 깔끔한 부분은 보상 설계입니다. 보상은 크게 task reward와 efficiency reward로 분리됩니다. task reward는 Verify(최종 출력, 정답)를 통해 정답이면 1, 아니면 0인 이진 값입니다. efficiency reward는 라운드 수 n_i가 늘어날수록 감소하는 2차 감쇠 형태로 정의됩니다(예: 1 - ((n_i-1)/φ)²). 그리고 최종 보상은 R = R_task × R_eff로 곱합니다. 이 곱셈은 “짧게 끝내기만 하는 정책”을 막는 장치입니다. 틀리면 효율 보상은 아무 의미가 없고(0), 맞힌 경우에만 “더 빨리 맞힌 정책”이 추가로 보상을 받습니다. 설계 의도가 매우 명료합니다.

하지만 바로 그 명료함 때문에, 학습 동역학의 난점도 동시에 생깁니다. 이 보상은 본질적으로 희소합니다. 특히 어려운 문제에서는 정답(1)을 받는 궤적이 적어 RL 초반에 효율 보상이 작동할 기회가 거의 없습니다. 논문은 GRPO(그룹 상대 정책 최적화)를 사용하고, 한 쿼리에서 G개의 trajectory를 샘플링해 평균과 표준편차로 정규화한 advantage를 공유하는 방식으로 분산을 줄이려 합니다. advantage는 각 토큰 단위로 계산되지만 값 자체는 trajectory 보상을 그대로 쓰는 “trajectory-level shared advantage”입니다. 즉 같은 trajectory에 속한 모든 라운드의 모든 토큰이 동일한 (R-μ)/σ를 받습니다. 논문은 이 설계를 “초기 요약이 최종 성공에 기여하므로 초기 요약도 함께 강화되어야 한다”는 논리로 정당화합니다.

여기서 사용자 비평의 핵심(크레딧 할당이 거칠다)이 정확히 맞습니다. shared advantage는 장점이 큽니다. 요약 토큰은 직접 정답을 내지 않지만, 정답에 ‘기여’합니다. 만약 라운드별·토큰별로 세밀하게 보상을 주지 못하는 상황에서, shared advantage는 최소한 “좋은 trajectory에 속한 요약은 강화한다”는 방향성을 보장합니다. 그러나 동시에 부작용도 명확합니다. 잘못된 요약이었는데도 뒤 라운드에서 우연히 정답이 나오면 그 요약이 함께 강화될 수 있고, 반대로 요약은 좋았지만 마지막 라운드에서 계산 실수가 나면 요약도 함께 벌을 받습니다. 이때 성능은 좋아질 수 있지만, “무엇이 좋아졌는지”를 설명하는 해석 가능성은 떨어집니다. 즉 논문이 제시한 전략학습의 성과는 ‘정책이 좋아졌다’는 결과로는 증명되지만, ‘요약 정책이 어떤 규칙을 학습했다’는 형태로는 모호해질 수 있습니다.

이 모호함은 논문이 보여주는 재미있는 실험 결과에서도 드러납니다. Table 3의 “외부 요약기 대체” 실험에서 SFT-only는 외부 요약으로 바꾸면 성능이 오르지만, RL 이후에는 외부 요약으로 바꾸면 성능이 떨어집니다. 논문은 이를 “RL이 요약을 다운스트림 추론과 공동적응시켜 더 효과적인 요약을 만들었다”는 증거로 해석합니다. 이 해석은 상당히 설득력 있습니다. 다만 동시에 사용자 비평처럼 다른 해석도 가능합니다. RL로 학습된 내부 요약이 ‘일반적으로 좋은 요약’이 아니라, 해당 정책이 알아볼 수 있는 ‘특수한 상태코드(암호화된 요약)’가 되었을 가능성입니다. 즉 사람에게는 덜 읽히지만 모델에게는 유용한 형태로 요약이 최적화되었을 수 있습니다. 이 가능성을 배제하려면 요약의 외부적 품질 평가(정보 회수율, 제약 보존률, 모순률 등)를 별도로 제시하는 편이 더 단단합니다.

저는 이 논문이 더 강해지려면, 전략학습의 성과를 “정확도 상승” 외에 중간 메커니즘 지표로 보여주는 것이 중요하다고 봅니다. 예컨대 다음이 유효합니다.

라운드별 요약의 ‘제약 보존률’입니다(문제에서 주어진 조건을 요약에 얼마나 유지하는지)입니다.

요약 후 continuation에서 “요약에 없는 새 가정”이 얼마나 생기는지(semantic drift)입니다.

shared advantage의 거칠음을 완화하기 위한 부분 보상(중간 검증, self-consistency, 단계별 verifier 점수) 혼합입니다.

논문은 “when to compress, how to compress, how to continue”라는 3요소로 분석 섹션을 구성하고, 요약 타이밍을 Fixed/Random으로 강제한 대조군에서 성능이 떨어지는 것을 보여줍니다. 이 결과는 “적응적 타이밍이 중요하다”를 지지합니다. 하지만 사용자 비평처럼 Fixed/Random은 약한 대조군이므로, uncertainty 기반 중단, self-eval 기반 중단, verifier 기반 중단 같은 강한 휴리스틱과의 비교가 추가되면 “RL이 꼭 필요하다”는 주장에 더 힘이 실립니다.

결론적으로 전략학습은 ‘맞히는 법’만이 아니라 ‘끊고 요약하고 이어가는 법’을 학습시키려는 시도이고, 이 논문은 그 RL 설계를 상당히 깔끔하게 제시합니다. 다만 보상의 희소성과 shared advantage의 거칠음 때문에, 후속 보강 없이는 “무엇이 좋아졌는지” 해석이 흐려질 수 있다는 비판도 동시에 성립합니다.

요약정책: 성능·지연 개선은 인상적이지만, 공정 비교와 실사용 조건이 관건입니다

InftyThink+가 대중적으로 설득력을 얻는 지점은 “정확도도 오르고 지연도 준다”는 결과입니다. Table 1은 이 메시지를 가장 직접적으로 보여줍니다. DeepSeek-R1-Distill-Qwen-1.5B 기준으로, 바닐라 대비 InftyThink+는 cold-start만으로도 평균 지연(LAT)을 크게 줄입니다(예: 평균 LAT 110.96s → 77.57s). 이는 토큰 수(TOK)가 약간 늘어도, 라운드마다 고정 컨텍스트에서 추론하니 wall-clock이 줄 수 있다는 논리와 맞습니다. 그리고 RL(✓T)을 얹으면 정확도가 크게 증가합니다. 특히 AIME24에서 InftyThink+는 29.48%에서 50.94%로 크게 뛰며, 바닐라 RL 대비 추가 이득이 있습니다. 논문은 이를 “명시적 요약 상태가 RL이 최적화할 수 있는 기질(substrate)을 제공한다”는 방식으로 해석합니다.

또한 효율 보상(✓T+E)을 넣으면 토큰 수와 지연이 더 크게 줄어듭니다. 예컨대 InftyThink+ (T+E)는 평균 TOK를 20.02K에서 10.66K로, 평균 LAT를 100.21s에서 48.37s로 낮추면서도 평균 정확도를 53.96%→50.58%로 “조금만” 희생하는 트레이드오프를 보여줍니다. 논문은 이 결과를 “효율-정확도 균형을 제어 가능하게 만든다”는 증거로 제시합니다. 즉 요약정책이 ‘더 똑똑하게 요약하고 더 일찍 종료’하도록 RL이 유도된 것입니다.

하지만 사용자 비평이 말했듯, 여기서 공정성과 해석의 함정이 생깁니다.

첫째, TOK와 LAT의 관계는 서빙 엔진과 배치/캐시/병렬화에 따라 달라질 수 있습니다. 논문은 SGLang을 추론 백엔드로 고정하고, 평가를 32샘플 평균(temperature 0.7, top_p 0.95)으로 진행합니다. 이 설정에서 LAT 감소는 “긴 컨텍스트 attention을 계속 키우는 바닐라” 대비 “매 라운드 고정 컨텍스트”의 구조적 이점을 반영합니다. 하지만 실제 제품 환경에서 1-sample 또는 소수 샘플만 쓰는 경우, 평균 성능/지연 트레이드오프는 달라질 수 있습니다. 32샘플 평균은 연구적 안정성에는 좋지만, 실사용자가 체감하는 “1회 응답 시간”과는 다릅니다. 따라서 “실제 서빙 조건(1-sample, k-sample)”에서의 정확도/지연 재평가가 있으면 논문의 제목 메시지(효율적 무한 지평)가 더 살아납니다.

둘째, verifier 의존성은 큰 한계이자 강점입니다. 논문은 task reward를 Verify로 정의하고, 실제 실험에서는 PRIME-Math 검증 스크립트를 사용합니다. 수학처럼 정답 판정이 명확한 영역에서는 매우 강력합니다. 그러나 오픈엔디드 문제, 복합 질의, 부분정답이 존재하는 현실 태스크로 가면 Verify 설계가 급격히 어려워집니다. 이때 InftyThink+의 핵심인 “효율 보상은 정답일 때만 작동” 구조도 함께 흔들립니다. 정답 판정이 흐려지면 correctness×efficiency가 설계 의도대로 작동하기 어려워지고, shared advantage는 더 거칠어집니다. 결국 이 방법의 일반화는 “검증 가능한 문제”에 강하게 묶여 있을 수 있습니다. 논문이 에이전트형 장기 과제까지 확장 가능성을 말하지만, 그 확장에는 verifier 설계가 가장 큰 장애물이 될 가능성이 큽니다.

셋째, 요약이 정보병목이라는 본질적 리스크가 있습니다. 요약은 압축이므로, 초기에 틀린 가정이 요약에 들어가면 이후 라운드가 조용히 틀릴 수 있습니다. 특히 RL이 “정답에 도움이 되는 최소 단서만 남기는 요약”으로 최적화되면, 사람에게는 검증 가능성이 낮은 블랙박스 요약이 될 위험이 있습니다. 앞서 언급한 외부 요약 교체 실험의 ‘반전’은 공동적응의 증거일 수도 있지만, 동시에 “요약이 인간 친화적 표현에서 멀어졌다”는 신호일 수도 있습니다. 실용성을 높이려면, 요약의 해석 가능성과 오류 전파를 감시하는 별도 지표가 필요합니다(예: contradiction rate, constraint preservation rate, 요약 기반 재구성 가능성 등)입니다.

넷째, φ(최대 반복) 같은 하이퍼파라미터의 영향은 “무한”이라는 메시지와 긴장 관계에 있습니다. 논문은 훈련 효율을 위해 φ로 롤아웃 반복을 제한하고, 본 실험에서는 φ=5로 설정합니다. 이는 실험적으로 타당한 선택이지만, ‘무한 지평’이라는 비전은 결국 φ가 커질 때도 안정적으로 학습되고 성능이 스케일링되는지에 달려 있습니다. 논문은 부록에서 φ 어블레이션을 제공한다고 예고하지만, 본문만 읽는 독자에게는 “무한”이 다소 수사처럼 느껴질 수 있습니다. 따라서 φ 증가에 따른 (1) 학습 안정성, (2) 요약 품질 변화, (3) 지연 감소 효과의 유지 여부를 더 전면에 배치하면 메시지가 더 단단해질 수 있습니다.

그럼에도 논문이 실용적으로 강한 이유는 “분석 섹션이 결과를 과장하지 않고, 요약정책의 구성요소를 분해해 보여준다”는 점입니다. 요약 타이밍(Random/Fixed) 대조군(Table 2)에서 adaptive timing이 일관되게 낫고, RL 이후에는 잘못된 타이밍의 페널티가 더 커진다는 관찰은 “전략학습이 진짜로 타이밍 정책을 더 민감하게 만든다”는 메시지로 읽힙니다. 또한 요약자 교체(Table 3)에서 RL이 요약을 다운스트림과 공동적응시킨다는 신호를 보여줍니다. 이 모든 것이 결국 요약정책이 “단순 요약이 아니라, 상태 표현+행동 결정의 결합”이라는 점을 강조합니다.

실제로 현장에서 이 아이디어를 적용한다면, 저는 다음 실천 팁이 중요하다고 봅니다.

1-sample 환경에서 먼저 측정해야 합니다. 32샘플 평균이 아니라 단일 응답 기준으로, 정확도·지연·실패 모드(형식 붕괴, 조기 종료)를 봐야 합니다.

요약 품질을 외부 지표로 감시해야 합니다. 정답만 맞히는 요약이 아니라, 제약 보존과 모순률을 함께 봐야 합니다.

강한 휴리스틱 베이스라인과 비교해야 합니다. uncertainty 기반 stop/summarize, verifier 기반 interruption 같은 “현실적 대조군”이 있어야 RL 필요성이 더 명료해집니다.

검증기가 없는 도메인을 위해 부분 보상/대체 신호를 준비해야 합니다. 예를 들어 단계별 self-check, 부분 채점, retrieval 기반 근거 매칭 같은 보조 신호가 필요합니다.

요약하면, 요약정책은 InftyThink+의 ‘효율’ 메시지를 실체로 만드는 핵심이며, 논문은 그 효과를 꽤 인상적으로 보여줍니다. 다만 공정 비교(서빙 조건)와 검증기 의존성, 정보병목 리스크를 어떻게 다루느냐가 실사용 관점의 승부처입니다.

(결론: InftyThink+는 SFT로 반복 요약 포맷을 만든 뒤, RL로 요약 타이밍·요약 내용·이어가기 전략을 최적화한다는 분리 설계가 설득력 있습니다. 다만 이진 검증 보상과 shared advantage는 해석을 거칠게 만들 수 있고, verifier 의존·요약 병목·φ 민감도 같은 리스크를 보강 실험으로 다루면 논문의 주장과 실용성이 더 단단해질 수 있습니다.)

자주 묻는 질문 (FAQ)

Q. InftyThink+에서 “형식학습(SFT)”이 꼭 필요한 이유는 무엇인가요 A. RL이 최적화해야 하는 행동이 “언제 요약할지/언제 결론낼지”처럼 구조적이기 때문입니다. cold-start SFT로 요약·결론 포맷과 반복 구조를 안정화해야 RL이 전략을 학습할 수 있는 행동 공간이 정리됩니다.

Q. correctness×efficiency 보상이 왜 장점이면서 동시에 약점인가요
A. 장점은 “짧게 끝내기만 하는 정책”을 막는 것입니다. 틀리면 효율 보상이 0이어서 조기 종료가 유리해지지 않습니다. 약점은 정답 신호가 희소한 어려운 문제에서 효율 보상이 작동할 기회가 적어 학습 신호가 약해질 수 있다는 점입니다.

Q. RL 후 내부 요약이 외부 요약보다 좋아졌다는 결과를 어떻게 해석해야 하나요
A. 논문은 RL이 요약을 다운스트림 추론과 공동적응시켜 더 유용한 요약을 만들었다고 해석합니다. 다만 반대로, 내부 요약이 인간에게 좋은 요약이 아니라 정책이 알아볼 수 있는 특수한 상태표현으로 ‘암호화’되었을 가능성도 있어, 요약의 제약 보존률·모순률 같은 외부 평가가 함께 있으면 더 안전합니다.

[출처]
https://arxiv.org/abs/2602.06960

InftyThink+ 오래 생각시키는 걸 RL로 다듬으면

형식학습: SFT는 ‘포맷’만 가르치고, 그게 왜 필요한가

전략학습: RL이 ‘언제·무엇·어떻게’를 배운다는 말의 진짜 의미

요약정책: 성능·지연 개선은 인상적이지만, 공정 비교와 실사용 조건이 관건입니다

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

Activation steering, 왜 생각보다 잘 안 먹히는가

레이어별 활성 추적

곡률 하나로는 부족 그래프 이상탐지에 Riemannian experts

프로필