DEPO 어려운 샘플을 미리 감지하면 RL이 빨라질까

GRPO 학습에서 롤아웃이 가장 비싼데, 정작 업데이트에 쓸 “학습 신호”가 없는 샘플이 많으면 돈과 시간이 그대로 증발합니다. DEPO는 이를 롤아웃 이후 정리하는 대신, 롤아웃 전에 온라인 난이도 추정기로 걸러 비용을 줄이려는 접근입니다.

난이도: “0-variance”를 비용 문제로 다시 정의한 지점

사용자 한줄 총평대로, 이 논문의 가장 실용적인 기여는 “학습 신호가 없는 샘플”을 비용 관점에서 정확히 겨냥했다는 점입니다. GRPO는 질문 q마다 G개의 응답을 샘플링하고, 그룹 내 reward의 상대 차이로 advantage를 계산합니다. 그런데 그룹 내 reward가 전부 같으면(예: 모두 0이거나 모두 1) 상대 advantage가 사실상 사라지고, 업데이트는 노이즈에 휘둘리거나 정체됩니다. 논문은 이 현상을 “zero-variance problem”으로 명확히 정식화하고, 학습이 진행될수록 “모두 1” 같은 균일 보상이 늘어 유효 샘플이 줄어드는 경향까지 설명합니다.

여기서 DEPO의 설계가 깔끔한 이유는, “롤아웃을 더 많이 하자(오버샘플링)”가 아니라 “롤아웃 자체를 안 하자(사전 필터링)”로 방향을 뒤집었기 때문입니다. 논문은 기존 완화책으로 DAPO류의 동적 샘플링(오버샘플링 후 비정보 샘플 제거)이 안정성을 주지만, 그 안정성이 곧바로 롤아웃 비용 폭증으로 연결된다는 문제를 짚습니다. 반면 DEPO는 그림(Figure 1~2)에서처럼 질문 풀에서 배치를 뽑은 뒤, Difficulty Estimator가 미리 Â(estimated advantage)를 예측하고, Â=0으로 판단되는 샘플은 롤아웃을 건너뜁니다. 핵심 메시지는 “비싼 계산을 하기 전에, 가치 없는 일을 판별하자”입니다.

온라인으로 붙인 것도 설득력이 있습니다. 저자들은 오프라인 필터링이 실패하는 대표 원인을 “moving target”으로 설명합니다. 즉 actor가 변하면 난이도 기준이 달라져, 어제 어렵던 문제가 오늘은 쉬워지고, 어제 쉬웠던 문제가 오늘은 학습 가치가 생길 수 있다는 점입니다. 그래서 Difficulty Estimator를 훈련 루프 안에 넣고, 롤아웃에서 나온 reward/log-probabilities를 “정답 라벨”처럼 사용해 추정기를 동기 업데이트합니다. 이 ‘동기학습’ 설계는, 사용자 비평이 지적한 대로 “정책-프롬프트 상호작용”에 민감한 난이도를 어느 정도 따라가려는 합리적 선택입니다.

논문이 제시하는 구체 구현도 실용적입니다. Difficulty Estimator는 BERT 기반 인코더에 두 개 헤드를 얹어 (1) advantage(정확히는 rollout에서 얻는 Avg@k 기반의 정규화된 점수)를 예측하고 (2) actor perplexity(PPL)도 함께 예측합니다. 그리고 joint loss로 LDE(advantage), Ldistill(PPL), Lrank(랭킹)을 섞습니다. 특히 MSE 대신 BCE를 쓰는 이유를 gradient 형태로 설명하며, 시그모이드 극단(0/1 근처)에서 MSE는 σ′ 때문에 gradient가 죽기 쉬운데 BCE는 (σ(Â)−A)로 “극단 식별”에 유리하다고 주장합니다. 여기까지는 “왜 그런 선택을 했는지”를 독자가 따라갈 수 있게 만들어 준다는 점에서 장점입니다.

다만 이 강점을 더 단단하게 만들려면, 사용자가 말한 “진짜 0-variance를 예측하는가 vs 그냥 쉬운 문제를 제거하는가”를 분리해 보여줘야 합니다. 논문은 목표를 “Â=0이면 필터”로 표현하지만, 실제로는 A가 연속적인 Avg@k 프록시이며, BCE 학습도 A를 0/1처럼 다루는 구조가 섞여 있습니다. 즉 ‘균일 보상으로 인한 정보 부재’와 ‘상대적으로 학습 가치가 낮은 샘플’이 혼재될 수 있습니다. 이 지점을 정교하게 분해하면, DEPO의 “비용 절감”이 단순한 커리큘럼(쉬운 것 빼기)인지, GRPO 고유의 0-variance 병목을 겨냥한 것인지가 더 명확해집니다.

DEPO가 주장하는 목표	독자가 확인하고 싶은 분해 지표
롤아웃 전 “Â≈0” 샘플 제거	필터된 샘플 중 ‘그룹 내 reward 분산=0’ 비율 리포트
학습 신호가 없는 샘플에 계산 낭비 제거	필터 전/후 보상 분포(올0/올1/혼합)와 난이도 히스토그램
안정성 개선(노이즈·gradient sparsity 완화)	pass@1, 정답/초 같은 제품형 지표로 안정화 효과 확인

이런 분해가 들어가면, 논문이 주장하는 “최대 2× 롤아웃 비용 절감”과 “성능 유지”가 단순한 난이도 커리큘럼 이상의 의미로 강화될 수 있습니다. 논문은 실제로 warm-up 100 steps 후 추정기가 타깃 reward 궤적을 잘 따라간다는 그림을 제시하고, 이후 필터링 비율이 안정적으로 유지된다고 보고합니다. 하지만 그 “잘 따라감”이 어떤 조건(디코딩, actor 변화 속도)에서도 유지되는지는 별도 검증이 필요합니다.

편향: 프롬프트만 보는 추정기와 “오버-필터링”의 분포 왜곡

사용자 비평의 핵심 우려는 결국 편향입니다. DEPO의 Difficulty Estimator는 질문 텍스트만 입력으로 받습니다. 이 선택은 계산을 가볍게 만들지만, 난이도(advantage)가 사실상 “질문 고정 속성”이 아니라 정책(actor) 상태 + 디코딩 설정 + 샘플 수(G) + 보상 함수의 상호작용이라는 점을 생각하면 과감한 가정입니다. 논문은 이를 완화하기 위해 (1) 추정기를 온라인으로 동기 업데이트하고, (2) actor PPL을 distillation하여 “현재 actor 기준 난이도”를 반영하려 합니다. 그럼에도 프롬프트만으로 advantage를 예측하는 구조는, actor가 빠르게 변하는 구간에서 쉽게 흔들릴 수 있습니다.

가장 위험한 편향은 “중요한 하드케이스 제거”입니다. 논문도 ranking loss 가중치를 올리면 필터 비율이 단조 증가하지만 정확도는 어느 지점에서 정점을 찍고, 그 이후에는 떨어지는 “오버-필터링” 패턴을 보여줍니다. 즉, 필터링이 공격적으로 되면 데이터 다양성이 줄고 성능이 악화된다는 사실을 스스로 인정합니다. 이건 단순한 하이퍼파라미터 민감성이 아니라, 필터링이 학습 분포를 바꾸는 구조적 효과입니다.

여기서 논문이 더 강해지려면, 편향을 “피해야 하는 위험”으로만 두지 말고 “관리 가능한 메커니즘”으로 바꿔야 합니다. 예를 들어 다음과 같은 리포트가 있으면, 독자가 DEPO를 실제 파이프라인에 넣을지 판단하기 쉬워집니다.

필터링된 샘플의 성격 분해입니다. 필터된 샘플이 대체로 “너무 쉬운 문제(올1)”인지, “너무 어려운 문제(올0)”인지, 아니면 “중간인데 운 나쁘게 균일 보상으로 나온 문제”인지 구분이 필요합니다. 논문은 “trivial or intractable”를 함께 제거한다고 서술하지만, 두 유형은 학습에서의 역할이 다릅니다. 쉬운 문제는 형식/정답 패턴을 고정하는 데 여전히 가치가 있을 수 있고, 어려운 문제는 특정 시점에서 ‘학습 전환점’을 제공하기도 합니다.

장기 일반화 영향입니다. DEPO는 수학 추론 벤치에서 Avg@32 중심으로 개선을 보고하지만, 필터링이 장기적으로 “다른 유형 문제”에서 어떻게 작동하는지는 별도 근거가 필요합니다. 특히 필터링은 학습 데이터의 난이도 분포를 바꾸므로, 도메인 전이에서 특정 유형(예: 풀이 전략이 다른 문제군)이 약해질 가능성이 있습니다.

디코딩 설정 변화에 대한 견고성입니다. 논문 평가 설정은 temperature=1, top_p=0.95, 테스트당 32 샘플 생성(Avg@32)입니다. 그런데 난이도 추정이 “advantage 예측”이라면, 샘플 수(G)와 디코딩은 난이도 자체를 바꿉니다. 같은 질문도 G가 커지면 평균 보상이 올라갈 수 있고, temperature가 낮아지면 다양성이 줄어 reward 분산이 줄 수 있습니다. 따라서 최소한 G/온도 변경에 대한 estimator의 calibration curve나 상관 유지 여부가 필요합니다.

이 편향 이슈를 더 생산적으로 확장하면, DEPO는 사실 “정답률을 올리는 알고리즘”이라기보다 “학습 자원을 어디에 쓰는지의 정책”입니다. 그렇다면 올바른 질문은 “평균 성능이 조금 오르냐”가 아니라 “원하는 능력 축을 키우도록 분포를 설계할 수 있냐”입니다. 논문은 DEPO가 데이터셋 난이도 분포에 민감하며, Open-R1(상대적으로 쉬운)이나 Nemotron-Math(상대적으로 어려운)에서는 필터 비율이 더 높게 나타난다고 관찰합니다. 이건 곧 ‘필터링이 잘 먹히는 구간’이 있다는 뜻이기도 합니다.

실천 팁으로 정리하면 다음과 같습니다.

필터링을 “고정 임계값”으로 운영하기보다, 학습 단계별로 필터 비율 상한(예: 30%→40%→50%)을 두고 점진적으로 올리는 방식이 안전합니다.

쉬운 문제(올1)와 어려운 문제(올0)를 동일하게 제거하지 말고, 목표 능력(형식 안정화 vs 새로운 추론 능력)에 따라 제거 전략을 분리하는 것이 좋습니다.

“하드케이스를 버리지 않기”가 목표라면, 필터된 일부를 낮은 비율로 재주입(replay)하는 가드레일이 필요합니다.

무엇보다 필터된 샘플의 분포(난이도/유형/보상 패턴)를 매 스텝 로그로 남겨야 편향을 통제할 수 있습니다.

검증: “추정=학습가치”를 성립시키려면 무엇을 더 보여야 하나

DEPO의 설득력이 완성되려면 검증 파트가 더 촘촘해야 합니다. 현재 논문은 (1) 추정기가 warm-up 100 steps 이후 타깃 reward를 잘 따라간다, (2) 필터링 비율이 약 50% 수준으로 유지되며, (3) 런타임에서 DAPO 대비 롤아웃 시간이 크게 줄어 총 step latency가 GRPO에 가깝다, (4) 수학 벤치에서 Avg@32 평균이 GRPO보다 약 1.5%p 개선된다고 주장합니다. 또한 ranking loss나 distill loss를 빼면 성능이 떨어진다는 ablation도 제공합니다. 이 정도면 “아이디어는 작동한다”는 수준의 검증은 갖췄다고 볼 수 있습니다.

하지만 사용자가 짚은 논점들, 즉 (1) 모델 상태/디코딩 설정 변화에 대한 추정 안정성, (2) 필터링으로 인한 분포 편향, (3) 진짜 0-variance 예측인지 단순 쉬운 문제 제거인지라는 질문은 아직 남습니다. 이 질문들을 “논문을 더 강하게 만드는 검증”으로 바꾸려면, 저는 다음의 검증 프레임이 핵심이라고 봅니다.

첫째, 정확도보다 ‘진단 정확도’를 먼저 평가해야 합니다. DEPO의 본질은 “Â=0을 맞히는 분류기”에 가깝습니다. 그러면 필터링 판단의 precision/recall이 필요합니다. 예를 들어 “실제로 0-variance였던 샘플을 얼마나 잘 걸렀는가(precision)”와 “0-variance인데 못 걸러서 롤아웃을 낭비한 비율은 얼마나 되는가(recall)” 같은 지표가 있으면, 비용 절감이 우연이 아니라 구조적임을 보여줄 수 있습니다. 논문에서 “zero-variance prompts”를 말하는 만큼, 그룹 내 reward 분산=0 비율을 필터 전/후로 직접 리포트하는 것이 결정적입니다.

둘째, 프롬프트만 보는 한계의 영향도를 계량화해야 합니다. 논문은 BERT 입력을 질문 텍스트로 한정하고, actor PPL을 distill하는 방식으로 actor 상태를 간접 반영합니다. 그렇다면 “텍스트만” vs “텍스트+간단 actor 신호(최근 reward 통계, 현재 KL, 최근 필터 비율, 또는 actor의 짧은 hidden summary)” 같은 비교를 통해, 최소한의 추가 신호가 안정성을 얼마나 올리는지 ablation을 해야 합니다. 사용자가 제안한 “추정기 입력에 actor의 간단한 신호를 추가” 실험이 바로 이 지점에서 가장 임팩트가 큽니다.

셋째, Avg@32 중심 평가의 간극을 메워야 합니다. 논문은 테스트에서 32개 샘플을 생성해 Avg@32를 주요 지표로 씁니다. 그러나 제품/에이전트 관점에서는 pass@1과 정답/초가 더 중요합니다. DEPO가 “학습 안정화”를 내세운다면, 최소한 pass@1이 얼마나 오르는지, 그리고 같은 wall-clock에서 정답률이 얼마나 개선되는지 보여야 합니다. 특히 DEPO는 롤아웃을 줄이는 방법이므로, “같은 시간에 더 많은 스텝을 돌릴 수 있는가” 또는 “같은 시간에 같은 스텝을 돌리되 더 좋은 모델이 되는가”의 형태로 제시되면 설득력이 더 커집니다.

넷째, 라우팅 확장은 흥미롭지만, 비용-성능 곡선이 필요합니다. 논문은 difficulty estimator를 라우터로 써서 1.5B와 7B를 섞는 결과를 제시하며, 임계값 τ에 따라 1.5B가 처리하는 비율(예: 27%~68%)이 달라진다고 설명합니다. 여기서 독자가 진짜 보고 싶은 것은 “τ에 따른 latency/FLOPs/정확도의 trade-off curve”입니다. 즉 라우터의 가치가 estimator의 정확도뿐 아니라 비용 모델의 정합성에 달려 있다는 점을 메인 그림으로 보여주면 좋겠습니다.

마지막으로, DEPO는 “필터링”이라는 칼날을 쓰는 만큼, 안전장치까지 제시하는 편이 더 학술적으로 성숙합니다. 예를 들어 (1) 필터 비율 상한, (2) 무작위 재주입, (3) 데이터 유형별 최소 쿼터, (4) 필터링이 강해질 때 자동 완화(오버-필터링 감지) 같은 가드레일이 있으면, “편향 위험”을 인정하면서도 실무 채택 가능성을 올릴 수 있습니다. 논문이 이미 ranking weight가 커지면 성능이 떨어지는 사실을 보여준 만큼, 그 지점을 ‘자동 튜닝/자동 완화’로 연결하는 것이 자연스러운 다음 단계입니다.

DEPO는 GRPO의 zero-variance 샘플을 롤아웃 전에 걸러 비용을 줄이는 아이디어가 실용적입니다. 다만 프롬프트만 보는 난이도 추정의 안정성, 필터링 편향, 진짜 0-variance 판별 여부를 정량 분해하고 pass@1·정답/초로 검증하면 설득력이 완성됩니다.

자주 묻는 질문 (FAQ)

Q. DEPO는 정확히 무엇을 “0-variance”라고 보나요? A. GRPO에서 한 프롬프트에 대해 샘플링한 그룹의 reward가 전부 동일(예: 모두 0 또는 모두 1)해 상대 advantage가 사라지는 경우를 문제로 정의합니다. DEPO는 이런 경우를 롤아웃 전에 예측해 필터링하려고 합니다.

Q. 난이도 추정기가 프롬프트만 보고 advantage를 맞히는 게 가능한가요?
A. 가능할 수도 있지만 가정이 강합니다. 논문은 이를 완화하려고 추정기를 온라인으로 동기 업데이트하고, actor PPL을 distill해 actor 중심 난이도를 반영합니다. 그럼에도 디코딩 설정이나 actor 상태 변화에 대한 견고성 실험이 더 있으면 좋습니다.

Q. 필터링이 “쉬운 문제만 제거”로 흐를 위험은 없나요?
A. 있습니다. 논문도 ranking loss 가중치가 커지면 필터 비율은 늘지만 성능이 어느 시점 이후 떨어지는 오버-필터링을 관찰합니다. 필터된 샘플의 보상 분포(올0/올1/혼합)와 난이도 히스토그램을 공개하면 편향을 더 명확히 관리할 수 있습니다.

Q. Avg@32 대신 pass@1로 보면 결론이 달라질 수 있나요?
A. 달라질 수 있습니다. 논문 평가는 테스트당 32개 샘플을 생성해 Avg@32를 주요 지표로 사용합니다. 제품 관점에서는 pass@1과 정답/초가 중요하므로, DEPO의 “학습 안정화” 주장도 그 지표로 함께 확인하는 것이 안전합니다.

[출처]
https://arxiv.org/html/2602.06375v1