지저분한 데이터도 프리트레이닝에 쓰는 법(토큰화 관점)

노이즈 많은 실제 코퍼스를 “정제해서 버리는 문제”로만 보면, 남는 건 비용과 데이터 손실입니다. QA-Token은 문제를 아예 토크나이저 설계로 끌어올려, 빈도 기반 BPE가 품질 이질성을 무시해 노이즈를 학습한다는 구조적 원인을 겨냥합니다. 다만 품질 신호의 편향, RL 재현성, 비교 공정성은 함께 따져야 합니다.

품질 신호를 토크나이저 목적함수로 바꾼 점

이 논문이 가장 잘한 지점은, 문제 정의가 “데이터 클리닝”이 아니라 “토크나이저 최적화”로 잡혀 있다는 점입니다. 기존 BPE/WordPiece/SentencePiece 류 토크나이저는 빈도 통계가 의미적 중요도와 상관한다고 가정하며, 실제로는 그 가정이 깨지는 도메인을 정면으로 다루지 못했습니다. 그런데 이 논문은 “데이터 품질이 위치/구간/상황에 따라 크게 달라지는 코퍼스”를 전제로 합니다. 예컨대 genomics에서는 시퀀싱 오류가 구간별로 다르고, finance에서는 market microstructure noise가 데이터의 상당 부분을 오염시킨다고 문제를 서술합니다. 그래서 빈도 기반 토큰이 ‘잘 나타나는 노이즈 패턴’을 그대로 학습해버리는 현상을 토크나이저 단계에서 막아야 한다는 방향이 명확합니다.

이 문제를 형식화한 방식도 깔끔합니다. 토크나이저 T를 찾는 목적을 단일 지표가 아니라, (1) 다운스트림 성능(LLM(T)), (2) vocabulary 복잡도 패널티 Φ(V), (3) 신뢰도 보상 Q(V,Z)의 균형으로 두고, 이를 bilevel optimization으로 제시합니다. 즉 “토큰을 어떻게 만들지”가 곧 “모델이 어떤 데이터 통계를 보게 할지”를 정하는 인터페이스라는 선언입니다. 특히 Q(V,Z)에서 각 토큰 품질 qt를 concave 함수 g(x)=(x+ϵQ)^α로 집계하고, α∈(0,1]을 “품질 민감도”로 둔 점이 실전적입니다. 품질이 높은 것끼리만 무한정 합친다고 무조건 이득이 되는 게 아니라, 체감 효과가 있다는 도메인 직관을 함수 형태로 박아 둔 셈입니다.

도메인별 품질 정의도 “토크나이저가 왜 그 도메인에서 의미가 있는지”를 보여주는 역할을 합니다. Genomics에서는 Phred score에 위치 감쇠를 곱하고(q′=q·exp(-βpos·j/L)), 토큰 품질을 기하평균으로 집계해 “낮은 품질 한 글자가 토큰 전체를 망친다”는 성질을 반영합니다. Finance에서는 liquidity/signal/stability/information의 네 축을 가중합으로 구성해 ‘가법적 노이즈’ 직관을 반영합니다. 즉, 품질은 추상 개념이 아니라 “토큰이 묶일 때 어떤 구간을 신뢰해야 하는가”를 수치화한 설계입니다.

하지만 사용자의 비판처럼, 여기서 곧장 리스크가 생깁니다. ‘품질(q)’이 사실상 강한 감독 신호가 될 수 있다는 점입니다. 논문은 “노이즈 억제”로 포장하지만, q가 특정 도메인에서 “좋은 패턴”을 사실상 강제하면 성능 향상이 노이즈 강건성이라기보다 귀납 편향 주입일 수도 있습니다. 특히 foundation-scale에서 genomics 품질에 conservation/GC deviation/secondary structure confidence까지 섞는다고 명시하는데, 이건 토크나이저가 생물학적 단위(모티프/코돈 등)에 더 민감하게 묶이도록 유도할 가능성이 있습니다. 장점이면서 동시에 ‘일반화 리스크’입니다.

그래서 저는 이 논문의 핵심 주장을 “데이터를 깨끗하게 만든다”가 아니라 “노이즈 코퍼스에서 토큰이 학습 신호를 증폭/감쇠하는 첫 관문이다”로 해석하는 편이 더 안전하다고 봅니다. 즉 QA-Token의 가치는 ‘클리닝 대체’가 아니라, 학습 신호의 스펙트럼을 토크나이저 레벨에서 조절하는 도구라는 점에 있습니다.

논문이 바꾼 관점	실무에서 생기는 질문
데이터 클리닝 → 토크나이저 최적화	노이즈가 많은 구간을 “버릴지/묶지 않을지”를 토큰이 결정합니다
빈도(PMI) 중심 → PMI×품질×제약	품질(q)이 편향이 되지 않게 ‘교란 실험’이 필요합니다
토큰=전처리 → 토큰=학습 신호 제어	예산 고정 기준(steps/FLOPs/raw bytes)을 선명히 해야 공정합니다

RL을 섞은 이유와, RL이 만드는 위험을 같이 보는 법

두 번째 키워드인 RL은 이 논문이 “현실적인 계산 제약”을 어떻게 다루는지 보여줍니다. 저자들은 bilevel 문제가 NP-hard라고 못 박고, 그리디와 학습을 섞은 2-stage를 제안합니다. 핵심 아이디어는 이렇습니다. 먼저 토큰 병합을 한 번에 최적화하려 하지 말고, 각 merge를 고르는 정책을 학습하는 MDP로 바꿉니다. 상태는 현재 vocabulary와 통계, 행동은 (a,b) 병합 선택, 전이는 deterministic vocabulary 업데이트, 보상은 품질/정보/복잡도/도메인 요소를 섞은 multi-objective reward로 둡니다. 그리고 PPO로 merge policy를 학습합니다.

이 구성은 사용자가 말한 대로 “NP-hard한 bilevel을 현실적으로 풀겠다”는 입장으로 읽힙니다. 실제로 논문은 RL이 없는 그리디(wab 기반 greedy) 대비 성능 차이를 ablation으로 보여줍니다. genomics 변이 탐지(Variant F1)에서 풀 모델 QA-BPE-seq가 0.891인데, w/o RL(그리디 wab)은 0.862로 떨어집니다. 또한 w/o Quality(RQ=0)는 0.825로 더 크게 떨어져 “품질 항” 자체가 큰 기여를 한다는 점도 같이 보여줍니다. 즉, RL은 ‘핵심 원인’이라기보다 품질-aware 목적을 더 잘 만족하는 병합 순서를 찾는 촉진제로 제시됩니다.

그럼에도 RL은 즉시 3가지 리스크를 데려옵니다.

첫째, 재현성과 안정성입니다. 논문은 reward를 EMA로 정규화해 스케일 안정성을 보장한다고 설명하지만, PPO는 하이퍼파라미터와 시드에 민감할 수 있습니다. “수렴 보장”이 서술되어도, 실무자는 ‘내 데이터/내 품질 함수/내 제약 ψ’에서 동일하게 잘 돌아갈지 불안해합니다.

둘째, 베이스라인 공정성입니다. RL을 쓰면 “그리디 대비 성능이 올랐다”가 쉽게 보이지만, 그리디가 충분히 튜닝된 그리디인지(α를 어떻게 학습했는지, ψ를 어떻게 뒀는지), 그리고 RL이 얻는 이득이 어느 조건에서만 나타나는지(노이즈 강도/코퍼스 크기/다운스트림 민감도)에 대한 해석이 필요합니다. 논문은 ablation을 제공하지만, 사용자가 제안한 것처럼 “언제 RL이 필수인지”를 phase diagram처럼 보여주면 훨씬 설득력이 커집니다.

셋째, 해석 가능성입니다. 토크나이저는 한 번 만들면 장기적으로 쓰는 인프라입니다. 그래서 “RL 정책이 그리디 대비 어떤 merge를 더/덜 선택했는지”가 중요합니다. 예컨대 RL이 low-q 영역을 더 회피했는지, 특정 길이의 토큰을 더 선호했는지, 도메인 제약 ψ가 실제로 어떤 형태의 vocabulary를 만든 건지 같은 분석이 있어야 실무자는 안심합니다. 논문은 genomics에서 emergent vocabulary가 biological units와 정렬된다고 말하지만, 그 정렬이 품질 신호의 감독 효과인지 노이즈 억제의 결과인지 분해해 보여주는 게 다음 단계입니다.

제가 이 논문을 기반으로 실무 적용을 설계한다면, RL 채택 여부를 다음 체크리스트로 결정합니다.

코퍼스 노이즈가 “구간별 이질성”을 가지는가(예: 특정 구간만 오류율 급증, 특정 이벤트만 미세구조 노이즈 급증)입니다. 이질성이 크면 품질-aware 병합 순서 탐색 가치가 큽니다.

그리디 wab만으로도 충분히 안정적으로 이득이 나는가를 먼저 확인합니다. w/o RL이 거의 안 떨어진다면 RL은 비용만 늘립니다.

RL을 쓰기로 했다면, seed 분산과 정책 안정성(선택된 토큰 분포의 변동)을 함께 보고, vocabulary가 바뀌어도 다운스트림이 유지되는지(robustness)를 확인해야 합니다.

공정성 논쟁을 피하려면 ‘예산 고정 기준’을 먼저 못 박아야 함

세 번째 키워드 공정성은 이 논문의 채택 논쟁이 생길 만한 지점입니다. QA-Token은 foundation-scale에서도 성능 향상을 보고하면서 동시에 “토큰 수 15% 감소”를 강조합니다. METAGENE-1을 재토크나이즈했을 때 15% 토큰 감소가 있고, 병원체 탐지에서 94.53 MCC를 달성하며 기존 METAGENE-1 대비 평균 +1.6 MCC 개선을 보고합니다.

문제는 사용자가 지적했듯, 토큰 감소는 단순히 ‘좋은 토크나이저’가 아니라 학습 예산 재배치와 얽힙니다. 무엇을 고정하느냐에 따라 해석이 달라집니다.

step 고정이면, 토큰이 줄어든 토크나이저는 같은 step에 더 많은 raw bytes를 처리할 수 있어 유리합니다.

raw bytes 고정이면, 토큰이 줄어든 토크나이저는 더 적은 optimization steps로 같은 데이터를 소비하게 되어 학습 dynamics가 달라질 수 있습니다.

FLOPs 고정이면, 토큰 감소가 바로 계산 절감 또는 더 큰 모델/더 긴 컨텍스트로 재투자되는 효과를 만듭니다.

논문은 “동일 raw data exposure(1.7T base pairs)를 처리했다”는 프레이밍과, step-matched 실험도 했다고 언급하며(같은 steps에서 QA-BPE-seq가 더 많은 raw data를 처리) 일종의 양면 관점을 제공합니다. 하지만 독자가 핵심 결과표를 볼 때 어떤 기준이 기본인지가 더 선명하게 박혀 있어야 논쟁이 줄어듭니다. 저는 최소한 메인 결과를 3행으로 동시에 제시하는 것이 좋다고 봅니다.

FLOPs 고정 결과

steps 고정 결과

raw bytes 고정 결과
이렇게 고정 기준 3종을 동시에 보여주면, “토큰 감소가 만든 계산 이득”과 “토크나이저가 만든 표현 이득”을 분리해 해석할 수 있습니다.

또 하나의 공정성 축은 비용 대비 채택 경계입니다. 논문은 vocabulary construction에 50–60 GPU-hours가 든다고 명시하며, 이는 BPE 대비 훨씬 크지만 일회성이고 추론 오버헤드는 없다고 주장합니다(토크나이징 속도는 동일, 품질 메트릭은 구축 단계에서만 사용). 이 설명은 맞지만, 실무 팀은 “언제 이 비용을 낼 가치가 있는가”를 더 구체적으로 원합니다. 그래서 사용자가 제안한 ‘phase diagram’이 결정적으로 중요합니다. 저는 이를 다음 3축으로 정리해 제안합니다.

노이즈 강도(에러율/오염 비율/마이크로스트럭처 노이즈 비중)

코퍼스 규모(토크나이저 비용을 amortize할 수 있는가)

다운스트림 민감도(토큰 품질 개선이 성능에 얼마나 크게 반영되는가)

이 논문 자체 결과에서도 힌트가 있습니다. genomics에서는 Variant F1이 BPE 0.824 대비 QA-BPE-seq 0.891로 +6.7pp 개선되고, finance에서는 Sharpe ratio가 BPE 1.32 대비 1.72로 약 30% 개선됩니다. 이런 큰 격차는 “노이즈가 구조적으로 큰 도메인”에서 토크나이저 개선이 실제로 큰 이득을 준다는 신호입니다. 반대로 깨끗한 텍스트 코퍼스에서는 이득이 작을 가능성이 큽니다. 논문도 “clean datasets에서는 standard BPE가 더 실용적일 수 있다”고 적습니다.

마지막으로, 도메인 확장 메시지는 아직 ‘가능성’으로 읽는 편이 안전합니다. 논문은 의료/위성/센서 등으로의 확장을 언급하지만, 실험은 주로 genomics/finance에 집중되어 있습니다. 그래서 “텍스트 노이즈(오타/스팸/ASR 노이즈)” 같은 NLP 친화 도메인을 1개만 추가해도 ‘범용성’ 메시지가 훨씬 단단해집니다. 특히 텍스트는 품질 메트릭 설계가 까다로워(정답 라벨 없이 q를 만들기 어렵고, q가 곧 스타일 편향이 될 수 있음) 오히려 QA-Token의 한계를 보여주는 데도 유용합니다.

실전 적용을 위한 행동 팁을 체크리스트로 정리하면 다음과 같습니다.

품질 q는 “좋은 패턴 유도”가 될 수 있으니, q를 의도적으로 섞거나 뒤집는 교란 실험으로 인과를 확인해야 합니다.

노이즈 강도 스윕(에러율/오염 비율)을 넣어 QA-Token이 이득인 구간을 그림으로 제시해야 팀 합의가 빨라집니다.

예산 고정 기준(FLOPs/steps/raw bytes)을 메인 결과에서 명시해야 공정성 논쟁을 피할 수 있습니다.

RL은 ‘항상’이 아니라 ‘필요할 때만’입니다. 먼저 greedy wab로 이득을 확인하고, 그 다음 RL로 추가 이득이 있는지 단계적으로 가는 편이 안전합니다.

QA-Token은 노이즈 코퍼스 문제를 클리닝이 아니라 토크나이저 목적함수(성능·복잡도·신뢰도)로 재정의한 점이 강점입니다. 다만 q가 감독 편향이 되는지, RL이 언제 필요한지, 예산 고정 기준을 어떻게 두는지가 공정성의 핵심이며, 교란·스윕·3종 예산 비교가 보강되면 설득력이 커집니다.

자주 묻는 질문 (FAQ)

Q. QA-Token의 핵심은 “노이즈 제거”인가요? A. 제거라기보다 “토큰 병합이 학습 신호를 어떻게 통과시키는지”를 최적화하는 접근입니다. 빈도 기반 토큰이 품질 이질성을 무시하는 문제를 목적함수에 신뢰도 보상으로 넣어 다룹니다.

Q. 품질(q)이 편향(감독 신호)일 수 있다는 말은 무슨 뜻인가요?
A. q가 특정 패턴을 “좋다”고 강하게 정의하면, 성능 향상이 노이즈 강건성이라기보다 ‘좋은 영역을 더 보게 강제한 결과’일 수 있습니다. q를 일부러 잘못 주거나 섞는 교란 실험으로 인과를 확인하는 것이 중요합니다.

Q. RL(PPO)은 꼭 필요한가요?
A. 논문 ablation에서 RL을 제거한 그리디(wab) 대비 성능이 떨어지긴 하지만, 항상 필수라고 단정하긴 어렵습니다. 코퍼스 노이즈 이질성이 크고 그리디가 병합 순서를 잘 못 찾을 때 RL 이득이 커질 가능성이 있어, 노이즈 강도/데이터 규모별로 “언제 RL이 이득인지”를 보여주는 분석이 보강되면 좋습니다.

Q. “토큰 15% 감소” 성과는 공정하게 해석하려면 어떻게 봐야 하나요?
A. 무엇을 고정했는지(steps/FLOPs/raw bytes)에 따라 해석이 달라집니다. 논문은 raw data exposure 동일과 step-matched 관점을 함께 언급하므로, 메인 결과에서 3종 예산 고정 비교를 동시에 제시하면 공정성 논쟁을 크게 줄일 수 있습니다.

[출처]
https://arxiv.org/html/2602.06394v1

지저분한 데이터도 프리트레이닝에 쓰는 법(토큰화 관점)

품질 신호를 토크나이저 목적함수로 바꾼 점

RL을 섞은 이유와, RL이 만드는 위험을 같이 보는 법

공정성 논쟁을 피하려면 ‘예산 고정 기준’을 먼저 못 박아야 함

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

프로필