![]() |
| 월드모델의 귀납적 편향 케플러에서 뉴턴까지 |
트랜스포머가 “물리 법칙”을 배운다는 말은 매력적이지만, 예측을 잘하는 것과 메커니즘을 이해하는 것은 다릅니다. 이 논문은 실패 원인을 세 가지 최소 편향으로 쪼개고, 편향의 조합이 케플러형(곡선맞춤)과 뉴턴형(힘 기반) 세계모형을 갈라놓는다는 관찰을 제시합니다. 저는 이 주장에 공감하면서도, 증거 설계가 더 단단해질 지점을 함께 짚어보겠습니다.
공간 매끄러움이 무너지면 ‘법칙’은 시작도 못 합니다
논문이 제일 설득력 있게 “왜 안 됐는지”를 설명하는 축은 공간 매끄러움 문제입니다. Vafa et al.(2025) 설정처럼 (x,y) 연속 좌표를 토큰으로 쪼개면, 서로 가까운 좌표라도 다른 bin에 들어가는 순간 임베딩은 무관하게 시작합니다. 논문은 이 점을 “토큰화가 공간적 매끄러움을 깨뜨린다”로 정식화하고, 실제로 공개 체크포인트 임베딩에서 선형 프로빙 R²가 x,y 각각 약 0.86 수준이라며 “부분적으로만 지도(map)가 생겼다”고 말합니다. 즉 큰 윤곽은 잡았지만, 근접성(locality)이 망가져서 원 안의 점들이 사분면별 뭉치로 찢어지는 식의 왜곡이 생긴다고 설명합니다(2절, 그림 2).여기서 사용자 비평의 강점(c)이 정확히 살아납니다. “선형 프로빙 R²로 공간지도 품질을 측정”하는 접근은, 해석 가능성과 엔지니어링 결정을 한 번에 연결합니다. 특히 논문은 1D 사인파 데이터셋으로 V(어휘 크기), D(토큰 수), N(임베딩 차원)이 공간지도 품질(1−R²)에 미치는 스케일링을 식 (1)로 제시합니다. 핵심 메시지는 단순합니다. 어휘 V를 키우면 그만큼 데이터 D가 훨씬 더 필요해지고, 임베딩 차원 N은 어느 임계값 이후에는 별 도움이 안 된다는 결론입니다. “더 큰 모델이 해결한다”가 아니라 “토큰화 설계가 병목을 만든다”는 결론이기 때문에, 실패 원인 분석으로서 날카롭습니다.
다만 사용자 비평의 비판(d)처럼, “선형 공간지도 R²=0.86이 불충분하니 법칙을 못 배운다”는 논증은 조심스럽게 다뤄야 합니다. 논문도 비선형적으로 지도를 저장할 가능성을 언급합니다. 그렇다면 R²는 ‘원인’이 아니라 ‘표지판’일 수 있습니다. 이 지점을 단단하게 하려면, 공간지도 품질이 실제로 “거리 r 또는 1/r² 계산 실패”로 이어진다는 직접 연결이 필요합니다. 흥미롭게도 논문은 부록에서 뉴턴 관련 프로빙 타깃으로 r, 1/r, 1/r², 1/r³ 등을 열거합니다(부록 C.2). 이 강점을 본문 스토리로 끌어올리면 더 좋아집니다. 예를 들어 “공간지도 R²가 낮을 때 r/1/r² 디코딩이 함께 무너진다” 또는 “r 디코딩이 좋아져야만 Fx,Fy 디코딩이 안정적으로 올라간다” 같은 연쇄를 보여주면, ‘선형 지도’가 해석 편의가 아니라 핵심 메커니즘임을 더 설득할 수 있습니다.
또 하나 중요한 포인트는, 논문이 공간 매끄러움의 해결책을 두 갈래로 제시한다는 점입니다. (1) 토큰화를 유지하되 V를 줄여 공간지도 emergent를 돕거나, (2) 아예 연속 좌표 회귀로 가서 “입력 자체에 공간 매끄러움이 포함되게” 만드는 선택입니다(2절 정리). 여기서 저는 (2)가 메시지적으로 더 강하다고 봅니다. 왜냐하면 ‘법칙 학습’의 이야기에서 가장 취약한 고리는 “좌표가 의미를 잃는 표현”인데, 회귀는 그 고리를 처음부터 제거하기 때문입니다. 다만 회귀는 곧바로 다음 문제(오차 누적)로 넘어갑니다. 논문이 ‘세 가지 최소 편향’으로 구조화한 이유가 여기서 드러납니다.
| 최소 편향 | 고치는 실패 모드 |
|---|---|
| 공간 매끄러움 | 토큰화로 근접 좌표가 무관해져 공간지도와 거리 계산이 약해지는 문제 |
| 공간 안정성 | 연속값 회귀에서 오차가 누적되어 궤도가 붕괴하는 문제 |
| 시간 국소성 | 긴 컨텍스트가 ‘전역 곡선맞춤(케플러)’로 수렴해 힘 기반(뉴턴) 표현이 약해지는 문제 |
국소성은 ‘법칙을 발견’하게도, ‘가설공간을 강제’하게도 합니다
논문의 하이라이트는 컨텍스트 길이가 세계모형의 종류를 바꾼다는 관찰입니다. 논문은 케플러형을 “긴 컨텍스트로 과거 점들을 이용해 타원(반장축 a, 반단축 b, Laplace–Runge–Lenz vector A⃗ 등) 파라미터를 맞추고 다음 점을 곡선 연장으로 예측하는 전역 기하 모델”로 설명합니다. 반대로 뉴턴형은 “최근 두 시점만으로 중력 힘(F, Fx, Fy)을 계산하고, 2차 미분방정식 관점에서 다음 상태를 ‘국소 동역학’으로 전개하는 모델”로 설명합니다(그림 1, 4절, 그림 6). 그리고 실험적으로 컨텍스트 길이 100에서는 타원 파라미터가 R²≈0.998로 잘 디코딩되고, 컨텍스트 길이 2에서는 힘 변수가 R²≈0.999로 아주 잘 디코딩된다고 보고합니다. “상전이”라는 표현이 과장이 아닌 이유는, 컨텍스트 길이를 연속적으로 바꾸면 케플러 점수와 뉴턴 점수가 단조롭게 교차하는 전이가 나타난다고 추가로 보여주기 때문입니다(부록 C.1, 그림 10).하지만 사용자 비평의 비판(b)이 지적하듯, “컨텍스트 길이=2”는 너무 극단적일 수 있습니다. 논문도 동기 자체는 설득력 있게 제시합니다. 뉴턴 역학은 2차 동역학이므로 충분히 작은 Δt에서 다음 상태는 직전 두 상태에만 의존한다는 설명입니다(4절 도입). 문제는 ‘물리 이론’과 ‘학습 환경’이 다르다는 점입니다. 데이터 노이즈, 수치적분 오차, 모델 오차가 존재하면, 2개 시점만 남기면 오히려 불안정해질 수도 있습니다. 실제로 논문은 긴 컨텍스트가 예측 오차(Mean distance error)를 줄인다고도 보고합니다(그림 6(d)). 즉 “뉴턴형이 더 과학적이지만, 케플러형이 장기 예측에는 더 강하다”는 긴장이 이미 결과 안에 들어 있습니다.
그래서 저는 이 논문의 메시지를 이렇게 재정렬하는 편이 더 안전하다고 봅니다. “편향이 법칙을 끌어낸다”는 문장만 남기면 ‘AI scientist’ 뉘앙스가 과장으로 읽힐 수 있습니다. 대신 “편향은 학습 가능한 가설공간을 바꾸고, 그 가설공간의 어떤 단순 설명이 선택되게 만든다”로 말하면 논리 부담이 줄어듭니다. 이 재정렬은 논문 결론과도 잘 맞습니다. 논문은 예측이 충분조건이 아니며, 단순한 불변 법칙(F=ma 같은) 발견이 ‘진짜 이해’라고 주장하면서도, 동시에 ‘케플러형은 예측은 잘하지만 메커니즘은 아니다’라는 대비를 강조합니다(5절). 여기서 “국소성 편향”은 ‘법칙을 스스로 발명했다’기보다는 ‘곡선맞춤을 하기 어려운 상황을 만들어 힘 기반 표현이 더 유리해진다’는 쪽으로 읽는 것이, 리뷰어 관점에서도 더 견고합니다.
또 하나, 사용자 비평의 비판(c)처럼 베이스라인 비교가 제한적이라는 점도 이 파트에서 중요합니다. 논문 처방은 “토큰화→회귀 + noisy context”와 “컨텍스트를 짧게”가 핵심인데, 실제 물리 시계열 세계에는 중간 옵션이 많습니다. 예를 들어 (1) 연속 좌표 입력을 유지하되 Δt를 여러 단계로 예측하는 다중 스텝 학습, (2) state-space 모델이나 Neural ODE류, (3) 에너지/각운동량 보존 정규화, (4) 상대좌표/극좌표 입력, (5) 슬라이딩 윈도 attention으로 ‘국소성’을 구현하는 방법 등이 있습니다. 논문이 “세 가지 최소 편향”을 주장하려면, 최소한 “국소성=truncate(길이 2)”만이 아니라 “국소성=제한된 창”이나 “국소성=구조적 토큰(속도 추정)” 같은 대안에서도 동일한 케플러↔뉴턴 전이가 나타나는지를 보여주는 편이 메시지를 훨씬 단단하게 만듭니다. 이건 사용자 비평이 제안한 “대안적 국소성 구현” 실험과 정확히 일치합니다.
프로브는 증거의 시작이지 결론이 아닙니다
사용자 비평의 핵심 비판(a)은 이 논문의 가장 큰 설득 리스크를 정확히 찌릅니다. 논문도 Limitations에서 “우리는 선형 프로브로 세계모형의 존재를 검증했지만, 이것은 암묵적 지식이며 방정식을 명시적으로 출력하지 않는다”라고 인정합니다. 또한 “프로빙은 우리가 무엇을 찾을지 미리 알아야 한다”는 한계도 언급합니다. 즉 논문 스스로가 ‘프로브=증거의 전부’가 될 수 없음을 고백합니다.그럼에도 독자가 “뉴턴을 배웠다”라는 문장을 받아들이려면, 프로브를 넘어서는 조작적 개입 증거가 필요합니다. 여기서 중요한 구분이 있습니다. “표현이 존재한다”와 “그 표현이 예측에 필수로 쓰인다”는 다릅니다. 선형 디코딩 R²≈0.999는 전자에 강하지만, 후자에는 약합니다. 따라서 논문이 더 강해지려면 다음의 ‘필수성 테스트’를 붙이는 게 좋습니다.
첫째, 개입(패칭/어블레이션) 실험입니다. 논문은 힘 변수를 프로빙할 때 attention/MLP 블록 입력·출력, residual merge 전후, MLP 내부 hidden까지 폭넓게 스캔했다고 말합니다(4절). 이 장점은 그대로 개입 실험으로 확장할 수 있습니다. 예컨대 “Fx,Fy 디코딩이 가장 높은 레이어/헤드”를 찾은 뒤, 그 부분을 패치하거나 마스킹했을 때 (1) 예측 오차가 얼마나 악화되는지, (2) 케플러형 파라미터(a,b,A⃗)로의 ‘대체 디코딩’이 생기는지, (3) 오차가 OOD에서 더 크게 폭발하는지를 보면, ‘curve-fitter vs physicist’ 대비가 선언이 아니라 결과가 됩니다. 사용자 비평이 요구한 “causal intervention”이 여기입니다.
둘째, 구성적 증명에 가까운 실험입니다. 논문이 주장하는 뉴턴형은 “힘을 계산하고 방정식을 시뮬레이션한다”는 그림입니다(그림 1). 그렇다면 모델 내부에서 readout한 힘(Fx,Fy)을 바깥으로 꺼내 수치적분을 돌렸을 때, 실제 궤도가 얼마나 재현되는지를 보여주면 강력합니다. 이 실험은 프로브가 “해석 도구”에 그치지 않고 “기능적 모듈”로 확인되는 순간입니다. 논문이 이미 Kepler dataset 생성 과정을 식 (2)로 설명하고, 궤도는 solve_ivp로 적분했다고 적어둔 만큼(3절 데이터셋 정의), 동일한 적분기를 재사용해도 됩니다.
셋째, OOD 테스트의 체계화입니다. 논문은 “메커니즘 이해가 radical OOD 일반화의 전제”라고 주장하지만, 본 실험은 그 결론을 충분히 받쳐주기엔 약하다는 지적이 가능합니다(5절 논의). 사용자가 제안한 것처럼 이심률/반장축/GM 변화, 약한 3-body perturbation 같은 설정에서 케플러형(전역 타원맞춤)과 뉴턴형(국소 힘 기반)의 붕괴 양상을 비교하면, “왜 뉴턴이 과학자인가”가 한 번에 설득됩니다. 특히 케플러형은 훈련 분포 내의 타원 가족에 강하지만, 질적으로 다른 힘 법칙이나 외란이 들어오면 급격히 무너질 가능성이 큽니다. 이 대비를 실험으로 보여주는 순간, ‘AI scientist’ 뉘앙스도 과장이 아니라 검증 가능한 주장으로 바뀝니다.
마지막으로, 공간 매끄러움 비판(d)과 프로브 비판(a)를 동시에 해결하는 방법이 있습니다. 논문 부록 C.2는 이미 r, 1/r² 등 “힘 계산의 중간 변수”를 프로빙 타깃으로 포함합니다. 그러면 다음의 연결고리를 본문에서 명시할 수 있습니다. (1) 좋은 공간지도(또는 연속 좌표)가 있어야 r 디코딩이 쉬워지고, (2) r 디코딩이 좋아져야 1/r² 및 Fx,Fy 디코딩이 안정화되며, (3) 그 표현이 예측에 ‘필수’임을 개입 실험으로 확인한다는 3단 논증입니다. 이렇게 되면 “선형 프로브 의존”이라는 약점이 “단계별 메커니즘 검증”으로 전환됩니다.
이 논문은 이미 스토리텔링 장치(그림 1 비주얼 초록, 케플러=곡선맞춤 vs 뉴턴=기계적 이해)를 훌륭하게 갖추고 있습니다. 이제 남은 과제는 스토리를 ‘증거의 사슬’로 강화하는 것입니다. 프로브를 넘어서 필수성·구성·일반화를 보여주면, “최소 편향”이라는 제목이 진짜로 빛나게 됩니다.
결국 이 논문의 강점은 실패를 공간 매끄러움·공간 안정성(오차 누적)·시간 국소성(긴 컨텍스트)으로 분해해 처방을 제시한 구성력입니다. 그러나 “뉴턴을 배웠다”는 결론은 선형 프로브 R²만으로는 과해 보일 수 있고, 컨텍스트 길이 2의 극단성·제한된 베이스라인·OOD 증거 부족이 설득을 약화시킵니다. 그래서 개입 실험과 OOD 비교, 국소성의 대안 구현까지 더하면 논문 메시지가 훨씬 단단해진다고 정리할 수 있습니다.
자주 묻는 질문 (FAQ)
Q. 논문이 말하는 “세 가지 최소 편향”은 무엇입니까 A. 공간 매끄러움(토큰화로 깨지는 근접성), 공간 안정성(회귀에서 오차 누적을 noisy context로 완화), 시간 국소성(긴 컨텍스트 대신 최근 과거에만 의존하도록 제한)입니다. 이 세 가지가 각각 실패 모드를 분해해 고친다는 구성이 핵심입니다.Q. 컨텍스트를 짧게 하면 왜 뉴턴형이 된다고 합니까
A. 논문은 뉴턴 역학이 2차 동역학이므로 다음 상태가 직전 두 상태에 의존한다는 점을 근거로, 컨텍스트 길이를 2로 제한하면 전역 타원맞춤(케플러)보다 국소 힘 표현(뉴턴)이 유리해진다고 주장합니다. 실제로 힘(F, Fx, Fy) 프로빙 R²가 컨텍스트 길이 2에서 매우 높게 나온다고 보고합니다.
Q. 선형 프로브 R²가 높으면 정말 “법칙을 계산”한다고 봐도 됩니까
A. 높다고 해서 충분하다고 보긴 어렵습니다. R²는 “표현이 읽힌다”를 보여주지만, 그 표현이 예측에 필수로 쓰이는지까지 증명하진 못합니다. 그래서 특정 레이어/헤드 패칭 같은 개입 실험, 내부 힘을 readout해 외부 수치적분으로 궤도를 재현하는 구성적 검증, 그리고 OOD 테스트가 함께 제시되면 결론이 훨씬 강해집니다.
[출처]
From Kepler to Newton: Inductive Biases Guide Learned World Models in Transformers (https://arxiv.org/html/2602.06923v1

0 댓글