| LLM은 합리적 선택을 일관되게 할까 |
LLM이 “확률을 안다”고 말하는 시대이지만, 더 중요한 질문은 그 숫자가 실제 선택을 움직이느냐입니다. 2602.06286v1은 캘리브레이션·정확도 논쟁을 넘어, 확률 발화를 행동으로 검증하는 반증형 테스트를 제시합니다. 다만 실험 설계가 만든 가짜 위반과 프롬프트 정보 누수 가능성까지 함께 통제해야 결론이 더 단단해집니다.
‘확률’이 선택을 구동한다는 말, 무엇을 어떻게 증명하려 했나
이 논문의 핵심 미덕은 “확률의 진정성”을 정면으로 묻는 방식이 정확하다는 점입니다. 저자들은 LLM이 숫자 확률을 잘 맞히는지(정확도), 확률이 빈도와 맞는지(캘리브레이션)와 별개로, “말한 확률이 실제 의사결정의 충분한 요약(statistic)인가”를 따로 검증해야 한다고 출발합니다. 그래서 같은 임상 근거 x를 주고, (1) 질병 상태 θ가 1일 확률 p(x)=PE(θ=1|x)을 먼저 묻고, (2) 다른 컨텍스트 창에서 같은 x로 행동 a(진단 Yes/No/Defer)를 묻는 2단계 수집을 합니다. 이때 Defer를 독립된 행동으로 취급하고 비용이 있는 선택으로 둡니다.방법론적으로도 ‘겸손한 주장’이 설득력을 줍니다. 논문은 “LLM이 진짜 믿음을 가진다”를 증명하려 하지 않고, 오히려 특정 패턴이 관측되면 “어떤 합리적 행위자도 그 확률을 ‘자기 신념’으로 두고는 같은 행동을 할 수 없다”는 반증(falsification) 조건을 세웁니다. 즉, 성공하면 믿음을 증명하는 것이 아니라, 실패하면 최소한 “그 확률 출력은 합리적 신념으로 해석되기 어렵다”라고 말할 수 있는 구조입니다.
이 프레임을 가능하게 한 장치가 Random Utility Model(Definition 3.1)과 PT-RUM(Definition 3.2)입니다. 단순 expected utility만 고집하면 현실의 위험회피·손실회피를 전부 “비합리”로 몰 위험이 있는데, 저자들은 prospect theory의 확률 가중 w를 허용하고(단조 증가), 행동 잡음 ε까지 넣어(행동 변동성) “너무 빡센 합리성”을 완화합니다. 그럼에도 깨지면, 더 강한 반증이 됩니다.
다만 사용자 비평처럼, 이 세팅은 동시에 “유틸리티를 모른다”는 장점이 해석 폭을 제한하기도 합니다. 의료 의사결정에서 Defer는 단순한 중간 선택지가 아니라 책임 회피, 추가검사 유도, 불확실성 비용 등 복합 유틸리티가 얹히기 쉬운 행동입니다. 그러면 논문이 관측한 일부 위반이 ‘비합리’라기보다 “유틸리티 구조가 복잡한데 우리는 그걸 끝까지 모른다”에서 오는 자연스러운 변동일 가능성도 남습니다. 즉, 논문이 내세우는 최소주의는 장점이지만, 최소주의만으로 결론을 강하게 밀어붙일 때는 “가능한 주장 범위”를 더 명시적으로 경계하는 편이 안전합니다.
| 논문이 겨냥한 질문 | 사용자 비평 기반 보완 포인트 |
|---|---|
| 말한 확률 p가 행동 a를 구동하는가 | p가 ‘거친 요약’이면 θ 신호가 남아도 이상하지 않으므로 표현·요약의 해상도 통제가 필요합니다 |
| 유틸리티를 몰라도 성립하는 제약으로 검증 가능한가 | Defer처럼 유틸리티 민감 행동은 별도 모델링 없으면 “위반=비합리” 해석이 과해질 수 있습니다 |
| 반증형 테스트로 ‘믿음’ 개념을 다룰 수 있는가 | 프롬프트·평가 파이프라인이 정보를 새게 하면 “모델이 θ를 안다”와 구분이 어려우므로 누수 통제가 핵심입니다 |
이 논문을 읽는 가장 생산적인 태도는, “확률을 말하게 한 뒤 그 숫자가 행동을 설명하는지 확인하는 검증 패턴”을 하나의 안전장치로 받아들이는 것입니다. 즉, 캘리브레이션만 보고 ‘믿을 만하다’고 결론 내리는 습관을 끊게 만드는 도구로서 가치가 큽니다.
조건부독립 위반, ‘모델이 θ를 더 안다’가 아니라 ‘실험이 깨뜨린다’일 수도 있습니다
사용자 비평의 가장 날카로운 지점은 Proposition 3.3의 조건부독립(conditional independence) 위반 해석입니다. 논문의 핵심 주장은 간단합니다. 합리적 행위자라면 “자기 신념” PS(θ|x)을 조건화했을 때 행동 a와 실제 결과 θ는 독립이어야 합니다(a ⟂ θ | PS(θ|x)). 반대로, 관측된 p=PE(θ|x)를 조건화한 뒤에도 a와 θ가 독립이 아니라면(a ⟂̸ θ | PE(θ|x)), 그 p를 자기 신념으로 두는 어떤 Random Utility Model 또는 PT-RUM 행위자도 같은 행동을 만들어낼 수 없다는 반증입니다.문제는 이 반증이 성립하려면 “행동 잡음 ε가 (x,θ,p)와 독립”이라는 가정이 필요하다는 점입니다. 논문은 Definition 3.1/3.2에서 {εa} ⟂ (x,θ,PS(θ|x))를 명시합니다. 그런데 LLM에서는 이 독립성이 쉽게 무너질 수 있습니다. 예를 들어, 텍스트 템플릿의 미세한 표현 차이, 데이터 생성 과정의 규칙성, 혹은 질문 순서·서술 방식이 θ와 상관된 신호를 은근히 포함하면, ε는 더 이상 ‘외생적 잡음’이 아니라 프롬프트/표현에 종속된 잡음이 됩니다. 그러면 p를 조건화해도 θ가 남는 현상은 “모델이 θ를 숨겼다”가 아니라 “실험 설계가 ε 독립을 깨뜨렸다”로도 설명됩니다.
논문도 이를 의식해, 단순히 A∼p vs A∼(p,θ) 비교만 하지 않고, 컨텍스트 벡터 x를 명시적으로 조건화한 A∼(p,x) vs A∼(p,x,θ) 비교를 추가합니다. 그럼에도 θ를 넣었을 때 성능 개선이 유의미한 케이스가 대부분(12/16) 남았다고 보고합니다. 이 결과는 “p가 decision-sufficient(결정-충분)하지 않다”는 방향의 증거이지만, 동시에 사용자 비평처럼 또 다른 해석도 가능합니다. 즉, p가 너무 거칠게 요약된 값이라면, (p,x)를 줘도 모델 행동의 미세한 분기(특히 Defer 포함)를 설명하기에 정보가 부족해서 θ가 추가 예측력을 가질 수 있습니다. ‘충분통계’가 되려면 p가 단일 숫자여야 한다는 법은 없는데, 실험은 그 가정을 사실상 강제한 셈입니다.
여기서 논쟁을 생산적으로 끝내려면, 사용자 제안처럼 “원인 분해 실험”이 필요합니다. 저는 다음 3가지를 특히 우선순위로 봅니다.
p를 단일 숫자에서 ‘더 풍부한 belief representation’으로 올려야 합니다
예를 들어 p와 함께 불확실성 근거(주요 evidence의 기여도), 대안 가설의 상위 2~3개 확률, 혹은 간단한 로그오즈와 신뢰 구간 같은 표현을 함께 elicitation하면, “p가 거칠다” 가설을 정면으로 검증할 수 있습니다. 이때도 핵심은 텍스트를 늘리는 것이 아니라, 행동을 설명하는 데 필요한 구조적 정보를 늘리는 것입니다.
동일 p 구간에서 x 템플릿을 강하게 통제해야 합니다
문장 패턴이 θ 신호를 몰래 실어 나르면 조건부독립 테스트는 설계 아티팩트에 취약합니다. 따라서 같은 p 구간(예: 0.6~0.7)에서 x의 서술 스타일을 고정하고, 단어·문장 길이·순서까지 최대한 정규화한 세트에서 위반이 유지되는지 보는 것이 중요합니다.
“θ를 더 안다” vs “평가/프롬프트 누수”를 분리하는 누수 진단이 필요합니다
가장 간단한 방식은, θ와 상관된 텍스트 단서를 의도적으로 제거한 ‘블라인드 템플릿’과, 반대로 단서를 은근히 심은 ‘누수 템플릿’을 만들어 위반률이 어떻게 움직이는지 보는 것입니다. 위반이 누수 템플릿에서만 크게 뛰면, 결론은 “모델 믿음 부재”가 아니라 “측정 채널 오염”으로 바뀌어야 합니다.
정리하면, 이 논문이 제시한 조건부독립 위반은 매우 강력한 경고 신호이지만, 그 신호가 곧바로 “모델이 θ를 숨기고 있다”로 귀결되지는 않습니다. 사용자 비평의 요지는 바로 그 지점이며, 저는 동의합니다. 반증 테스트의 칼날이 예리할수록, 칼자루(실험 설계)도 그만큼 단단해야 합니다.
프롬프트에 흔들리는 확률, ‘신념 부재’인가 ‘표현 채널 잡음’인가
사용자 비평에서 가장 실무적인 경고는 프롬프트 민감도입니다. 논문은 “서로 다른 의사결정 과제(손실 함수 안내 등)에서도 같은 (x,θ)에 대해 확률이 안정적인가”를 테스트합니다. 구체적으로 표준 프롬프트(π0) 반복에서의 표준편차(Std)를 보고, MSE/Absolute-loss(Abs)/Bayesian reasoning 지시로 바꾼 프롬프트에서 π0 대비 RMSE가 얼마나 커지는지 제시합니다. 결과는 모델 간 이질성이 큽니다. 예컨대 Heart–GPT-High는 MSE/Abs 지시에서 RMSE가 0.0456/0.0436으로 비교적 낮고 Bayes에서도 0.0682로 안정적인 편인데, Heart–Llama는 0.2403/0.2415/0.2697로 크게 흔들립니다. 논문은 “GPT-High가 가장 덜 흔들리고, Llama가 가장 크게 흔들린다”고 요약합니다.이 결과가 ‘믿음’ 개념에 주는 타격은 큽니다. 합리적 행위자 모델에서 믿음(확률)과 선호(유틸리티)는 분리되어야 하고, 유틸리티가 바뀌어도 믿음 자체는 안정적이어야 한다는 것이 상식적 기대입니다. 그런데 손실 함수나 지시문만 바꿔도 p가 출렁이면, 그 p는 내부 믿음의 직접 출력이 아니라 “프롬프트에 반응하는 텍스트 산출물”일 가능성이 커집니다. 논문도 이를 인정하며, 특히 Bayesian reasoning 프롬프트에서 모든 모델이 더 크게 변한다고 보고합니다.
그럼에도 저는 여기서 한 번 더 ‘반론-재반박’을 하고 싶습니다. 프롬프트 민감도가 곧바로 “믿음이 없다”는 결론으로 이어지는 것은 조심해야 합니다. 왜냐하면 (1) LLM의 확률 응답은 단일 채널(숫자)로 고차원 내부 상태를 압축한 것이고, (2) 지시문은 그 압축 방식을 바꾸는 ‘디코더 설정’처럼 작동할 수 있기 때문입니다. 즉, 내부에 어떤 θ 관련 표현이 있더라도, 우리가 꺼내는 방식이 불안정하면 겉으로는 믿음이 흔들려 보일 수 있습니다. 사용자 비평이 말한 “모델이 θ를 더 안다 vs 평가/프롬프트가 정보를 새게 한다” 구분이 바로 여기에서도 필요합니다.
논문은 프롬프트 안정성과 별도로, 확률 자체의 내적 일관성을 Law of Iterated Expectation(LIE)로 점검합니다. 저자들은 보조 변수 z를 두고, PE(θ|x)=Σj PE(θ|x,z∈Bj)·PE(z∈Bj|x)가 성립해야 한다는 식(Eq. 6)을 기반으로 ∆LIE(x) 오차를 측정합니다. Figure 2에서는 데이터셋별로 ∆LIE(x)/p(x)의 중앙값과 신뢰구간을 막대그래프로 보여주며, 랜덤포레스트 베이스라인보다 LLM들이 대체로 더 큰 불일치를 보인다고 말합니다.
하지만 사용자 비평대로 이 해석도 애매함이 남습니다. 자연어로 조건부 확률을 따로따로 묻는 과정 자체가 프롬프트 효과와 응답 잡음을 키울 수 있고, 그러면 “확률 공리 위반”과 “질문 방식 비일관성”이 섞입니다. 논문도 decision-consistency와 probability-axiom consistency가 다른 성질일 수 있다고 인정합니다. 저는 이 인정이 오히려 중요하다고 봅니다. 즉, LIE 위반만으로 “확률론적으로 엉망”이라고 단정하기보다, 어떤 설정에서 decision-consistency는 괜찮은데 LIE가 깨지는지, 반대로 LIE는 괜찮은데 행동이 불일치하는지까지 패턴으로 분해해야 다음 연구가 생산적입니다.
실무 관점에서, 이 논문이 던지는 메시지를 ‘실천 체크리스트’로 바꾸면 다음과 같습니다.
확률을 묻기 전에, 반드시 “그 확률로 무엇을 할 것인지(행동)”를 함께 설계해야 합니다.
p 하나로 끝내지 말고, 최소 2~3개의 서로 다른 elicitation을 앙상블해 “표현 채널 잡음”을 낮춰야 합니다.
Defer가 있는 정책이라면, Defer의 유틸리티(보류 비용/책임 비용/추가 정보 비용)를 따로 문서화해야 합니다.
프롬프트를 바꿨을 때 p가 흔들리면, ‘모델이 틀렸다’가 아니라 ‘추출 방식이 불안정하다’는 경고로 먼저 해석해야 합니다.
(결론: 2602.06286v1은 ‘확률 말만 번지르르’ 문제를 행동으로 검증하고, 조건부독립·단조성·프롬프트 일관성·LIE로 반증 가능한 틀을 제시한 점이 강점입니다. 다만 가짜 위반, 유틸리티 불명, 정보 누수 통제가 더 필요하다는 비평이 핵심입니다.)
자주 묻는 질문 (FAQ)
Q. 이 논문이 말하는 “반증형 평가”는 무엇이 다른가요 A. 확률이 진짜 믿음인지 ‘증명’하지 않고, 특정 위반이 관측되면 “그 확률을 믿음으로 두고는 어떤 합리적 행위자도 같은 행동을 할 수 없다”를 말하는 방식입니다. 그래서 결론이 더 겸손하지만, 깨질 때는 해석이 강합니다.Q. 조건부독립 테스트에서 왜 θ가 새는 것처럼 보이나요
A. 논문은 p를 조건화하면 θ가 추가 정보를 주지 않아야 한다고 보지만(Proposition 3.3), LLM에서는 프롬프트·표현 차이가 θ와 상관된 신호를 만들거나, p가 너무 거친 요약이라 충분통계가 못 될 수 있어 “가짜 위반” 가능성이 있습니다.
Q. Defer가 있을 때 단조성 위반이 더 잘 생기는 이유는 무엇인가요
A. 논문 결과에서도 Yes/No는 대체로 단조성을 만족하지만, Defer가 끼는 쌍에서 위반이 관측되는 경우가 있습니다. Defer는 ‘중간 선택지’라 IIA 가정과 유틸리티 구조에 민감해져, 단순한 비합리라기보다 유틸리티 복잡성이 반영될 수 있습니다.
[출처]
https://arxiv.org/html/2602.06286v1
0 댓글