답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

겉으로 정답이 같다고 해서 모델이 “안정적”이라고 말할 수 있는지 점검할 때입니다. 이 글은 VLM 견고성 평가의 관성인 출력 불변성에 의문을 던지고, 내부 표현이 흔들리는 Representation drift를 어떻게 진단·해석·개선 실험으로 연결할지 논리적으로 확장합니다.

정답이 같아도 드리프트가 위험한 이유

논문 “Same Answer, Different Representations: Hidden instability in VLMs”는 ‘출력 불변성=견고성’이라는 평가 습관을 정면으로 흔듭니다. 핵심은 간단합니다. VLM이 자연스러운 시각 교란(translation, pad/crop, scale, rotation, text overlays 등)을 받았을 때, 예측 라벨이 유지되는 경우가 꽤 많지만 그 내부 표현(embedding)은 크게 이동할 수 있다는 점입니다. 저자들은 이를 representation drift로 부르고, SEEDBench·MMMU·POPE에서 Qwen3-VL, LLaVA-OneVision 계열을 대상으로 라벨 지표(Instance Flip Rate, Image Vulnerability)와 표현 지표(embedding drift, Dirichlet energy 등)를 함께 봅니다. 특히 SEEDBench에서 union 기준으로 이미지의 약 37.6%가 ‘어떤 교란에서는 답이 뒤집히는 취약 샘플’로 나타났고, TextOverlay는 IFR이 약 19.2%로 가장 공격적이었습니다.

여기서 사용자의 비평처럼 “정답이 같은데도 드리프트가 크면 실제 다운스트림에서 무슨 위험이 생기느냐”가 설득의 관건입니다. 저는 이 논문의 관찰을 ‘위험의 씨앗’으로 해석하는 것이 중요하다고 봅니다. 이유는 두 가지입니다. 첫째, 드리프트는 ‘결정경계 근처로의 이동’을 의미할 수 있습니다. 논문이 margin(x)로 마진(정답과 2등 답의 log-likelihood 차)을 추적하는 이유도, 라벨이 유지돼도 마진이 줄면 다음 교란에서 쉽게 붕괴할 수 있기 때문입니다. 둘째, VLM은 멀티모달 파이프라인(vision encoder–connector–LLM backbone)이라 내부 상태가 흔들리면 “그 순간의 답”은 우연히 유지돼도, 이후 대화 턴이나 추가 지시에서 누적 오류·일관성 붕괴·캘리브레이션 실패로 이어질 가능성이 큽니다. 논문도 “표현이 랜덤 다른 이미지 수준으로 이동한다”는 control drift 비교를 통해, ‘원래 입력의 이웃’에서 벗어나는 비국소 이동 가능성을 보여줍니다. 특히 ans_mcq_free 구간에서 TextOverlay의 drift가 control drift 평균의 큰 비중(약 77.7%)까지 접근했다는 결과는 “겉보기 정답 유지”를 안심 신호로 쓰기 어렵게 만듭니다.

다만 사용자의 지적대로, 이 위험을 더 강하게 입증하려면 “드리프트가 큰데 정답은 같은 샘플”을 따로 모아 2차 교란(두 번째 perturbation)이나 프롬프트 변형, 멀티턴 질의에서 실패율이 실제로 급증하는지 연결해야 합니다. 예를 들어 (1) 1차 교란에서 R→R이었던 샘플 중 drift 상위 10%만 뽑고, (2) 그 샘플에 rotation+pad/crop 같은 조합 교란을 추가한 뒤, (3) IFR·마진 감소 폭·자유응답 평가에서의 일관성(동일 근거 제시 여부)을 함께 보면 “표현 드리프트→취약성 증가”가 정량화됩니다. 이 실험이 들어가면 논문의 메시지는 “흥미로운 진단”에서 “현장 위험 경보”로 바뀝니다.

논문이 보여준 사실	다운스트림 리스크로 잇는 실험
라벨이 같아도 embedding drift가 큼	drift 상위 샘플에 2차 교란·멀티턴 질의 적용 후 실패율 비교
TextOverlay에서 drift가 control drift에 근접	유사 이미지(control) 층화로 “비국소 이동”의 해석 신뢰도 강화
Dirichlet energy 변화가 flip과 연관	∆Edir·마진·flip의 상관/회귀로 인과 사슬(중간고리) 촘촘히 제시

오버레이 실험이 설득력 있는 지점과 보완점

이 논문에서 가장 깔끔한 설계는 “같은 박스(가림)인데 텍스트 내용만 바꾸는” 오버레이 분해입니다. BoxOverlay(빈 박스), RandomText(랜덤 문자열), TextOverlay(“Answer is A/B/C/D” 같은 의미 지시문)로 나눠 occlusion(가림)과 semantics(의미 지시)를 분리합니다. 결과는 직관적이면서도 중요합니다. 빈 박스는 비교적 덜 흔들리는데, 의미 지시문이 들어가면 flip이 크게 늘고 표현 드리프트도 커집니다. 논문은 이를 “단순 가림이 아니라 의미적/지시적 시각 텍스트가 모델을 강하게 흔든다”는 방향으로 해석할 근거로 제시합니다.

사용자 비평의 포인트는 여기서 한 단계 더 들어갑니다. “TextOverlay가 해롭다”는 결론은 맞지만, 그 원인이 (1) 의미적 steering 때문인지, (2) OCR/텍스트 인식 경로가 강하게 활성화되며 attention이 빨려서인지, (3) 리사이즈·안티앨리어싱 과정에서 고주파가 바뀌어 비정상적 스펙트럼이 만들어져서인지 완전히 분리되지는 않습니다. 실제로 논문도 자연 교란이 전처리(리사이즈/보간)에서 주파수 구성을 바꿀 수 있고, 특히 phase 정렬이 깨지면 구조 정보가 흐트러질 수 있다고 설명합니다.

그래서 “읽힘(가독성)”과 “의미”를 분리하는 제안이 매우 실용적입니다. 예를 들어 같은 의미의 지시문을 (a) 매우 작은 글씨, (b) 투명도 높은 글씨, (c) 난독화(blur, 글자 깨짐)로 처리해 사람이 보기에는 의미를 유추할 수 있지만 모델이 읽기 어렵게 만들거나, 반대로 (d) 완벽히 읽히지만 의미가 무해한 문장으로 바꾸는 식으로 2×2 실험을 구성할 수 있습니다. 이렇게 하면 “모델이 의미를 이해해서 흔들리는지”와 “텍스트 토큰이 시각적으로 존재하는 것 자체가 attention을 재배치하는지”를 분리할 수 있습니다. 논문이 이미 BoxOverlay/RandomText/TextOverlay로 1차 분해를 했으니, 이 2차 분해는 후속 연구로 자연스럽게 이어집니다.

또 하나, 논문에서 TextOverlay의 drift를 “랜덤 다른 이미지”와 비교(control drift)하는 표현은 임팩트가 크지만, 사용자 지적처럼 해석이 과장될 위험이 있습니다. 임베딩 공간이 의미적 근접성을 얼마나 보존하는지, “랜덤 다른 이미지” 분포가 데이터 구성에 얼마나 민감한지에 따라 결론의 강도가 달라지기 때문입니다. 따라서 control을 완전 랜덤 하나로 두지 말고, (i) 같은 카테고리, (ii) 유사 캡션/유사 시각 특징, (iii) 동일 객체군(예: 사람/차량/문서)처럼 층화해 비교하면 “비국소 이동” 주장이 더 탄탄해집니다. 논문의 프레임을 유지하면서도, 주장 신뢰도를 높이는 보완입니다.

스펙트럼 관점이 주는 통찰과 ‘인과 고리’ 강화법

이 논문이 단순히 “정답이 흔들린다”에서 멈추지 않고, 왜 흔들리는지에 대한 힌트를 주는 지점이 바로 frequency-aware 관점입니다. 저자들은 자연 교란이 공간 도메인에서 일어나더라도, VLM 전처리 과정(리사이즈/보간)과 결합되면 주파수 구성(저·고주파의 균형)과 특히 phase 정렬을 깨뜨릴 수 있다고 봅니다. 그리고 두 가설을 비교합니다. (H1) VLM이 저주파(거친 형태)에 더 의존하므로 고주파 노이즈엔 상대적으로 강할 것이다, (H2) 저·고주파의 “정렬(coherence)”에 민감해서 cross-frequency misalignment가 생기면 취약해진다. 실험(주파수 제한 노이즈, 점진적 주파수 절제, 주파수 제한 PGD) 결과는 H2 쪽에 힘을 싣습니다. 즉, 특정 대역 하나가 ‘진실’이 아니라 여러 대역의 일관성이 깨지면 마진이 깎이고 결정경계를 넘나들 수 있다는 이야기입니다.

사용자 비평이 정확히 짚는 약점은, 이 흥미로운 스펙트럼 해석이 “자연 교란 → 스펙트럼/위상 드리프트 → 내부 토큰 구조 변화(Dirichlet energy) → embedding drift → 라벨/마진 변화”로 이어지는 인과 사슬을 더 촘촘히 보여주면 훨씬 강해진다는 점입니다. 논문은 Dirichlet energy를 통해 “인접 패치 토큰의 매끄러움(구조적 일관성)” 변화를 측정하고, flip이 난 경우 절대 변화폭이 더 큰 경향이 있다고 보고합니다. 예컨대 rotation이 큰 음의 변화(과도한 over-smoothing 혹은 구조 붕괴 신호)로 나타나는 사례가 있고, TextOverlay도 에너지 변화가 관찰됩니다. 하지만 독자가 “그래서 스펙트럼 변화가 구체적으로 ∆Edir, drift, margin을 어떻게 움직였는가”를 한 번에 납득하기엔 연결 분석이 부족할 수 있습니다.

이를 보완하는 가장 현실적인 방법은 상관·회귀 분석입니다. 교란 타입별로 (1) 스펙트럼 지표(phase/magnitude 변화량, 저·고주파 밴드 에너지 변화), (2) ∆Edir, (3) embedding drift, (4) margin 감소량, (5) flip 여부를 모아, 단계별로 “어떤 지표가 다음 지표를 가장 잘 설명하는지”를 회귀로 보여주면 됩니다. 특히 “정답 유지(R→R)인데 margin이 크게 깎이거나 drift가 큰 샘플”을 따로 표시하면, 논문이 말하는 hidden instability가 통계적으로도 ‘다음 실패의 전조’임을 설득할 수 있습니다.

또 하나 중요한 쟁점은 평가 프로토콜입니다. 논문은 log-likelihood MCQ scoring을 채택해 decoding의 확률성을 줄이고 margin을 정의 가능하게 했지만, 사용자 비평대로 큰 모델에서 이 프로토콜이 표현의 sharpness/마진 구조와 상호작용할 가능성이 있습니다. 실제로 논문도 Qwen3-VL-32B에서 base accuracy가 MCQ 제한 때문에 떨어질 수 있음을 언급합니다. 그러므로 “MCQ scoring vs 생성 기반(자유응답)”을 교차 검증하면 스케일 취약성 결론의 신뢰도가 커집니다. 추천 실험은 간단합니다. 동일 샘플·동일 교란에서 (a) temperature=0 고정 자유응답, (b) 정답 매칭 규칙을 엄격화한 평가, (c) MCQ scoring을 동시에 보고, 세 프로토콜에서 “드리프트-마진-실패” 관계가 유지되는지 확인하는 것입니다.

실천 팁으로 정리하면, 연구자나 실무 평가 담당자는 이제 “정답 유지율”만 보지 말고 아래 체크를 함께 돌려야 합니다.

IFR/IV로 ‘얼마나 자주 뒤집히는지’와 ‘얼마나 많은 이미지가 취약한지’를 분리해서 봐야 합니다.

ans_mcq_free 같은 구간의 embedding drift를 함께 봐야 “정답 유지의 착시”를 줄일 수 있습니다.

Dirichlet energy로 패치 토큰의 구조적 일관성이 깨지는지 확인해야 합니다.

TextOverlay/RandomText/BoxOverlay처럼 교란을 분해해 원인 후보(가림 vs 의미 vs 텍스트 경로 활성화)를 단계적으로 줄여야 합니다.

이 논문은 출력 불변성만으로는 VLM 견고성을 말할 수 없고, Representation drift와 구조적 지표를 함께 봐야 함을 설득합니다. 다만 드리프트가 실제 다운스트림 실패로 이어짐을 2차 교란·멀티턴·프로토콜 교차검증으로 더 직접 연결하면 메시지가 한층 강해집니다.

자주 묻는 질문 (FAQ)

Q. IFR과 IV는 무엇이 다르고, 왜 둘 다 봐야 하나요? A. IFR(Instance Flip Rate)은 전체 교란 시도 중 정답이 뒤집힌 비율이고, IV(Image Vulnerability)는 “한 번이라도” 뒤집히는 이미지의 비율입니다. IFR은 평균적 불안정, IV는 최악 사례 취약성을 보여줘 함께 봐야 실제 리스크를 놓치지 않습니다.

Q. 정답이 유지되는데도 embedding drift가 크면 바로 문제가 되나요?
A. 바로 사용자에게 보이는 실패가 아닐 수는 있지만, 마진 감소와 결합되면 추가 교란·프롬프트 변화·멀티턴에서 급격히 무너질 가능성이 커집니다. 그래서 “드리프트 큰데 정답 유지” 샘플을 따로 모아 2차 교란에서 실패율이 뛰는지 확인하는 실험이 중요합니다.

Q. TextOverlay 취약성은 ‘의미 지시’ 때문인가요, ‘텍스트가 보이는 것’ 때문인가요?
A. 논문은 BoxOverlay/RandomText/TextOverlay로 1차 분해를 했지만, ‘가독성(읽힘)’과 ‘의미’가 완전히 분리되진 않습니다. 동일 의미를 난독화하거나, 읽히지만 무해한 문장으로 바꾸는 2차 분해 실험을 추가하면 원인을 더 명확히 가를 수 있습니다.

[출처]
https://arxiv.org/html/2602.06652v1

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

정답이 같아도 드리프트가 위험한 이유

오버레이 실험이 설득력 있는 지점과 보완점

스펙트럼 관점이 주는 통찰과 ‘인과 고리’ 강화법

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

프로필