레이어별 활성 추적

 

레이어별 활성 추적
레이어별 활성 추적

LLM 메커니즘 해석은 “어디를 봐야 하는지”와 “무엇을 근거로 말하는지”가 동시에 어렵습니다. Quantum Sieve Tracer는 Locate-then-Analyze로 스케일과 해상도를 분리해, 고전적 causal tracing으로 중요한 레이어를 먼저 찾고 그 뒤 양자 커널로 헤드 토폴로지를 세밀하게 봅니다. 다만 ‘양자’의 고유 기여, 작은 실험 규모, Sieve 단계의 편향 가능성은 강한 결론에 앞서 더 엄밀히 보완될 필요가 있습니다.

하이브리드: Locate-then-Analyze가 왜 실용적인가

이 논문의 가장 큰 장점은 문제 분해가 계산 현실과 정확히 맞닿아 있다는 점입니다. 저자들은 “Locate-then-Analyze” 원칙을 명시하고, 1단계는 고전적 causal tracing으로 전 레이어를 훑어 ‘가장 중요한 레이어 1개’를 고른 뒤, 2단계에서만 고해상도 분석(헤드 간 상호작용)을 수행합니다. 이는 전 레이어×전 헤드×전 토큰을 전수조사하는 해석 실험이 쉽게 폭발한다는 점을 생각하면 매우 실용적인 설계입니다.

논문에서 1단계(Localization)는 Meng et al. 방식의 causal tracing을 따르며, 각 레이어 l에 대해 Recovery Score R(l)을 계산합니다. 식은 “깨끗한 실행(clean)과 오염 실행(corrupted) 간 목표 토큰 확률 차이를, 해당 레이어 복원(restored)으로 얼마나 회복시키는지”로 정규화된 형태입니다. 즉, 레이어별로 “정답 토큰 확률을 되살리는 힘”을 비교하는 스윕입니다. 이 스윕 결과 Llama-3.2-1B는 Layer 9에서 회복이 급상승하고, Qwen2.5-1.5B-Instruct는 Layer 7에서 가장 큰 상승이 나타난다고 보고합니다.
여기까지의 흐름은 사용자 비평처럼 “스캔은 고전 기법이 맡고(스케일), 세밀 분석은 커널이 맡는다(해상도)”는 역할 분담이 명확합니다.

이 구조가 특히 좋은 이유는, 해석 파이프라인이 ‘결과’만 내는 것이 아니라 “어떤 레이어를 왜 골랐는지”에 대한 근거를 먼저 제공하기 때문입니다. 많은 해석 논문이 특정 레이어/헤드를 찍어두고 사후적으로 의미를 부여하는데, Quantum Sieve Tracer는 먼저 회복 점수 곡선을 보여주며 “여기가 지식 허브(knowledge hub) 후보”라고 주장합니다. 그 뒤에만 헤드 토폴로지 분석이 붙으니, 독자는 최소한 “관찰→선택→확대”의 흐름을 따라갈 수 있습니다.

다만 이 단계에도 조심할 지점이 있습니다. 논문은 “단일 가장 중요한 레이어”를 고르는 전략을 택했는데, 실제 모델 회로는 다층에 걸친 분산 특성을 가질 수 있습니다. 즉, ‘peak layer’가 존재하더라도 그 전후 레이어가 함께 기여하는 경우가 많습니다. 그럼에도 논문 선택이 실용적인 이유는, 여기서 목표가 “완전한 회로 복원”이 아니라 “양자 커널 단계의 계산비용을 감당 가능하게 만드는 것”이기 때문입니다. 이런 경우 논문의 메시지는 “이 레이어만이 전부”가 아니라 “이 레이어가 가장 유력한 확대경 지점”이라고 표현될수록 설득력이 높아집니다.

핵심 구성과 사용자 비평을 함께 정리하면 아래처럼 정리할 수 있습니다.

단계 의미와 잠재 리스크
Locate(고전 causal tracing) 전 레이어 스윕으로 핵심 레이어를 좁혀 계산을 절약하는 단계입니다. 다만 회로가 다층 분산이면 단일 레이어 선택이 과감한 단순화가 될 수 있습니다.
Analyze(양자 커널) 선택 레이어 내부의 헤드 상호작용을 고차원 커널로 본다는 단계입니다. 다만 ‘양자’의 고유 기여가 고전 커널 대비로 분리 검증되지 않으면 커널 트릭으로 읽힐 수 있습니다.

이 표가 말하는 요지는 간단합니다. 논문은 계산 관점의 현실성을 확보했지만, 2단계의 해석(양자성이 꼭 필요한가)과 1단계의 단순화(한 레이어만 보는 것이 충분한가)는 서로 다른 종류의 검증을 요구한다는 점입니다.

양자커널: “양자”가 기여했는지 분리해 보여줘야 하는 이유

논문이 제시하는 핵심 계측은 “Quantum Feature Map으로 확장한 공간에서 헤드 간 fidelity를 커널 유사도로 계산하고, 이를 Head-by-Head Interaction Matrix로 시각화한다”는 것입니다. 구현은 PennyLane의 default.qubit 시뮬레이터에서 5차원 벡터 v를 5-qubit 상태로 Angle Embedding(Ry 회전)해 |ψ(v)⟩를 만들고, 서로 다른 헤드 hi, hj의 fidelity로 커널 값을 채웁니다. 이때 논문이 기대하는 효과는 “고전적 선형 유사도나 선형 프로빙이 못 보는 비선형/기하적 차이를, 고차원 힐베르트 공간에서 더 잘 분리한다”는 것입니다. 또한 고전 causal trace 벡터와 양자 fidelity 벡터 간 Spearman 상관이 거의 0(ρ≈−0.04)이라며, 양자 커널이 고전 신호와 “근본적으로 다른 정보”를 본다고 주장합니다.

여기서 사용자 비평이 정확히 꽂는 지점이 있습니다. 지금 논문에서 ‘양자’의 필수성은 “서사”로는 강조되지만, “대조군 실험”으로는 분리되어 있지 않습니다. Angle Embedding은 사실상 비선형 특징공간으로의 매핑이고, fidelity 기반 커널은 커널 트릭의 전형적인 형태로도 읽힙니다. 따라서 독자는 “이건 양자라서 좋은 게 아니라, 그냥 비선형 커널이면 되는 것 아닌가”라는 의문을 갖기 쉽습니다.

논문이 ‘강한 주장’이 되려면, 최소한 아래 두 가지를 정량으로 보여줘야 합니다.
첫째, 동일 입력 v(논문은 k=5 선택 뉴런으로 만든 5차원)에서 고전 커널(RBF, Polynomial, ArcCos, 혹은 random Fourier features)로 만든 head-by-head interaction matrix와 양자 커널 행렬이 얼마나 다른지 비교해야 합니다. 단순히 그림이 달라 보이는 수준이 아니라, “어떤 헤드가 중요하다고 예측하는가”가 얼마나 달라지는지까지 연결해야 합니다.
둘째, 그 차이가 인과적 개입 지표(activation patching, ablation, logit attribution)와 더 잘 정렬되는지 보여줘야 합니다. 예를 들어 “커널로 뽑은 상위 헤드 목록”이 실제 ablation 영향과 어느 정도 상관이 있는지 Spearman/Top-k hit-rate 같은 지표로 제시하면, 양자 커널의 ‘설명력’이 단숨에 올라갑니다.

또 한 가지, 논문이 내세우는 “near-zero 상관은 좋은 징후”라는 해석도 더 조심스러울 필요가 있습니다. ρ≈0은 “다른 정보를 본다”일 수도 있지만, “잡음”을 볼 수도 있기 때문입니다. 즉, 상관이 낮다는 사실만으로는 가치 판단이 불가능하고, 반드시 “어떤 기준 신호와의 정렬이 좋은가”를 먼저 정의해야 합니다. 논문은 이 부분을 ‘양자 커널이 선형 프록시가 아니다’로 결론 내리는데, 독자 입장에서는 “선형보다 무엇을 더 맞히는가”가 함께 와야 합니다.

마지막으로 실험 규모 문제도 큽니다. 논문은 4페이지의 짧은 형식이며, factual query 예시도 “The capital of France is”처럼 단문 중심으로 제시됩니다.
이때 Llama의 ‘negative drop anomaly’(정답 확률 0.0266→0.0335, Δ=0.0069)는 흥미롭지만 절대값이 작아서 프롬프트, 토크나이저 경계, seed, 샘플링 설정에 민감할 가능성이 큽니다. 논문은 t-test(p<0.05)로 비무작위성을 주장하지만, 실제 일반화를 말하려면 “수십~수백 질의에서 같은 패턴이 재현되는지”와 “효과크기 평균 및 신뢰구간”이 필수입니다.

정리하면, 현재 논문의 양자커널 파트는 아이디어가 아니라 “검증 디자인”이 더 필요합니다. 양자성이든 고전 커널이든, 독자에게 중요한 것은 ‘신비함’이 아니라 “예측력과 재현성”입니다. 그 기준을 통과하면 양자라는 포장도 자연스럽게 설득됩니다.

억제회로: Llama의 Interference Suppression을 과장 없이 강하게 만들기

이 논문에서 가장 눈에 띄는 결과는 모델 간 대비입니다. Qwen은 Layer 7이 ‘Recall Hub’로서 헤드 ablation이 성능을 떨어뜨리는 “긍정적(constructive) 회로”로 해석되고, Llama는 Layer 9에서 특정 헤드를 제거하면 오히려 정답 확률이 오르는 “Interference Suppression”이 관측된다고 주장합니다. 특히 Llama 결과는 “헤드 0과 3이 핵심 드라이버이며, 회로는 넓게 분산되기보다 희소하고 모듈형(sparse modular clustering)”이라는 해석과 함께 제시됩니다.

사용자 비평처럼, 이 결론은 흥미롭지만 대안 설명이 많습니다. 특정 헤드를 ablate했을 때 정답 확률이 오르는 현상 자체는 있을 수 있습니다. 문제는 그것을 “suppression 회로”라는 기능적 해석으로 연결하려면, ‘무엇이 억제되는지’가 데이터로 보여야 한다는 점입니다. 논문은 “premature or competing logits를 억제한다”라고 설명하지만, 실제로 어떤 오답 후보 토큰의 로짓이 함께 줄었는지, 전체 분포의 엔트로피가 어떻게 변했는지, 상위 후보 리스트가 어떻게 재배열되는지 같은 근거는 제한적입니다.
이 증거가 붙는 순간, “확률이 조금 올랐다”가 “경쟁 후보를 깎아 정답을 띄웠다”로 바뀌며, 억제회로 주장은 훨씬 강해집니다.

또한 논문이 사용하는 핵심 전처리인 Feature Sieving이 병목/편향일 수 있다는 지적은 매우 중요합니다. 논문은 각 헤드의 activation vector에서 로지스틱 회귀로 reference vs noise를 구분하고, 계수 |β|가 큰 상위 k=5 뉴런만 선택합니다. 그 다음 min-max scaling으로 [-1,1]에 맞춰 각도로 인코딩합니다.
그런데 이 설계는 “비선형 상호작용을 보겠다”는 목적과 충돌할 수 있습니다. 선형 로지스틱이 잘 잡는 차원만 남기면, 정작 비선형 결합에서 드러나는 신호가 선별 단계에서 버려질 수 있기 때문입니다. 또한 k=5는 임의적이며, scaling 규칙(min-max)이 결과를 크게 좌우할 여지도 큽니다.

따라서 억제회로 주장까지 포함해 논문이 설득력을 크게 올리려면, 사용자 비평의 “추가 실험 5개”가 거의 필수 코스가 됩니다. 이를 논문 맥락에 맞게 조금 더 구체화하면 아래처럼 정리할 수 있습니다.

고전 커널 대조군과의 interaction matrix 비교로 “양자 고유 기여”를 분리해야 합니다.

질문 세트를 수백 개로 확장하고, 평균 Δp와 신뢰구간을 제시해야 합니다.

k(5, 10, 20…), 프로브(로지스틱, PCA/ICA/CCA, 작은 MLP), scaling(z-score vs min-max) 민감도를 보고해야 합니다.

fidelity 기반 중요 헤드 예측이 patching/ablation/attribution과 얼마나 정렬되는지 상관·정확도를 공개해야 합니다.

suppression을 “후보 토큰 로짓 변화”로 보여줘야 합니다. 즉, 정답만 보지 말고 오답 후보의 감소와 분포 변화까지 제시해야 합니다.

이 다섯 가지가 채워지면, Llama의 Layer 9 결과는 단순한 에피소드가 아니라 “모델마다 회로가 다르다”는 메시지를 실제로 지탱하는 증거가 됩니다. 반대로 지금 상태에서는 억제회로가 매우 흥미로운 가설임에도, 작은 표본과 전처리 편향 가능성 때문에 결론이 흔들릴 여지가 큽니다.

그럼에도 불구하고, 논문이 남긴 중요한 통찰은 분명합니다. 해석은 늘 “스케일 vs 해상도”의 싸움인데, 이 논문은 그 싸움을 단계 분리로 해결하려 했고, 최소한 Llama와 Qwen에서 서로 다른 ‘기능적 패턴(Recall Hub vs Interference Suppression)’을 제안할 만한 실마리를 만들었습니다.
이 실마리를 강한 주장으로 바꾸는 것은 이제 ‘비교 실험’과 ‘재현성’의 몫입니다.


Quantum Sieve Tracer는 고전 causal tracing으로 레이어를 좁힌 뒤 양자 커널로 헤드 토폴로지를 보는 하이브리드 설계가 강점입니다. 다만 양자성 고유 기여, 작은 실험 규모, Sieve(k=5) 편향, 억제회로 해석의 대안 설명을 추가 실험으로 정리해야 결론이 단단해집니다.

자주 묻는 질문 (FAQ)

Q. 이 논문에서 말하는 “양자 커널”은 실제 양자컴퓨터가 꼭 필요한가요? A. 논문 구현은 default.qubit 시뮬레이터 기반이며, 핵심은 Angle Embedding 후 fidelity로 커널 유사도를 계산하는 방식입니다. 따라서 고전 커널과의 대조군이 없으면 “양자 고유 이점”이 아니라 “비선형 커널 트릭”으로도 해석될 수 있습니다.

Q. Llama의 “Interference Suppression”은 왜 더 강한 증거가 필요한가요?
A. 특정 헤드 ablation 후 정답 확률이 소폭 상승(0.0266→0.0335)한 관측만으로는, 무엇이 억제되었는지 단정하기 어렵기 때문입니다. 오답 후보 로짓 감소, 분포 엔트로피 변화, 상위 후보 재배열 등 “경쟁 로짓 억제” 증거가 함께 제시되어야 해석이 강해집니다.

Q. Feature Sieving의 k=5 선택이 왜 문제일 수 있나요?
A. 로지스틱 회귀 기반 선택은 선형 분리 신호에 유리해 비선형 상호작용 신호를 선별 단계에서 버릴 수 있습니다. 또한 k와 scaling(min-max)이 결과를 좌우할 수 있으므로, k 변화·프로브 대체·스케일링 대체에 대한 민감도 분석이 필요합니다.

[출처]
영상 제목/채널명: https://arxiv.org/html/2602.06852v1

댓글 쓰기

0 댓글

이 블로그 검색

신고하기

프로필