Activation steering, 왜 생각보다 잘 안 먹히는가

활성화 스티어링은 모델을 원하는 방향으로 “내부에서” 밀어주는 강력한 도구이지만, 최근 연구는 모델이 오히려 그 개입을 감지하고 되돌아오는 현상을 보고합니다. 이 논문은 이를 ESR(Endogenous Steering Resistance)로 정의하고, 특히 “Wait, that’s not right” 같은 명시적 self-correction만을 측정 대상으로 삼아 현상을 또렷하게 잡습니다. 다만 ‘진짜 자기검사 회로’인지 ‘말투/포맷 회로’인지, 그리고 공정한 비교였는지는 더 날카로운 검증이 필요합니다.

ESR: 무엇을 측정했는지 명확한 만큼, 무엇을 놓쳤는지도 분명합니다

이 논문이 좋은 출발을 한 이유는 “무엇을 ESR이라 부르는가”를 애매하게 두지 않았기 때문입니다. 저자들은 ESR을 “추론 중 스티어링을 계속 받는데도, 생성 도중 회복해 더 나은 답으로 돌아오는 현상”으로 정의합니다. 그리고 그중에서도 가장 눈에 띄는 형태인 **명시적 재시도**(예: “Wait, that’s not right”, “Let me try again”)를 경계로 응답을 여러 attempt로 분할하고, attempt 간 점수 개선이 있을 때 ESR로 카운트합니다. 즉, 모델이 슬쩍 주제로 복귀하는 “암묵적 회복”은 아예 측정 대상에서 제외합니다. 이 선택은 메트릭을 깔끔하게 만들지만, 동시에 ‘현상의 전체’를 대표한다고 말하기는 어려운 구조를 만듭니다.

측정 파이프라인도 꽤 정직합니다. 38개의 “explain how” 프롬프트를 준비하고, 각 모델을 SAE latent로 스티어링한 뒤, 판정은 Claude 4.5 Haiku가 attempt 분할과 0~100 점수 부여를 합니다. 중요한 지점은 판정 프롬프트에 “명시적 언어가 있을 때만 새 attempt로 잡아라”가 박혀 있다는 점입니다. 그래서 논문이 말하는 ESR은 ‘자기검사’라기보다 ‘말로 드러난 자기정정’에 가깝습니다.

그럼에도 논문이 전달하는 메시지는 강합니다. 5개 모델 비교에서 Llama-3.3-70B가 ESR rate 3.8%로 가장 높고, 다른 모델들은 1% 미만으로 낮게 나옵니다. 이 차이는 “다중 attempt 자체가 드물다”는 표면 현상과 “attempt를 했을 때 진짜 개선이 일어나는가”를 분리해 보여주는 점에서 설득력이 있습니다. 특히 표본이 작은 모델들의 개선률 통계가 불안정할 수 있음을 저자들이 직접 경고하는 방식도 과장보다 신뢰를 택한 느낌입니다.

다만 여기서부터 비평이 시작됩니다. 이 논문이 ‘명시적’ 신호만 잡는 순간, 모델 간 비교는 쉽게 언어 습관/스타일에 휘둘릴 수 있습니다. 큰 모델이 “잠깐, 다시 하겠습니다” 같은 메타 대화를 더 자주 쓰는 경향이 있다면, ESR은 내부 회복 능력의 차이가 아니라 표현 습관의 차이를 측정하는 셈이 됩니다. 저자들도 암묵적 회복을 포착하지 못한다는 한계를 인정합니다. 그런데 이 인정은 곧 “70B만 특별하다”는 결론에 방어 구멍을 남깁니다. 작은 모델도 조용히 주제로 돌아오는데 말버릇 때문에 ESR로 잡히지 않았을 가능성을 배제하기 어렵기 때문입니다.

이 논문의 핵심을 한 표로 정리하면 아래와 같습니다.

논문이 한 선택	얻는 것과 잃는 것
ESR을 “명시적 self-correction”으로 한정	측정 대상이 선명해지는 대신, 암묵적 회복·조용한 복귀를 놓칠 수 있습니다
LLM judge가 attempt 분할과 점수 부여	대규모 자동 평가가 가능하지만, 스타일/프롬프트 편향을 완전히 제거하기 어렵습니다

따라서 이 섹션에서의 결론은 간단합니다. 이 논문은 “무엇을 측정했는지”는 아주 명확하지만, 그 명확함 때문에 “무엇이 ESR인가”에 대한 해석은 오히려 더 조심해야 합니다. ESR이 진짜 내부 일관성 검사인지, 아니면 특정 대화적 습관의 발현인지, 그 경계는 아직 단정하기 어렵습니다.

레이어: ‘공정 비교’ 주장과 ‘사후 선택’ 현실 사이의 긴장입니다

사용자 비평에서 가장 공격력이 큰 지점은 레이어 선택 편향입니다. 논문은 표면적으로 “각 모델을 비슷한 상대 깊이(relative depth)에서 스티어링했다”고 말하며 공정성을 강조합니다. 실제로 Table 1에는 Llama-3.3-70B가 41.3% depth의 layer 33, Llama-3.1-8B가 59.4%의 layer 19, Gemma-2-27B가 47.8%의 layer 22 등으로 기재됩니다.

문제는 이 선택이 ‘고정 규칙’이 아니라 ‘ESR이 더 잘 나오는 레이어를 고른 결과’라는 사실이 부록에 비교적 명시적으로 적혀 있다는 점입니다. Gemma-2-27B는 SAE가 제공되는 레이어가 제한되어 있어(10, 22, 34) 둘 다 실험해 보고 ESR이 더 많이 관측되는 layer 22를 택했다고 합니다. 그리고 Llama-3.3-70B는 SAE가 layer 50에서 학습됐지만, steering은 layer 33이 “더 높은 품질의 결과와 더 해석 가능한 ESR”을 보여서 그 레이어를 택했다고 밝힙니다. 저자들도 이 사후 선택이 편향을 도입할 수 있음을 인정합니다.

이 대목은 논문이 스스로 약점을 드러낸 셈이지만, 동시에 독자가 품게 되는 의심은 커집니다. “각 모델에 최선의 조건을 줬다”는 변명은 곧 “모델별로 다른 최적 조건을 허용했다”는 말이기 때문입니다. 만약 Llama-3.3-70B는 특정 레이어에서 ESR이 잘 드러나고, 다른 모델은 다른 레이어에서만 드러난다면, 단일 레이어 비교로 “70B만 특별하다”를 말하기가 곤란해집니다. 특히 이 논문이 ESR이 중간 강도(boost)에서만 나타나는 비단조(non-monotonic) 창을 보여주기 때문에(강하면 붕괴, 약하면 효과 없음), 레이어 선택과 강도 선택이 함께 얽히면 “가장 잘 보이는 조건을 고르는 것” 자체가 결과를 크게 바꿀 수 있습니다.

그럼에도 논문은 레이어 선택을 그냥 감추지 않고, 왜 그렇게 했는지 가설을 제공합니다. Llama-3.3-70B에서 더 이른 레이어의 개입이 “아래쪽 계산이 개입을 처리하고 잠재적으로 수정할 기회”를 더 준다는 해석입니다. 이 해석은 직관적으로 납득이 됩니다. 하지만 납득과 검증은 다릅니다. 만약 이 가설이 맞다면, 레이어를 여러 개 스윕했을 때 ESR은 어떤 형태로 변해야 합니다. 예컨대 “후반 레이어에서는 ESR이 줄고, 중반 레이어에서 최대가 나오며, 초반 레이어에서는 스티어링이 약해져 ESR이 감소” 같은 구조적 곡선이 있어야 합니다. 그런데 현재 본문은 “최적 레이어를 골랐다” 이상을 계량적으로 보여주지 않습니다.

그래서 논문이 더 강해지려면, 레이어를 단순히 ‘최대 ESR’로 고르는 방식이 아니라, 레이어-강도 평면에서의 면적(ESR이 나타나는 영역의 크기) 같은 지표를 제안하는 편이 낫습니다. 예를 들어 각 모델에 대해 상대 깊이 30%, 50%, 70% 레이어를 고정하고, 강도를 표준화한 뒤(논문은 first attempt score 30/100 기준으로 threshold를 잡는 방식이 있으므로 이를 활용 가능), ESR rate를 적분한 값으로 비교하면 “사후 최적화” 비판을 줄일 수 있습니다.

또 하나 중요한 점은 SAE 자체의 한계입니다. 저자들은 공개된 70B급 SAE가 단일 레이어만 제공된다는 현실을 한계로 적고, 그래서 멀티레이어 SAE 분석이 향후 과제라고 말합니다. 이는 “우리가 할 수 있는 최선”을 보여주는 동시에, “지금 결론이 회로 수준으로 너무 빠른 것 아닌가”라는 반론을 열어둡니다. 단일 레이어에서 발견된 26개 latent가 전체 경로의 일부인지, 단지 관측 가능한 표지(marker)인지 구분하기 어렵기 때문입니다.

요약하면, 레이어 선택은 이 논문의 공정성과 일반화를 가장 강하게 흔드는 지점입니다. 논문이 이를 인정한 것은 장점이지만, 동시에 앞으로의 검증 과제를 독자가 더 선명하게 요구하게 만드는 장치이기도 합니다.

암묵회복: ‘회로’ 주장에 가장 필요한 추가 실험이기도 합니다

이 논문이 던지는 가장 큰 과학적 주장 중 하나는 “dedicated internal consistency-checking circuits”라는 표현입니다. 그리고 그 근거로 26개의 off-topic detector(OTD) latent를 제시합니다. 이 latents는 on-topic과 off-topic(프롬프트-응답을 랜덤 셔플로 mismatch) 쌍을 대비해 activation이 다르게 나오는 특징으로 선택됩니다. 여기서 중요한 디테일이 하나 있습니다. 저자들은 이 latents를 OTD라고 부르지만, 표에서 보이듯 **효과 크기가 매우 이질적**이고, 절반가량은 오히려 on-topic에서 더 켜지는 패턴(음의 d 또는 0에 가까운 d)을 보인다고 직접 적습니다. 즉 “오프토픽 검출기”라는 이름은 편의적 라벨일 뿐, 기능이 단일하지 않을 수 있습니다.

사용자 비평이 지적한 “말투/포맷 회로일 수도 있다”는 의심은, 논문이 제시한 OTD 라벨 목록에서 더 커집니다. Table 2의 라벨에는 “Hesitation and uncertainty markers”, “The assistant needs clarification”, “End of message token”, “Document structure and formatting tokens”, “End of complete thought” 같은 메타 대화/구조 신호가 섞여 있습니다. 이런 것들은 ‘오프토픽 감지’라기보다 ‘응답을 다시 구성하고 종료/전환하는 포맷 회로’로 읽힐 여지가 큽니다. 물론 ‘회복’이라는 행동 자체가 종종 포맷 전환(멈추고 다시 시작)과 결합되므로 이런 라벨이 섞이는 것이 이상하다고만 할 수는 없습니다. 그러나 그렇다면 결론은 “오프토픽 감지 회로”가 아니라 “중단/재시작을 촉발하는 메타 회로”에 더 가까워집니다.

그럼에도 논문이 내놓은 인과적 방어는 꽤 괜찮습니다. 26개 latent를 0으로 clamping(정확히는 latent contribution을 제거)하면 multi-attempt 비율이 7.4%에서 5.5%로 25% 감소하고, ESR rate가 3.8%에서 2.8%로 27% 감소합니다. 그리고 활성 통계를 맞춘 랜덤 latent 26개를 ablate하면 ESR이 오히려 4.2%로 약간 증가하는 방향을 보여 “아무거나 자르면 ESR이 줄어든다”는 반론을 약화합니다. 게다가 ablation이 first-attempt score를 크게 바꾸지 않는다는 점(초기 품질은 유지, 자기정정 시도만 감소)도 “메타 모니터링 쪽 기능”이라는 주장에 힘을 줍니다.

하지만 바로 여기서 ‘암묵회복’ 문제가 다시 돌아옵니다. 논문은 스스로 “우리가 잡는 ESR은 explicit ESR이고, implicit correction은 포착하지 못한다”고 말합니다. 그리고 ‘회로’ 주장을 강화하려면 오히려 이 암묵회복을 잡아야 합니다. 이유는 간단합니다. 만약 OTD latents가 진짜 “내부 일관성 검사”라면, 그것은 말투가 아니라 상태의 변화로 먼저 나타나야 합니다. 논문은 sequential activation에서 OTD가 오프토픽 구간에서 4.4배 더 켜지고, verbal correction 이전부터 변하기 시작한다고 보고합니다. 이는 내부 모니터링의 가능성을 시사하지만, 저자들도 “시간 선후만으로 인과/예측을 확정할 수 없다”고 조심스럽게 적습니다.

따라서 제가 “암묵회복”을 이 논문의 다음 단계로 보는 이유는, 그게 곧 ‘회로’ 주장과 직결되기 때문입니다. 추천할 수 있는 검증은 다음과 같습니다.

토픽 관련성의 시간축 회복 곡선입니다. attempt 경계 문구가 없어도, 생성 토큰 스트림을 작은 윈도우로 나눠 프롬프트 관련성을 점수화하면 “오프토픽→온토픽으로의 회복”을 연속 신호로 볼 수 있습니다.

OTD activation과 연속 관련성 점수의 선행 관계입니다. OTD가 먼저 움직이고 관련성이 뒤따라 회복한다면, “말투 회로”가 아니라 “내용 회로”에 가까워집니다.

OTD의 기능 분해입니다. 오프토픽이 아닌 상황에서도 “불확실·정정이 필요한 문제”(예: 모순이 내재된 질문, 계산 실수 유도 프롬프트)에서 OTD가 예측적이라면, 오프토픽 전용이 아니라 더 일반적인 모니터링 신호일 가능성이 커집니다.

또 하나 중요한 확장 포인트는 안전 스티어링입니다. 논문은 ESR이 양날의 검이라고 말합니다. 악의적 스티어링을 막는 보호막이 될 수도 있지만, truthfulness/harmlessness를 위한 유익한 개입(ITI나 representation engineering 계열)을 모델이 “부적절한 개입”으로 해석해 저항할 수도 있다는 경고입니다. 이 지점은 실제로 큰 임팩트를 낼 수 있는데, 현재 본문은 “가능한 함의”로만 남아 있습니다. 그래서 “유익한 안전 스티어링에서도 ESR이 저항하는가”는 후속 실험으로 매우 가치가 큽니다. 그 결과가 나오면 ESR을 단순한 ‘자기정정’이 아니라 ‘개입 감지-저항 메커니즘’으로 재정의해야 할 수도 있기 때문입니다.

마지막으로, 이 논문이 보여준 실용적 레버(메타 프롬프트와 미세튜닝)는 해석을 더 복잡하게 만듭니다. 메타 프롬프트 “오프토픽이면 멈추고 다시 하라”는 multi-attempt를 7.4%에서 31.7%로, ESR rate를 3.8%에서 14.8%로 크게 올립니다. 그런데 저자들은 conditional MSI(시도했을 때 성공률)는 크게 변하지 않는다고 말합니다. 즉, 메타 프롬프트는 “시도”를 늘리지만 “실력”을 늘리지는 않는다는 해석입니다.
LoRA 미세튜닝 실험도 같은 방향입니다. 8B에 self-correction 예시를 학습시키면 multi-attempt는 늘지만 improvement rate는 평평하게 남습니다. 저자들은 이를 “행동 모방은 되지만 진짜 모니터링은 별개”로 읽습니다. 이 결론은 꽤 중요한데, 동시에 ESR의 본질이 “진짜 내부 회로”인지 “학습 가능한 스타일”인지 더 날카롭게 구분해야 함을 뜻합니다.

정리하면, 암묵회복은 이 논문에서 빠진 영역이 아니라, 오히려 ‘회로’ 주장과 ‘안전 함의’를 강하게 만드는 핵심 관문입니다. 명시적 ESR에만 머물면, 언제든 “말투 차이” 반론이 살아남기 때문입니다.

(결론: 이 논문은 ESR을 명시적 self-correction으로 제한해 측정을 깔끔하게 만들고, Llama-3.3-70B에서 두드러진 ESR과 26개 latent ablation의 부분 인과 증거를 제시한 점이 강점입니다. 다만 레이어 사후 선택, 메타 대화 라벨 혼입, 암묵회복 미측정 때문에 ‘전용 자기검사 회로’ 결론은 아직 빠를 수 있습니다.)

자주 묻는 질문 (FAQ)

Q. ESR은 왜 “명시적 self-correction”만 측정했나요? A. 저자들은 “무엇을 측정하는지”를 분명히 하려는 목적에서, “Wait, that’s not right” 같은 명시적 문구가 있을 때만 attempt를 분할하고 ESR을 계산했습니다. 그 결과 메트릭이 깔끔해졌지만, 암묵적 회복은 포착하지 못하는 한계도 함께 생겼습니다.

Q. 26개 latent ablation이 ESR을 완전히 없애지 못한 이유는 무엇인가요?
A. 논문은 26개 latent를 0으로 clamping했을 때 ESR이 약 27% 감소하는 ‘부분 효과’만 관측했다고 보고하며, 중복 회로, 비선형 상호작용, 불완전한 커버리지 같은 추가 메커니즘 가능성을 한계로 적습니다. 그래서 26개 latent를 곧바로 “ESR 전부”로 동일시하기는 어렵습니다.

Q. 레이어 선택 편향이 그렇게 중요한가요?
A. 중요합니다. 논문은 Llama-3.3-70B에서 SAE 학습 레이어(50)와 다른 레이어(33)에서 스티어링을 적용했고, Gemma-2-27B도 여러 레이어를 돌려 ESR이 더 많이 나오는 레이어를 선택했다고 부록에 적습니다. 이는 “각 모델에 유리한 조건을 골랐다”는 비판을 부를 수 있어, 레이어-강도 공정 스윕 같은 추가 검증이 필요합니다.

[출처]
https://arxiv.org/html/2602.06941v1

Activation steering, 왜 생각보다 잘 안 먹히는가

ESR: 무엇을 측정했는지 명확한 만큼, 무엇을 놓쳤는지도 분명합니다

레이어: ‘공정 비교’ 주장과 ‘사후 선택’ 현실 사이의 긴장입니다

암묵회복: ‘회로’ 주장에 가장 필요한 추가 실험이기도 합니다

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

Activation steering, 왜 생각보다 잘 안 먹히는가

레이어별 활성 추적

곡률 하나로는 부족 그래프 이상탐지에 Riemannian experts

프로필