activations도 ‘분포’가 있다 내부 상태를 모델링해보기

LLM 조향(steering)은 “원하는 개념을 밀어 넣는 일”은 쉬운데, 그 순간 활성화가 쉽게 망가져(off-manifold) 유창성이 무너지는 것이 문제입니다. 2602.06964v1은 활성화 공간 자체에 강한 생성 prior를 학습한 GLP로, 개입 결과를 매니폴드 위로 “투영”해 조향-유창성 트레이드오프를 개선합니다.

GLP가 겨냥한 핵심: off-manifold 개입을 매니폴드로 되돌리는 조향

이 논문이 정확히 찌르는 문제는 “개입은 쉽게 off-manifold로 튄다”입니다. 기존의 PCA, 선형 방향 벡터, SAE 기반 조향은 각자 구조 가정(선형성, 희소성, 특정 기저)을 깔고 들어가는데, 이 가정이 실제 활성화 분포와 어긋나면 개입 결과가 ‘자연스러운 활성화’가 아니라 ‘깨진 활성화’가 되기 쉽습니다. 논문은 이런 깨짐이 텍스트 생성에서 유창성 저하로 나타난다고 문제를 세팅하고, 이를 해결하기 위해 활성화 자체의 분포를 학습하는 생성 모델을 “prior”로 두자고 제안합니다.

GLP(Generative Latent Prior)는 활성화 벡터에 대한 확산(diffusion) 메타모델입니다. 저자들은 Llama1B의 residual stream 활성화를 FineWeb에서 10억 토큰 규모로 수집해, 활성화 분포를 직접 학습합니다. “SAE를 학습할 때 흔히 쓰는 활성화 데이터”를 그대로 쓰되, 구조 가정 대신 생성 목적을 사용한다는 대비가 분명합니다. 또한 모델 품질을 직관이 아니라 지표로 점검하려고 Frechet Distance(FD)와 PCA 시각화를 사용해 생성 샘플이 실제 활성화와 얼마나 가까운지 확인합니다.

여기서 사용자의 총평처럼 강점은 “아이디어→스케일링→다운스트림 효용”의 연결입니다. 논문은 GLP를 단지 ‘좋아 보이는 개입 도구’로 소개하지 않고, 확산 손실이 compute에 대해 매끄러운 파워로(power law)로 내려가며(irreducible error까지 피팅), 그 손실이 실제 조향 성능/프로빙 성능과 함께 개선된다는 그림을 핵심 메시지로 세웁니다. Figure 2는 (a) diffusion loss, (b) 긍정 감정 조향 성능(개념&유창성 평균), (c) 113개 이진 태스크의 1-D probing AUC가 모두 compute 증가에 따라 같이 좋아지는 모습을 보여 줍니다. 즉 “더 키우면 뭐가 좋아지나”에 대해 비교적 정직한 답을 줍니다.

다만 사용자의 비판(A)처럼, “구조 가정이 없다”는 주장에 비해 평가 설정이 아직 단순한 축에 많이 걸려 있습니다. 논문 자체가 한계로 “단일 토큰 활성화를 독립으로 모델링”한다고 명시하고, attention 없이 MLP 블록만으로 확산 모델을 구성했다고 밝힙니다. 또한 데이터도 “중간 레이어의 residual stream” 중심(예: Llama1B Layer 7, Llama8B Layer 15)으로 고정해 수집합니다. 이 선택은 구현과 스케일링에 유리하지만, off-manifold 문제가 실제로는 “문맥 흐름(멀티토큰 상관)”에서 더 크게 터질 수 있다는 점을 생각하면, 구조 가정이 정말 필요 없다는 결론을 일반화하기엔 아직 이르다는 인상을 줍니다.

제가 보기엔 이 논문을 더 단단하게 만드는 방향은 “GLP가 어떤 구조 가정을 ‘안 한다’고 말할 수 있는지”를 정교하게 분리하는 것입니다. 지금 GLP는 선형/희소성 같은 명시적 가정을 하지 않지만, 단일 토큰 독립이라는 강한 단순화 가정을 합니다. 따라서 독자 입장에서는 “구조 가정을 안 한다”가 아니라 “선형·희소성 가정을 대신 ‘단일 토큰 독립’으로 바꿔서, 생성 prior의 장점을 먼저 증명했다”로 이해하는 편이 정확합니다. 이 framing을 논문이 더 적극적으로 가져가면, 오히려 방어력이 올라갑니다.

비교 축	논문이 보여준 핵심 결과/해석
생성 품질(FD)	GLP는 순수 노이즈에서 샘플링해도 FD가 SAE 재구성보다 낮고, 규모가 커질수록 FD가 개선됩니다.
개입 품질(ΔLM Loss)	GLP는 재구성 훈련이 아닌데도 ΔLM Loss가 SAE보다 낮다고 보고하며, “SAE 희소성 유도→off-manifold” 가설을 제시합니다.
활용(조향/프로빙)	확산 손실이 낮을수록 조향의 Pareto frontier와 1-D probing AUC가 함께 개선됩니다.

이 표가 보여주듯, 논문은 “활성화 매니폴드 prior”가 실제로 유용하다는 정황을 여러 지표로 쌓습니다. 하지만 바로 그 지점에서, 사용자 비평이 말한 “평가의 범위가 제한적”이라는 약점도 함께 보입니다. FD/ΔLM Loss/조향/프로빙이 모두 주로 단일 토큰·단일 레이어 설정에서 측정되기 때문입니다. 만약 멀티토큰 GLP(짧은 윈도우 joint modeling)로 확장했을 때도 같은 형태의 Pareto 개선이 유지된다면, “구조 가정이 없다”는 주장에 훨씬 실질적인 무게가 실릴 것입니다.

확산 기반 투영이 왜 먹히나: SDEdit 유사 ‘노이즈-디노이즈’로 개입을 정리

논문에서 가장 구현 가능한 기여는 ‘온-매니폴드 조향’ 알고리즘의 단순함입니다. 절차는 직관적입니다. (1) 기존 조향처럼 활성화에 개념 방향 벡터를 더해 개입한 뒤, (2) 일정 수준의 노이즈를 섞어(t_start) 확산 샘플링의 중간 시점에서 시작하고, (3) GLP 디노이저로 여러 스텝을 거치며 denoise해 “자연스러운 활성화” 쪽으로 끌어옵니다. 저자들은 이를 이미지 편집의 SDEdit과의 활성화 공간 아날로그로 설명하고, Figure 4에 의사코드로 명확히 제시합니다. 기본 하이퍼파라미터로 t_start=0.5, num_steps=20을 사용합니다.

이 설계가 좋은 이유는 “조향을 없애지 않고, 조향 결과를 정리한다”는 점입니다. 즉 개입 자체는 여전히 선형 방향 벡터(예: DiffMean, SAE decoder direction, Persona Vector)를 쓰되, 그 결과가 매니폴드 밖으로 튀는 문제를 GLP가 후처리로 정돈합니다. 실제로 SAE 조향에서는 500개 랜덤 방향을 잡아 Neuronpedia의 feature description과의 일치(개념 점수)와 유창성 점수를 함께 보고, GLP 후처리가 concept–fluency Pareto frontier를 바깥으로 확장한다고 보고합니다(Figure 5). Persona Vector 조향에서도 세 가지 특성(예: Evil, Sycophantic, Hallucinating)에 대해 Pareto frontier가 확장됩니다(Figure 6).

하지만 사용자의 비판(B)처럼, 이 “개념/유창성” 점수는 LLM-as-a-judge 의존이 큽니다. Figure 5에서는 0–2 스케일 judge, Figure 6에서는 0–100 스케일 judge를 사용하며, 부트스트랩 CI까지 그려 정교해 보이지만, judge 모델/프롬프트 편향 가능성은 남습니다. 특히 “유창성”은 정의가 애매하고, persona(특히 evil 같은 고위험 콘셉트)는 judge가 과잉반응할 소지가 있습니다. 논문이 더 강해지려면, 최소한 일부는 사람 평가 또는 자동 지표(Perplexity 변화, 문법 오류율, 안전성/유해성 지표 등)로 교차검증해 “judge가 바뀌어도 frontier 개선이 유지되는지”를 보여주는 편이 좋습니다.

또 하나의 현실적 논쟁은 비용입니다. GLP는 활성화 10억 토큰 규모 데이터로 학습하며, 가장 긴 학습이 A100 80GB 단일 GPU에서 5.6일 걸렸다고 명시합니다. 더 중요한 건 추론 비용인데, GLP 후처리는 확산 샘플링 스텝 수에 따라 지연이 증가합니다. 논문은 Figure 3에서 스텝 수가 늘수록 FD가 개선되고 약 20 스텝 부근에서 분포가 ‘상당히 구분 불가’ 수준으로 수렴한다고 보여줍니다. 하지만 “스텝 수 vs 조향 효용/유창성” 곡선이 더 직접적으로 제시되면 실사용 관점의 설득력이 크게 오를 것입니다. 어떤 팀은 20스텝도 비싸고, 어떤 팀은 4스텝만 허용할 수 있기 때문입니다.

안전성 관점도 가볍게 넘기기 어렵습니다. 논문은 Impact Statement에서 “활성화만 생성하므로 텍스트 생성 모델처럼 악용 위험이 낮다”는 취지로 말하지만, 실제로는 활성화를 조작하면 행동이 바뀝니다. Table 3의 “Evil persona” 예시는 연구적으로는 조향이 잘 된다는 시연이지만, 독자에 따라서는 악성 행동을 강화하는 기술로 읽힐 여지가 있습니다. 따라서 방어적으로는 (1) 어떤 용도에서만 사용해야 하는지, (2) 안전 가드레일(예: 금지 컨셉 리스트, 탐지/완화 레이어)을 어떻게 설계할지, (3) 유해성 지표에서의 변화는 어떤지까지 더 진지하게 다루는 편이 좋습니다.

정리하면, 확산 기반 투영은 “조향의 유용함을 유지하면서 부작용을 줄이는” 매우 실용적인 아이디어입니다. 다만 그 가치가 실사용으로 이어지려면 judge 교차검증, 스텝-효용-지연 트레이드오프, 안전성 보고가 더 촘촘히 따라와야 합니다.

SAE 비교는 ‘우월’보다 ‘목표 차이’부터 분리해야 공정해집니다

사용자의 비평(C)은 리뷰에서 가장 자주 나올 유형의 공격입니다. GLP가 SAE보다 “낫다”는 표현은 위험합니다. 왜냐하면 두 방법의 목적이 다르기 때문입니다. SAE는 희소성(sparsity), 모노시맨틱 특성 같은 구조적 바람을 목표로 삼는 경우가 많고, GLP는 애초에 “활성화 분포를 생성적으로 모사”해 매니폴드성을 보존하는 prior를 만드는 것이 목적입니다. 논문도 ΔLM Loss 결과를 해석하면서 “SAE는 희소성 유도 때문에 재구성이 off-manifold가 될 수 있다”는 가설을 제시합니다. 하지만 이 해석은 ‘목표가 다른데 결과를 한 축으로 비교한다’는 반론을 쉽게 부릅니다.

그럼에도 논문이 SAE 대비 강하게 밀어붙일 수 있는 지점은 “조건을 불리하게 잡아도 성과가 나온다”는 부분입니다. 예를 들어 Table 1에서 SAE는 실제 활성화에서 재구성을 시작하는(더 유리한) 설정인데도, GLP는 순수 노이즈에서 생성해 더 낮은 FD를 달성했다고 보고합니다. 또한 Table 2에서 GLP는 ‘재구성 전용 학습’을 하지 않았는데도 ΔLM Loss가 SAE보다 낮다고 제시합니다. 이런 결과는 “GLP가 매니폴드 보존에 유리하다”는 주장에는 도움이 됩니다.

다만 “우월성”으로 결론을 내리려면 공정 비교 조건을 맞춰야 합니다. 제가 보기엔 가장 설득력 있는 공정 조건은 다음 중 하나입니다.

동일 ΔLM Loss 조건에서의 조향 성능 비교입니다
즉 “모델을 얼마나 망가뜨렸는지(유창성/퍼플렉서티 손실)”를 같은 수준으로 맞춘 뒤, 개념 점수/조향 성공률을 비교해야 합니다. 지금은 GLP가 ΔLM Loss에서 이점이 있다는 결과가 있지만, 조향 frontier 비교에서는 LLM-judge 기반 유창성 점수를 쓰고 있어 축이 섞입니다.

동일 정보병목(예: 비트율/압축률) 조건 비교입니다
SAE는 병목 구조가 명시적이고, GLP는 노이즈 주입(t_start)이 사실상 정보병목처럼 작동한다고 논문이 설명합니다. 그렇다면 “동일한 정보 제거량”을 맞춰 놓고, 복원 품질과 개입 후 성능을 비교하면 ‘목표가 다르다’는 반론을 약화시킬 수 있습니다.

동일 지연/비용 조건에서의 최적 frontier 비교입니다
GLP는 diffusion steps가 비용을 결정합니다. SAE는 한 번의 인코딩/디코딩이 주 비용입니다. 실사용에서는 “같은 latency 예산”에서 어느 쪽이 더 좋은 개념-유창성 frontier를 주는지가 더 중요할 수 있습니다. Figure 3이 steps vs FD를 보여주듯, steps 축을 실제 조향 frontier에도 붙이는 분석이 있으면 이 비교가 가능해집니다.

또 하나 중요한 포인트는 GLP 내부 표현(meta-neurons)의 프로빙 성능입니다. 논문은 113개 이진 태스크에서 GLP meta-neurons가 SAE, raw layer output, raw MLP neuron 대비 더 높은 1-D probing AUC를 보여준다고 보고합니다(Table 4). 특히 “Llama1B GLP가 Llama8B raw activations보다 낫다”는 해석은 인상적이며, GLP가 단순 후처리 prior를 넘어 “해석 가능한 특징 추출기”로도 의미가 있음을 시사합니다.

하지만 이 결과도 설정상의 단순화(마지막 토큰, 단일 토큰 입력, 특정 위치의 meta-neuron 후보 탐색)를 안고 있습니다. 따라서 이 부분 역시 멀티토큰/멀티레이어로 확장했을 때 “프로빙 성능 상승이 유지되는지”가 다음 단계의 핵심 검증이 됩니다. 논문도 Discussion에서 단일 토큰 독립, unconditional 설계, 단일 레이어 중심이라는 한계를 직접 적고, 멀티토큰 구조와 조건부 모델링의 가능성을 미래 과제로 제시합니다.

결국 이 논문이 가장 잘하는 말은 “SAE보다 우월하다”가 아니라, “매니폴드 prior를 가진 생성 메타모델을 키우면(손실↓) 조향과 프로빙이 같이 좋아진다”입니다. 저는 사용자 총평에 동의하며, 이 메시지를 더 잘 방어하려면 SAE와의 비교는 우열이 아니라 ‘목표·제약·비용을 맞춘 공정한 경기장’으로 옮겨야 한다고 봅니다.

(결론: 2602.06964v1은 활성화 공간의 생성 prior(GLP)로 개입을 매니폴드 위로 투영해 조향의 유창성 붕괴를 줄이고, 확산 손실 스케일링이 조향/프로빙 개선으로 이어진다는 연결을 깔끔하게 보여줍니다. 다만 단일토큰·단일레이어 중심 평가, LLM-judge 의존, SAE 대비 공정 비교 조건 분리가 보강되면 결론의 설득력이 훨씬 올라갑니다.)

자주 묻는 질문 (FAQ)

Q. GLP는 무엇을 학습하고, 왜 “prior”라고 부르나요 A. GLP는 LLM의 residual stream 활성화 분포를 확산 목적(denoise)으로 학습하는 생성 메타모델입니다. 개입으로 활성화가 off-manifold로 튀었을 때, 노이즈-디노이즈 샘플링으로 자연스러운 활성화 매니폴드 쪽으로 되돌리는 역할을 하므로 “prior”로 작동합니다.

Q. 논문이 말하는 스케일링 이점은 무엇인가요
A. 확산 손실이 compute 증가에 따라 파워로로 감소하고, 그 손실 감소가 조향 성능(개념·유창성)과 1-D probing AUC 향상으로 이어진다고 보고합니다(Figure 2). 즉 손실이 다운스트림 효용을 예측하는 지표처럼 동작합니다.

Q. SAE보다 GLP가 “더 좋다”고 결론 내릴 수 있나요
A. 조심해야 합니다. GLP는 매니폴드 보존을 위한 생성 prior이고, SAE는 희소성/모노시맨틱 같은 다른 목표를 갖는 경우가 많습니다. 공정 비교를 위해서는 동일 ΔLM Loss, 동일 정보병목, 또는 동일 비용/지연 같은 제약을 맞춘 조건에서 frontier를 비교하는 방식이 더 설득력 있습니다.

[출처]
https://arxiv.org/html/2602.06964v1

activations도 ‘분포’가 있다 내부 상태를 모델링해보기

GLP가 겨냥한 핵심: off-manifold 개입을 매니폴드로 되돌리는 조향

확산 기반 투영이 왜 먹히나: SDEdit 유사 ‘노이즈-디노이즈’로 개입을 정리

SAE 비교는 ‘우월’보다 ‘목표 차이’부터 분리해야 공정해집니다

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

Activation steering, 왜 생각보다 잘 안 먹히는가

레이어별 활성 추적

곡률 하나로는 부족 그래프 이상탐지에 Riemannian experts

프로필