![]() |
| 곡률 하나로는 부족 그래프 이상탐지에 Riemannian experts |
제로샷 그래프 이상탐지는 “라벨 없이도 다른 도메인으로 건너가야 한다”는 점에서, 성능보다 먼저 일반화의 논리가 설득력 있어야 합니다. GAD-MoRE는 단일 곡률 임베딩이 도메인별 이상 구조를 왜곡할 수 있다는 문제의식을 전면에 두고, 곡률별 전문가(MoE)와 메모리 기반 라우팅으로 이를 풀려 합니다. 다만 곡률 선호가 진짜 ‘기하 이질성’ 때문인지, MCFA의 정당화와 메모리 라우팅의 스케일·안정성은 더 보수적으로 해석할 필요가 있습니다.
곡률: “단일 곡률이 왜 한계인지”를 설계로 밀어붙인 지점
이 논문의 출발점은 명확합니다. 그래프 도메인마다 이상 패턴의 형태가 다르고, 그 이상이 “어떤 기하 공간에서 더 잘 분리되는지(검출가능성, detectability)”가 달라서, 하나의 고정 곡률 공간에 모두를 넣으면 어떤 구조는 과압축/과팽창되어 분리도가 떨어진다는 주장입니다. 논문은 이 직관을 Figure 1의 예비 실험으로 강화합니다. 같은 Graph Autoencoder 기반 임베딩이라도 곡률 κ를 바꿨을 때 AUROC가 데이터셋마다 크게 달라지고, 예를 들어 Weibo는 κ=0(유클리드)에서 피크가 나타나는 반면, Citeseer/Cora는 양의 곡률, Amazon은 음의 곡률을 선호하는 경향을 보여줍니다. “단일 곡률이 보편 최적일 수 없다”는 메시지를 실험으로 먼저 깔아둔 점이 설득력 있는 편입니다.사용자 비평의 핵심처럼, 이 관측을 “기하 이질성의 증거”로 바로 연결할 때 인과 고리가 약해질 위험이 있습니다. 곡률이 다르면 거리함수의 스케일과 분포가 바뀌고(특히 hyperbolic/spherical의 거리 정의는 유클리드와 곧장 비교하기 어렵습니다), 학습 안정성(최적화 난이도)이나 정규화 방식 차이만으로도 “어떤 κ에서 더 잘 학습되는 현상”이 나올 수 있습니다. 논문은 곡률별 성능 차이를 강조하지만, 독자가 납득하려면 ‘곡률 그 자체’의 효과를 더 강하게 분리해 보여줘야 합니다.
제가 보기에 이 논문이 강한 지점은 “곡률 선택”을 하이퍼파라미터 튜닝으로 끝내지 않고, 아예 다중 곡률을 공존시키는 구조로 옮겼다는 점입니다. 즉 “어떤 κ가 맞는지 모르니 모두를 준비해두고, 데이터에 따라 선택한다”는 방향 전환이 깔끔합니다. 여기서 중요한 것은 곡률이 ‘정답’이라는 선언이 아니라, 곡률을 “inductive bias의 스위치”로 취급해 도메인 시프트에서 유연성을 확보했다는 설계 태도입니다.
다만 이 태도를 더 신뢰받게 만들려면, 논문 주장도 같은 톤으로 조정될수록 좋습니다. 예를 들어 “기하적으로 이질적이어서 곡률이 다르다”보다 “도메인마다 분리도가 달라 보이며, 이는 기하적 편향(곡률)이 표현을 바꾸기 때문일 가능성이 높다” 같은 표현이 과장 리스크를 줄입니다. 독자는 ‘가능성’의 언어를 더 신뢰하는 편입니다.
아래 표는 “단일 곡률 한계”를 실무 관점에서 어떤 상황에 적용해 볼 수 있는지 정리한 것입니다(논문 근거 + 사용자 비평의 우려를 함께 반영한 관점입니다).
| 관측/가설 | 실무적 해석과 주의점 |
|---|---|
| 도메인마다 최적 곡률이 다름 | 구조가 다른 그래프를 한 임베딩 공간에 고정하면 왜곡이 생길 수 있습니다. 다만 거리 스케일·학습 안정성 통제 없이는 ‘곡률 효과’로 단정하기 어렵습니다. |
| 다중 곡률이 분리도를 돕는다는 직관 | 모든 구조를 하나의 렌즈로 보지 않고, 여러 렌즈를 준비해 선택하는 전략입니다. 용량 증가 효과와의 분리를 위해 동일 파라미터 수 비교가 보강되면 더 좋습니다. |
| 제로샷 전이에서 supervised가 낮게 나올 수 있음 | 소스 도메인 라벨로 학습한 결정경계가 타깃에서 무너질 수 있습니다. “지도학습이 열등”이 아니라 “설정이 다름”으로 설명하는 편이 공정합니다. |
MoE: “곡률별 전문가”라는 해석이 깔끔하지만, 용량 효과와의 경계가 필요함
GAD-MoRE의 중심은 Mixture of Riemannian Experts입니다. K개의 expert가 각자 다른 Riemannian manifold(서로 다른 κ)에서 재구성을 수행하고, top-k sparse routing으로 선택된 expert들의 출력이 가중 합쳐져 최종 재구성 임베딩을 만들며, 그 재구성 오차(∥h−ĥ∥)로 이상 점수를 매기는 구조입니다. 논문은 expert가 learnable curvature κ를 갖고, 입력을 tangent space에서 manifold로 exp map으로 올린 뒤 처리하고 log map으로 다시 내리는 흐름까지 명시합니다. 이 설계는 “하나의 모델이 모든 구조를 다 잘 잡기 어렵다”는 문제를 MoE로 자연스럽게 풀어낸 케이스로 보입니다.특히 ablation에서 “w/o MoE”가 가장 큰 성능 저하를 보인다는 점은, 이 논문의 핵심 가설을 스스로 뒷받침하려는 노력으로 읽힙니다. Figure 3 설명에서 w/o MoE 변형의 평균 AUROC가 크게 떨어져(논문은 평균 AUROC 75.32%로 언급) 전체 모델의 평균 AUROC(예: 82.09%)와 격차를 보인다고 정리합니다. 이는 “단일 기하 렌즈가 부족하다”는 주장에 힘을 실어주는 정량 증거입니다.
다만 사용자 비평대로, 여기에는 늘 따라붙는 반론이 있습니다. “MoE가 좋다”가 “곡률 전문화가 좋다”와 동일하지 않을 수 있다는 점입니다. MoE는 기본적으로 용량과 조건부 계산을 늘립니다. 그러면 성능 향상이 ‘기하적 분화’ 때문인지, ‘전문가 용량/경로 분기’ 때문인지 분리하기가 어렵습니다. 논문은 곡률별 전문가를 핵심으로 내세우지만, 더 탄탄해지려면 다음과 같은 대안 비교가 필요합니다.
곡률이 아닌 다른 분화(메시지패싱 깊이, 필터, aggregation 변형, MLP 폭/깊이)로도 같은 수준의 이득이 나오는지 비교하는 실험입니다.
파라미터 수를 맞춘 “곡률 단일 + 더 큰 모델” vs “다중 곡률 MoE”의 정면 비교입니다.
이 지점은 논문을 깎아내리려는 포인트가 아니라, 오히려 논문이 더 강해질 수 있는 곳입니다. 만약 용량 통제 후에도 곡률 분화가 추가 이득을 보여주면, “기하 이질성”의 주장은 훨씬 단단해집니다.
또 하나, 독자가 실제로 궁금해하는 “왜 되는지” 분석도 더 있으면 좋습니다. 논문은 expert가 learnable curvature를 가진다고 하지만, 학습 후 각 expert의 κ가 어디로 수렴했는지, 도메인별로 어떤 expert가 자주 선택되는지 같은 해석 가능성 지표가 많지는 않습니다. “전문화가 진짜 일어났는가?”라는 질문은, 이 논문에서 가장 좋은 추가 그림이 될 수 있습니다. 예를 들어 “도메인/이상 유형별 routing 비율 히트맵”, “expert별 κ 분포”, “각 expert memory bank의 대표 패턴” 같은 분석이 붙으면, ‘곡률 전문가’라는 주장 자체가 독자의 머릿속에 시각적으로 고정됩니다.
라우팅: 메모리 기반 라우팅의 목표 적합성은 좋지만, MCFA·스케일·공정성은 더 보수적으로
이 논문의 라우팅은 일반 MoE의 “입력 특징만 보고 gate 결정”과 다른 방향을 겨냥합니다. 이상탐지에서 중요한 것은 “어떤 expert가 이 샘플을 잘 재구성하는가”이고, 재구성 품질은 곧 이상 점수의 신뢰도와 연결됩니다. 그래서 논문은 expert마다 memory bank를 두고, 과거에 그 expert가 ‘고품질로 재구성한’ 임베딩들을 저장한 뒤, 현재 입력과 memory bank의 manifold distance가 가까우면 그 expert로 보내는 logit을 사용합니다(Algorithm 2의 추론 절차에서 expert j의 logit을 memory bank에 대한 최소 manifold distance로 정의). 또한 cold-start 기간, quality gate(정규화된 quality score q), 교체 정책으로 memory의 노이즈와 요동을 줄이려 합니다. 목표함수와 라우팅 신호가 잘 맞닿아 있다는 점에서 발상 자체는 매우 직관적입니다.하지만 사용자 비평이 지적했듯, 이 방식은 스케일/안정성 리스크를 내장합니다.
첫째, “min 거리”는 노이즈에 민감합니다. memory bank에 우연히 가깝게 찍힌 샘플 하나가 있으면, 그 expert로 라우팅이 확 튈 수 있습니다. 논문은 quality gate와 교체 정책(히스테리시스 조건)을 두지만, 독자는 여전히 “memory 크기·업데이트 빈도·cold start 길이”에 민감한지 궁금해합니다. 민감도 분석이 추가되면 라우터의 실전 신뢰도가 올라갑니다.
둘째, 계산비용입니다. memory bank가 커질수록 거리 계산이 병목이 됩니다. 특히 대규모 그래프에서 노드마다 expert별 memory를 탐색하면, 이론적으로는 top-k routing이라도 라우팅 단계 자체가 무거워질 수 있습니다. 이때 ANN(근사 최근접) 적용 여부가 속도와 성능에 영향을 주는데, 이런 구현 디테일은 논문 결론보다 실무 독자에게 더 중요할 때가 많습니다.
여기서 실용적 보완 제안은 꽤 명확합니다.
“min” 대신 softmin(temperature 조절)이나 k-NN 평균거리 같은 완만한 통계를 쓰면 라우팅 요동이 줄어들 수 있습니다.
memory bank를 고정 크기로 두되, 도메인 편향이 생기지 않도록 “도메인/그래프별 균형 샘플링” 또는 “다양성 보존(클러스터 대표 저장)”을 넣을 수 있습니다.
inference에서 거리 계산 시간을 표로 공개하면, “대규모 그래프에서 병목인가?”에 대한 논쟁이 빠르게 정리됩니다.
다음은 MCFA(다중 곡률 feature alignment)입니다. 논문은 raw feature가 geometry-agnostic이므로, 각 곡률 공간에 맞는 입력을 만들기 위해 tangent mapping 후 PCA로 후보를 만들고, Laplacian score로 feature selection을 한 뒤 concat해서 최종 X를 구성합니다. 그리고 Laplacian score가 로컬 그래프 구조에 “smooth”한 특징을 보존한다고 설명합니다.
사용자 비평의 문제 제기는 여기서 정확히 날카롭습니다. 이상탐지는 종종 “국소 위배(비-smooth)”가 신호가 되기도 합니다. Laplacian score가 smooth한 특징을 선호한다면, 이상 신호를 깎을 위험이 있습니다. 논문은 “구조적 일관성을 보존한다”는 방향으로 정당화하지만, 독자가 납득하려면 MCFA의 역할 분해가 필요합니다. 예를 들면 다음 네 가지 비교가 있으면, MCFA가 ‘왜 필요한지’가 단번에 드러납니다.
PCA만 사용 vs Laplacian만 사용 vs 둘 다 vs 학습형 프로젝터(MLP/linear projector) 대체 비교입니다.
Laplacian score 선택 비율을 바꾸면서 AUROC/AUPRC가 어떻게 움직이는지(이상 신호 손실 여부)입니다.
마지막으로 비교 실험의 “해석 공정성”입니다. 논문은 zero-shot cross-domain 설정에서 GAD-MoRE가 supervised baseline보다도 성능이 좋다고 강조합니다(예: Table III/IV에서 평균 AUROC와 AUPRC를 제시). 실제로 GAD-MoRE의 평균 AUROC 82.09%, 평균 AUPRC 36.96%를 보고하고, IA-GGAD 대비 평균 AUROC 개선도 언급합니다.
그러나 이 결과는 “지도학습이 열등”이라기보다 “목표가 다르다”로 읽히는 편이 정확합니다. supervised baseline은 소스 도메인 라벨로 학습한 분류기이고, 타깃에서는 도메인 시프트로 결정경계가 무너질 수 있습니다. 즉, 제로샷 전이 설정에서 supervised가 낮게 나오는 건 놀랍지 않습니다. 이 점을 논문이 더 보수적으로 써주면 독자의 반발(‘과대해석’)을 줄이고, 오히려 제로샷 generalist 설계의 필요성이 더 자연스럽게 전달됩니다.
정리하면, GAD-MoRE는 “기하를 inductive bias로 보고, 그 bias를 단일값이 아니라 선택 가능한 집합으로 만든다”는 점에서 매우 현대적인 제로샷 일반화 전략입니다.
동시에 논문이 더 강해지려면, (1) 곡률 선호의 대안 가설을 통제 실험으로 배제하고, (2) MCFA가 이상 신호를 보존한다는 근거를 분해 실험으로 보여주며, (3) 메모리 라우팅의 스케일·안정성 민감도를 공개하고, (4) ‘전문화 증거(κ 수렴/라우팅 분포)’를 시각화하는 것이 효과적입니다. 이 네 가지가 채워지면, “왜 되는지”와 “언제 쓸지”가 동시에 선명해집니다.
GAD-MoRE의 핵심 가치는 단일 곡률 고정이 만드는 왜곡을 “곡률별 전문가+메모리 라우팅”으로 회피한 설계에 있습니다. 다만 곡률 효과의 인과, MCFA의 이상 신호 보존, 메모리 스케일·해석 가능성은 추가 실험이 필요하다는 비평이 타당합니다.
자주 묻는 질문 (FAQ)
Q. 곡률을 여러 개 쓰면 무조건 제로샷 성능이 좋아지나요? A. 여러 곡률은 “표현 왜곡을 줄일 가능성”을 키우지만, 용량 증가 효과와 섞일 수 있습니다. 동일 파라미터 수 통제, 거리 스케일 보정 등 대안 가설을 함께 점검해야 신뢰할 수 있습니다.Q. 메모리 기반 라우팅은 왜 이상탐지에 잘 맞나요?
A. 이상탐지에서 재구성 오차가 점수의 핵심이므로, “과거에 잘 재구성했던 패턴과의 유사성”으로 expert를 고르는 것은 목표함수와 정렬됩니다. 다만 min 거리의 요동과 대규모 그래프에서의 거리 계산 비용은 운영 리스크가 될 수 있습니다.
Q. MCFA의 Laplacian score가 이상 신호를 깎을 수 있다는 우려는 어떻게 확인하나요?
A. PCA만/LS만/둘 다/학습형 프로젝터 대체 같은 ablation이 가장 직관적입니다. 또한 Laplacian 선택 비율을 바꾸며 AUROC/AUPRC 추이를 보면 “smooth 선호가 이상 신호를 약화시키는지”를 데이터로 확인할 수 있습니다.
[출처]
https://arxiv.org/html/2602.06859v1

0 댓글