| DreamDojo 사람 영상으로 로봇 월드모델을 만든다 |
로봇 월드모델은 “행동을 넣으면 미래를 시뮬레이션한다”는 약속을 하지만, 현실에서는 데이터가 너무 비싸고 액션 라벨은 더 희귀해 쉽게 정체됩니다. DreamDojo는 44k+ 시간의 인간 1인칭 영상으로 물리·상호작용을 먼저 배우고, 소량 로봇 데이터로 후적응(post-training)하는 전략으로 이 병목을 정면 돌파합니다. 다만 ‘잠재행동이 진짜 제어 인터페이스인가’와 ‘시뮬레이터로서 쓸모를 무엇으로 검증했는가’는 더 따져볼 지점입니다.
잠재행동으로 라벨 문제를 푸는 방식, “프록시 액션”의 정합성이 승부처입니다
DreamDojo의 가장 큰 설득력은 로봇 데이터의 커버리지·비용 한계를 “없던 일”로 만들지 않는 데서 시작합니다. 논문은 로봇 데이터가 하드웨어/수집 비용 때문에 분포가 좁고, 게다가 시연(demonstration) 위주라 의도와 변이가 부족해 반사실적(counterfactual) 행동에 둔감해질 수 있다고 전제합니다. 그래서 인간 영상에서 물리 지식을 뽑아 로봇으로 옮기겠다는 큰 그림을 택하고, 이를 위해 DreamDojo-HV를 포함한 혼합 데이터가 44,711시간에 이른다고 밝힙니다.여기서 기술적 핵심은 “액션 라벨 부족”을 연속 잠재행동(continuous latent actions)으로 통일해 해결하는 것입니다. 단순히 라벨 없는 비디오로 미래 프레임을 예측(action-free)하면 어느 정도 물리적 그럴듯함은 얻지만, 월드모델이 필요한 것은 “관측-행동-결과의 인과”이기 때문에 인터랙션에 취약해진다는 문제 제기가 논리적으로 깔끔합니다.
논문은 이를 보완하기 위해 VAE 기반 잠재행동 모델을 둡니다. 두 연속 프레임을 인코더에 넣어 행동을 요약하는 저차원 임베딩 â_t를 만들고, 디코더가 이전 프레임과 â_t로 다음 프레임을 복원하도록 학습합니다. 재구성 손실과 KL 정규화(정보 병목)를 통해 “컨텍스트가 아니라 프레임 간 핵심 모션”을 분리한다는 설계입니다.
또한 이 잠재행동을 “모든 비디오에 공통으로 붙일 수 있는 프록시 액션”으로 사용해, 인간 영상에서도 ‘행동 조건부’ 학습을 가능하게 만든다는 것이 주장입니다. 실제로 Table 2에서 action-free 대비 latent action 조건이 PSNR/SSIM/LPIPS에서 개선된 결과를 제시하며, 추가 장비로 얻는 이상적 라벨(예: retargeted action, MANO)과 비슷한 수준으로 간다고 설명합니다.
다만 사용자의 비평처럼, 이 접근의 가장 약한 고리는 “잠재행동이 진짜 액션인가”입니다. 잠재행동은 본질적으로 (제어 입력)이라기보다 (관측된 변화의 요약)으로 수렴하기 쉽습니다. 즉, 사람이 의도로 넣은 조작 신호라기보다 결과의 압축 표현이 되어버리면 제어 인터페이스로서 정합성이 흔들립니다. 논문은 cross-embodiment 일반화와 병목을 근거로 “행동의 핵심을 분리한다”고 말하지만, 제어 관점에서는 다음 긴장이 남습니다.
같은 잠재행동이라도 컨텍스트가 다르면 결과가 달라질 수 있습니다(접촉 여부, 마찰, 초기 위치 등).
반대로 같은 로봇 액션도 카메라 시점/속도/가림(occlusion)에 따라 잠재행동이 달라질 수 있습니다.
이 두 현상이 커지면 잠재행동은 “통제 가능한 입력”이 아니라 “사후 특징”이 됩니다.
그래서 저는 DreamDojo의 기여를 더 단단하게 하려면, 비디오 유사도 지표(PSNR/SSIM/LPIPS)만으로는 부족하고, ‘액션-반응성(control responsiveness)’을 정량화해야 한다고 봅니다. 논문이 월드모델을 “행동에 반응하는 상태 전이”로 정의한 만큼, 같은 초기 상태에서 액션을 바꾸면 미래가 얼마나 일관되게 달라지는지(반사실적 감도)를 직접 점수화하는 것이 설득력의 중심이 되어야 합니다.
예를 들어 다음은 비교적 규칙 기반으로도 가능합니다.
접촉 이벤트 정합성입니다(집기/놓기/충돌/미끄러짐 발생률)입니다.
오브젝트 위치·상태 변화 추적입니다(간단한 트래킹으로 궤적 오차)입니다.
목표 달성 여부입니다(과일을 봉지에 넣기 같은 태스크는 간단한 카운트/위치 규칙으로도 측정 가능)입니다.
이런 지표가 들어가면 “잠재행동이 얼마나 제어 입력처럼 작동하는가”를 직접적으로 보여줄 수 있습니다.
또 하나 칭찬할 부분은 DreamDojo가 “인과 혼선(causality confusion)”을 줄이기 위해 액션을 전역 컨디션으로 넣지 않고, 토크나이저의 시간 압축 비율에 맞춰 4프레임 단위로 액션을 청크로 주입(chunked action injection)한다는 점입니다. 미래 액션을 보는 것이 현재 예측에 도움이 되지 않으니, 오히려 잡음을 줄이자는 주장도 납득됩니다. 이런 설계가 실제로 Table 5에서 counterfactual과 expert 궤적 모두에 도움이 된다고 보고합니다.
정리하면, 잠재행동은 “라벨 없는 대규모 영상에서 인과 학습을 가능하게 만든다”는 점에서 핵심 기여이지만, 동시에 ‘제어 정밀도’라는 가장 까다로운 검증을 요구하는 포인트이기도 합니다.
| 논문 주장 | 비평 관점의 핵심 검증 |
|---|---|
| 잠재행동은 라벨 없는 영상에서 공통 프록시 액션입니다 | 같은 상태에서 액션 변경 시 미래가 ‘일관되게’ 달라지는지(반사실적 감도)를 정량화해야 합니다 |
| 비디오 유사도(PSNR/SSIM/LPIPS)로 성능을 보여줍니다 | 접촉/상태변화/목표달성 같은 ‘계획에 유효한 물리 지표’가 함께 있어야 합니다 |
정책평가가 정말 믿을 만한가, r=0.995는 강점이자 리스크입니다
DreamDojo가 다른 월드모델 논문과 차별화되는 부분은 “가능하다”에서 끝나지 않고, 정책평가(policy evaluation)와 계획(planning) 같은 다운스트림을 실제 실험 축으로 잡았다는 점입니다. 논문은 AgiBot 과일 포장(fruit packing) 태스크를 택해, 서로 다른 장면(20개)에서 실세계 롤아웃(약 80초)을 수집하고 동일 초기 프레임으로 DreamDojo 롤아웃을 생성한 뒤, 동일 기준으로 성공률을 사람 평가로 매깁니다. 그 결과 DreamDojo 성공률과 실세계 성공률의 Pearson 상관이 0.995, 순위 일관성 지표 MMRV가 0.003이라고 제시합니다.이 수치는 표면적으로 “시뮬레이터로 쓸 수 있다”는 매우 강한 근거입니다. 정책 개발에서 중요한 것은 절대값보다도 체크포인트 간 상대 순위이기 때문입니다. 논문도 이를 의식해 선형 상관과 랭크 일관성을 함께 보고합니다.
하지만 사용자의 비평처럼, 너무 높은 상관은 오히려 의심을 부를 수 있습니다. 이유는 간단합니다. 현실의 변동성, 센서 노이즈, 실패 모드(미끄러짐, 부분 접촉, 미세 충돌 등)를 생각하면, 작은 표본이나 특정 난이도 축에 의해 상관이 과대평가될 가능성이 자동으로 떠오르기 때문입니다.
게다가 논문 스스로도 limitations에서 “DreamDojo의 절대 성공률이 현실보다 높게 나오는 편이며, 미묘한 실패를 덜 만든다”고 인정합니다.
이 문장은 정책평가 관점에서 양면적입니다.
좋은 해석입니다: 순위는 맞추는데 실패를 덜 만들면, 정책을 낙관적으로 평가하는 경향이 생길 수 있으나 ‘학습 방향성’에는 도움이 될 수 있습니다.
나쁜 해석입니다: 안전·강건성 평가에는 치명적일 수 있습니다. 실제로는 실패할 정책을 시뮬레이터가 성공으로 그려주면, 현장 배치에서 문제가 커집니다.
따라서 정책평가 섹션의 설득력을 키우는 방법은 “상관이 왜 이렇게 높을 수 있는지”를 의심 가능한 가설로 분해하고, 각 가설을 약화시키는 추가 보고를 넣는 것입니다. 예를 들어 다음 질문은 독자가 바로 던질 질문입니다.
장면 다양성이 충분히 컸는지입니다. 20개 씬이 실제로 난이도와 변동성이 충분했는지, 아니면 ‘쉬운 씬은 둘 다 성공’ 같은 단순 축이었는지입니다.
채점 기준이 월드모델에 유리했는지입니다. 예컨대 “성공의 미묘한 실패”가 시뮬레이터에서는 표현되지 않아 점수가 부풀려졌다면, 상관은 높을 수 있습니다.
인간 평가가 어떤 정보를 봤는지입니다. 생성 비디오가 그럴듯하면 채점이 후해질 수 있고, 반대로 실세계 영상의 작은 흔들림이 불리할 수도 있습니다.
저는 특히 “부정적 현실성(negative realism)”을 강화하는 후속 실험이 중요하다고 봅니다. 논문은 미묘한 실패를 덜 만드는 한계를 이미 인정했고, 후속 방향으로 policy rollouts를 섞어 더 넓은 행동 분포를 커버해야 한다고 말합니다.
여기에 한 걸음 더 나가면, ‘실패 데이터’를 의도적으로 수집하거나, 실패를 구분하는 판별/가치 모델을 함께 학습해 실패 모드 재현력을 높이는 방향이 됩니다. 정책평가에서 진짜 중요한 것은 “성공 장면”이 아니라 “어떻게 실패하는가”이기 때문입니다.
또 하나, 데이터 스케일 메시지의 신뢰도도 정책평가 설득력에 직결됩니다. Table 1에서 DreamDojo-HV의 skill 수(6,015)가 GPT 추정(†)이라고 명시되어 있는데, 논문이 ‘최대·최다·최고 다양성’을 전면에 내세울수록 독자는 이런 추정치에 민감해집니다.
따라서 정의/중복 제거/계산법을 더 투명하게 제공하거나, 최소한 “하한(lower bound) 다양성”을 규칙 기반으로 함께 보고하면, 스케일 주장에 대한 불필요한 공격을 줄일 수 있습니다.
정리하면 정책평가는 DreamDojo의 실용성을 보여주는 강력한 카드이지만, r=0.995는 오히려 “왜 그렇게 높지”라는 질문을 낳는 카드이기도 합니다. 이 지점을 방어하려면, (i) 난이도·변동성 분해, (ii) 실패 재현력 보고, (iii) 채점 편향 통제 같은 추가 자료가 필요합니다.
실시간을 만든 증류, FPS만큼 중요한 것은 ‘장기 일관성’의 실패 모드입니다
월드모델이 실제로 쓰이려면 실시간성이 필요합니다. 논문도 이를 명시하며, 기존 비디오 확산 모델이 느린 이유를 (1) bidirectional attention으로 고정 지평이 생기고, (2) denoising step이 많아(예: 50) 추론이 느리기 때문이라고 정리합니다. 그래서 Self Forcing 계열의 절차를 따라 교사(teacher) 확산 모델을 학생(student) few-step 모델로 증류합니다. 핵심 포인트는 두 가지입니다. - 교사는 bidirectional attention을 쓰고 35 step으로 생성하지만, 학생은 causal attention으로 바꾸고 4 step으로 줄입니다. - 학생은 teacher forcing(warmup) 이후, 자신의 출력이 다음 입력이 되는 실제 추론 분포를 맞추는 distillation stage로 넘어가 long-horizon 누적오차(compounding error)를 줄입니다.결과는 직관적입니다. Table 6에서 교사는 2.72 FPS, 학생은 10.81 FPS로 약 4배 빨라졌다고 보고합니다. 동시에 장기 롤아웃(GR-1 Long Eval)에서 PSNR/SSIM/LPIPS는 일부 악화되지만, 실시간 인터랙션이 가능해지는 가치가 큽니다.
또한 학생 모델은 단일 초기 프레임만 보는 교사와 달리, 12프레임 컨텍스트를 자연스럽게 사용할 수 있어 가림이나 카메라 이동에 더 강하다고 주장합니다.
여기서 사용자의 비평이 요구하는 ‘진짜 중요한 질문’은 “증류 후 장기 안정성이 왜 좋아졌나”를 실패 모드로 분해하는 것입니다. 논문은 occlusion과 camera shift에 강하다는 질적 설명을 하지만, 교사 대비 어떤 실패가 줄고 어떤 실패가 늘었는지를 체계적으로 보여주면 실용성이 커집니다. 예를 들어 다음 분해가 가능합니다.
줄어든 실패입니다: object permanence 붕괴, 가림 후 객체 소실, 자세 추적 단절입니다.
늘어날 수 있는 실패입니다: 디테일 붕괴(텍스처/모서리), 반복 패턴 고착, 빠른 동작에서 모션 블러/왜곡입니다.
이런 분해는 단순히 “좋아졌다/나빠졌다”가 아니라, 어떤 응용(teleop, planning, evaluation)에 어느 정도까지 쓸 수 있는지 경계를 명확히 해줍니다.
또한 DreamDojo의 실시간성은 곧 “계획(planning)에서의 유효성”과 직결됩니다. 논문은 모델 기반 계획에서 여러 정책 체크포인트로 action proposal을 만들고, DreamDojo로 미래 롤아웃을 생성한 뒤 외부 value model로 최적 제안을 고르는 파이프라인을 제시합니다. 특히 성능 분산이 큰 정책 그룹에서 성공률이 크게 올라간다고 주장합니다.
하지만 여기서도 “비디오가 그럴듯해서”가 아니라 “행동 결과 예측이 맞아서” 의사결정이 좋아졌는지 분리해야 합니다. 이를 위해서는 예측-현실 간 결과 일치도를 추가로 보고하는 것이 효과적입니다. 예컨대 선택된 action proposal이 실제 실행에서 기대한 접촉 이벤트를 얼마나 재현했는지, 혹은 value model이 무엇을 보고 점수를 매기는지(논문은 DINOv2 기반 value model을 부록에서 설명)까지 연결해주면, “월드모델이 의사결정을 개선한다”는 주장에 방어력이 생깁니다.
마지막으로 논문이 스스로 인정한 한계는 로드맵을 더 설득력 있게 만들 힌트입니다. DreamDojo는 multi-view 시뮬레이션을 자연스럽게 지원하지 않는다고 밝힙니다.
이 한계는 단순 기능 부족이 아니라, 실제 정책이 멀티뷰에 의존하는 방향으로 가고 있다는 흐름과 부딪힙니다. 따라서 후속작에서는 multi-view consistency loss, 관측 불변(latent state) 정규화, 혹은 3D-aware latent 같은 방향을 최소한 로드맵으로 구체화하면, “큰 데이터+잠재행동”이 단발성 아이디어가 아니라 확장 가능한 연구 프로그램이라는 인상을 줄 수 있습니다.
실무 관점에서 DreamDojo류 월드모델을 평가하려는 팀이라면, 저는 다음 체크리스트가 유효하다고 봅니다.
반사실적 액션 스위프를 해야 합니다: 같은 초기 프레임에서 액션만 바꾸어 접촉/목표 달성 변화가 일관되게 나타나는지 봐야 합니다.
실패 재현력을 따로 측정해야 합니다: 절대 성공률이 현실보다 높아지는 경향을 보정하려면, 실패 장면만 모아 정밀 채점을 해야 합니다.
실시간성은 FPS만이 아닙니다: 10.81 FPS가 가능해도, 계획 파이프라인 전체 지연(샘플링 수, 배치 처리, value model 비용)까지 합친 엔드투엔드 지연을 봐야 합니다.
(결론: DreamDojo는 인간 영상 대규모 사전학습과 로봇 소량 후적응을 결합하고, 잠재행동으로 액션 라벨 병목을 풀며, 증류로 10.81 FPS 실시간성까지 연결한 점이 강점입니다. 다만 잠재행동의 제어 정합성, 정책평가 상관의 과대 가능성, 그리고 ‘미묘한 실패’ 재현력 한계를 더 정량적으로 통제하면 주장과 실용성이 훨씬 단단해질 수 있습니다.)
자주 묻는 질문 (FAQ)
Q. DreamDojo-HV의 “44,711시간” 같은 스케일이 왜 중요한가요 A. 로봇 데이터는 수집 비용 때문에 분포가 좁아 OOD 일반화가 약해지기 쉽습니다. 논문은 44,711시간의 인간 1인칭 영상 혼합 데이터로 다양한 물리 상호작용을 먼저 학습해, 소량 로봇 후적응만으로도 unseen 환경/오브젝트에 일반화하는 기반을 만든다고 주장합니다.Q. 잠재행동은 로봇 제어 입력을 대체할 수 있나요
A. 논문은 잠재행동을 “모든 비디오에 공통으로 적용 가능한 프록시 액션”으로 삼아 action-free 학습 대비 성능을 올린다고 보고합니다. 다만 잠재행동은 관측 변화 요약으로 수렴할 수 있어, 제어 인터페이스로서 정합성(같은 상태에서 액션 변경 시 미래가 일관되게 달라지는지)을 추가로 정량화하는 검증이 중요합니다.
Q. 실시간 10.81 FPS면 바로 계획과 평가에 안전하게 쓸 수 있나요
A. FPS는 필요조건일 뿐 충분조건은 아닙니다. 논문도 정책평가에서 DreamDojo의 절대 성공률이 현실보다 높게 나오는 경향(미묘한 실패 재현 부족)을 한계로 적습니다. 따라서 계획/평가에 쓰려면 반사실적 감도, 실패 재현력, 엔드투엔드 지연(월드모델+가치모델) 같은 추가 검증이 필요합니다.
[출처]
https://arxiv.org/html/2602.06949v1
0 댓글