NVIDIA, Robot World Model ‘DreamDojo’ 공개…44,711시간 인간 영상 데이터로 학습
💡 핵심 요약
NVIDIA가 完全공개소스 Robot World Model ‘DreamDojo’를 출시했습니다.
물리 엔진 대신 픽셀에서 직접 결과를 ‘做梦’하는 혁신적 접근입니다.
44,711시간의 제1인칭 인간 영상으로 학습하여 robot에게 세상의 ‘상식’을 부여합니다.
🎯 인사이트: AI Robot 개발의 한계를 넘는 획기적 도구. 이제 누구든 자신만의 Robot 모델을 만들 수 있습니다.
NVIDIA가 完全공개소스 Robot World Model ‘DreamDojo’를 출시했습니다.
물리 엔진 대신 픽셀에서 직접 결과를 ‘做梦’하는 혁신적 접근입니다.
44,711시간의 제1인칭 인간 영상으로 학습하여 robot에게 세상의 ‘상식’을 부여합니다.
🎯 인사이트: AI Robot 개발의 한계를 넘는 획기적 도구. 이제 누구든 자신만의 Robot 모델을 만들 수 있습니다.
Robot 시뮬레이터의 한계
Robot용 시뮬레이터 구축은 오랜 과제였습니다. 전통적인 엔진은 물리학과 완벽한 3D 모델의 手動 코딩이 필요합니다. NVIDIA가 DreamDojo로 이를 바꾸고 있습니다.
44k+ 시간의 인간 경험
AI의 Robot에서 가장 큰 장벽은 데이터입니다. Robot별 데이터 수집은 비용이 들고 느립니다. DreamDojo는 44k+ 시간의 제1인칭 인간 영상에서 학습하여 이를 해결합니다:
- 6,015개 Unique 작업, 100만+ trajectory 포함
- 9,869개 Unique 장면, 43,237개 Unique 객체 포함
- Pretraining에 100,000 NVIDIA H100 GPU 시간 사용
인간은 액체 따거나 옷 접기 같은 복잡한 물리를 이미 마스터했습니다. DreamDojo는 이 인간 데이터를 사용하여 Robot에게 세상이 어떻게 움직이는지에 대한 ‘상식’을 부여합니다.
Latent Actions로 간극 메우기
인간 영상에는 Robot 모터 명령이 없습니다. NVIDIA 연구팀은 Continuous Latent Actions을 도입하여 이러한 영상을 ‘Robot-readable’하게 만들었습니다.
- VAE encoder가 2개의 연속 frame을 받아 32차원 latent vector 출력
- 이 벡터는 frame 간 가장 중요한 모션을 표현
- 하드웨어에 구애받지 않는 제어 인터페이스 역할
구조를 통한 더 나은 물리
DreamDojo는 Cosmos-Predict2.5 Latent Video Diffusion Model을 기반으로 합니다:
- Relative Actions: 절대 포즈 대신 joint deltas 사용하여 다양한 trajectory 일반화
- Chunked Action Injection: 각 latent frame에 4개 연속 action 주입
- Temporal Consistency Loss: 예측된 frame 속도를ground-truth 전이와 일치시킴
🚀 10.81 FPS 실시간 상호작용
표준 확산 모델은 실시간 사용에 너무 많은 denoising 단계가 필요합니다. NVIDIA 팀은 Self Forcing Distillation Pipeline을 사용하여 해결했습니다:
- 4단계로 denoising 감소 (기존 35단계에서)
- 10.81 FPS 실시간 속도 달성
- 60초(600프레임) 연속 rollouts 안정적