NVIDIA, 오픈소스 로봇 월드모델 DreamDojo 출시
NVIDIA가 完全 오픈소스 로봇 월드모델 DreamDojo를 출시했습니다.
44,711시간의 1인칭 인간 영상 데이터로 학습했으며, 물리 엔진 없이 픽셀에서 직접 로봇 동작의 결과를 “꿈”합니다.
Self Forcing 증류를 통해 10.81 FPS의 실시간 추론 속도를 달성했습니다.
🎯 인사이트: 로봇 시뮬레이션의 새로운 시대가 열렸습니다. 인간의 경험을 직접 학습하는 방식이 로봇 공학의 데이터 부족 문제를 해결할 수 있습니다.
로봇 공학의 가장 큰 난관
로봇을 위한 시뮬레이터 구축은 오랜期间的 도전이었습니다. 전통적인 엔진들은 물리학의 수동 코딩과 완벽한 3D 모델이 필요합니다. NVIDIA가 DreamDojo로 이것을 바꾸고 있습니다. 完全 공개소스이며 일반화 가능한 로봇 월드모델입니다.
기존 물리 엔진 대신, DreamDojo는 픽셀에서 직접 로봇 동작의 결과를 “꿈”합니다.
44k+ 시간의 인간 경험으로.robotics 확장
로obotics에서 AI의 가장 큰 장애물은 데이터입니다. 로봇 특정 데이터 수집은 비싸고 느립니다. DreamDojo는 44k+ 시간의 1인칭 인간 영상에서 학습함으로써 이것을 해결합니다.
이 데이터셋은 DreamDojo-HV라고 불리며, 월드모델 사전학습을 위해 이러한 종류로는 가장 큰 것입니다.
- 100만 개 이상의 궤적에서 6,015개의 고유한 작업
- 9,869개의 고유한 씬과 43,237개의 고유한 객체
- 사전학습에는 20억 및 140억 모델 변형을 구축하기 위해 100,000개의 NVIDIA H100 GPU 시간
인간들은 이미 액체 따르기나cloth 접기와 같은 복잡한 물리학을マスター했습니다. DreamDojo는 이 인간 데이터를 사용하여 로봇에게 세상이 어떻게 작동하는지에 대한 상식을 부여합니다.
잠재 동작으로 격차 해소
인간 영상에는 로봇 모터 명령이 없습니다. 이 영상을 “로봇 읽기 가능”하게 만들기 위해 NVIDIA 연구팀은 연속 잠재 동작을 도입했습니다. 이 시스템은 시공간 Transformer VAE를 사용하여 픽셀에서 직접 동작을 추출합니다.
- VAE 인코더는 2개의 연속 프레임을 취하고 32차원 잠재 벡터를 출력
- 이 벡터는 프레임 간 가장 중요한 모션을 Represents
- 설계는 동작을 시각적 컨텍스트에서 분리하는 정보 병목 현상을 생성
이를 통해 모델은 인간에게서 물리학을 배우고 이를 다른 로봇 몸체에 적용할 수 있습니다.
아키텍처를 통한 더 나은 물리학
DreamDojo는 Cosmos-Predict2.2 잠재 비디오 확산 모델을 기반으로 합니다. 시간 압축 비율 4를 가진 WAN2.2 토크나이저를 사용합니다. 팀은 3가지 주요 기능으로 아키텍처를 개선했습니다.
상대 동작
모델은 절대 자세 대신 조인 델타를 사용합니다. 이것은 모델이 다양한 궤적에 걸쳐 일반화하기更容易합니다.
청크된 동작 주입
각 잠재 프레임에 4개의 연속 동작을 주입합니다. 이것은 동작을 토크나이저의 압축 비율과 정렬하고 인과 관계 혼란을 수정합니다.
시간 일관성 손실
새로운 손실 함수가 예측된 프레임 속도를 실제 전환과 일치시킵니다. 이것은 시각적 아티팩트를 줄이고 객체를 물리적으로 일관되게 유지합니다.
10.81 FPS 실시간 상호작용을 위한 증류
시뮬레이터는 빠르지 않으면 فقط 유용합니다. 표준 확산 모델은 실시간 사용에 너무 많은 노이즈 제거 단계를 필요로 합니다. NVIDIA 팀은 이것을 해결하기 위해 Self Forcing 증류 파이프라인을 사용했습니다.
- 증류 학습은 64개의 NVIDIA H100 GPU에서 수행
- “학생” 모델은 노이즈 제거를 35단계에서 4단계로 감소
- 최종 모델은 10.81 FPS의 실시간 속도 달성
- 60초(600프레임)의 연속 롤아웃에 안정적
하류 애플리케이션 공개
DreamDojo의 속도와 정확도는 AI 엔지니어를 위한 여러 고급 애플리케이션을 가능하게 합니다.
신뢰할 수 있는 정책 평가
실제 세계에서 로봇 테스트는 위험합니다. DreamDojo는 벤치마킹을 위한 고 fidel 시뮬레이터로 동작합니다. 시뮬레이션된 성공률은 실제 결과와 피어슨 상관계수 0.995를 보입니다.
모델 기반 계획
로봇은 DreamDojo를 사용하여 “내다볼” 수 있습니다. 로봇은 여러 동작 시퀀스를 시뮬레이션하고 최상의 것을 선택할 수 있습니다. 과일 포장 작업에서 이것은 실제 성공률을 17% 향상시켰습니다.
실시간 텔레오퍼레이션
개발자는 실시간으로 가상 로봇을 텔레오퍼레이션할 수 있습니다. NVIDIA 팀은 PICO VR 컨트롤러와 NVIDIA RTX 5090이 있는 로컬 데스크톱을 사용하여 이를 시연했습니다.
DreamDojo-2B는 물리학 정확도 62.50%, 동작 추종 63.45%를 달성했습니다.
DreamDojo-14B는 물리학 정확도 73.50%, 동작 추종 72.55%를 달성했습니다.
증류된 모델은 10.81 FPS의 속도로 실시간 추론이 가능합니다.
NVIDIA는 모든 가중치, 학습 코드, 평가 벤치마크를 공개했습니다. 이 오픈소스 공개를 통해 오늘 바로 자신의 로봇 데이터에서 DreamDojo를 사후 학습할 수 있습니다.