엔비디아, 오픈소스 로봇 월드 모델 DreamDojo 출시

44,711시간의 인간 영상 데이터로 학습한 대규모 로봇 월드 모델

로봇 시뮬레이터 구축은 오래된 도전 과제였습니다. 전통적인 엔진들은 물리학을 수동으로 코딩하고 완벽한 3D 모델이 필요합니다. 엔비디아가 이러한 문제를 새로운 방식으로 해결하고 있습니다. 바로 DreamDojo라는 완전 공개소프트웨어형 범용 로봇 월드 모델입니다. 물리 엔진 대신 DreamDojo는 로봇 행동의 결과를 직접 픽셀 형태로 ‘상상’합니다.

44,000시간 이상의 인간 경험으로 로봇 확장하기

로봇 인공지능에서 가장 큰 장벽은 데이터입니다. 로봇 전용 데이터 수집은 비용이 많이 들고 느립니다. DreamDojo는 44,000시간 이상의 자기중심 인간 영상에서 학습함으로써 이 문제를 해결합니다. 이 데이터셋은 DreamDojo-HV라고 불리며, 월드 모델 사전학습을 위한 최대 규모의 데이터셋입니다.

이 데이터셋은 6,015개의 고유한 작업과 100만 개 이상의 궤적을 포함합니다.
데이터는 9,869개의 고유한 장면과 43,237개의 고유한 객체를 커버합니다.
사전학습에는 20억 파라미터 모델과 140억 파라미터 모델 버전을 구축하기 위해 10만 개의 엔비디아 H100 GPU 시간이 사용되었습니다.

인간은 이미 액체를 따르거나 옷을 개키는 것과 같은 복잡한 물리학을 완전히 이해하고 있습니다. DreamDojo는 이 인간 데이터를 사용하여 로봇이 세계가 어떻게 작동하는지에 대한 ‘상식’을 갖도록 합니다.

잠재 행동을 통한 격차 해소

인간 영상에는 로봇 모터 명령이 없습니다. 이러한 영상을 ‘로봇이 읽을 수 있게’ 만들기 위해 엔비디아 연구팀은 연속적인 잠재 행동을 도입했습니다. 이 시스템은 시공간적 트랜스포머 VAE를 사용하여 픽셀에서 직접 행동을 추출합니다.

VAE 인코더는 2개의 연속적인 프레임을 입력받아 32차원 잠재 벡터를 출력합니다.
이 벡터는 프레임 사이의 가장 중요한 움직음을 나타냅니다.
이 설계는 행동과 시각적 맥락을 분리하는 정보 병목 현상을 만들어냅니다.
이를 통해 모델은 인간에게서 물리학을 배우고 이를 다양한 로봇 몸체에 적용할 수 있습니다.

아키텍처를 통한 더 나은 물리학

DreamDojo는 Cosmos-Predict2.5 잠재 비디오 확산 모델을 기반으로 합니다. WAN2.2 토크나이저를 사용하며, 이는 시간 압축 비율이 4입니다. 팀은 3가지 주요 기능으로 아키텍처를 개선했습니다.

상대 행동: 모델은 절대 자세 대신 관절 델타를 사용합니다. 이를 통해 다양한 궤적에서 모델이 일반화하기가 더 쉬워집니다.

청크 행동 주입: 각 잠재 프레임에 4개의 연속적인 행동을 주입합니다. 이는 행동을 토크나이저의 압축 비율과 정렬하고 인과 관계 혼란을 해결합니다.

시간적 일관성 손실: 새로운 손실 함수가 예측된 프레임 속도를 실제 전환과 일치시킵니다. 이는 시각적 아티팩트를 줄이고 객체의 물리적 일관성을 유지합니다.

10.81 FPS 실시간 상호작용을 위한 증류

시뮬레이터는 빠르지 않으면 쓸모가 없습니다. 표준 확산 모델은 실시간 사용에 필요한 너무 많은 디노이징 단계를 필요로 합니다. 엔비디아 팀은 Self Forcing 증류 파이프라인을 사용하여 이 문제를 해결했습니다.

증류 학습은 64개의 엔비디아 H100 GPU에서 수행되었습니다.
‘학생’ 모델은 디노이징 단계를 35개에서 4개로 줄였습니다.
최종 모델은 10.81 FPS의 실시간 속도를 달성합니다.
60초(600프레임) 동안 연속 롤아웃에 안정적입니다.

하류 애플리케이션 열기

DreamDojo의 속도와 정확도는 인공지능 엔지니어를 위한 여러 고급 애플리케이션을 가능하게 합니다.

신뢰할 수 있는 정책 평가

실제 세계에서 로봇을 테스트하는 것은 위험합니다. DreamDojo는 벤치마킹을 위한 고충실도 시뮬레이터로 동작합니다. 시뮬레이션된 성공률은 실제 세계 결과와 0.995의 피어슨 상관관계를 보입니다. 평균 최대 순위 위반(MMRV)은 단 0.003입니다.

모델 기반 계획

로봇은 DreamDojo를 사용하여 ‘전망’을 가질 수 있습니다. 로봇은 여러 행동 시퀀스를 시뮬레이션하고 최상의 것을 선택할 수 있습니다. 과일 포장 작업에서 이것은 실제 세계 성공률을 17% 향상시켰습니다. 무작위 샘플링과 비교할 때 2배의 성공률 향상을 제공합니다.

실시간 텔레오퍼레이션

개발자는 가상 로봇을 실시간으로 텔레오퍼레이션할 수 있습니다. 엔비디아 팀은 PICO VR 컨트롤러와 엔비디아 RTX 5090이 설치된 로컬 데스크톱을 사용하여 이를 시연했습니다. 이를 통해 안전하고 신속한 데이터 수집이 가능해집니다.

모델 성능 요약

지표	DREAMDOJO-2B	DREAMDOJO-14B
물리 정확성	62.50%	73.50%
행동 추종	63.45%	72.55%
FPS (증류)	10.81	N/A

핵심 정리

대규모 규모와 다양성: DreamDojo는 44,711시간의 영상으로 DreamDojo-HV에서 사전학습되었으며, 6,015개의 고유한 작업과 9,869개의 장면을 포함합니다.
통합 잠재 행동 프록시: 인간 영상에서 행동 레이블이 없다는 문제를 극복하기 위해, 모델은 시공간적 VAE를 통해 추출된 연속 잠재 행동을 사용하며, 이는 하드웨어에 구애되지 않는 제어 인터페이스 역할을 합니다.
최적화된 학습과 아키텍처: 모델은 상대 행동 변환, 청크 행동 주입, 특수 시간적 일관성 손실을 활용하여 고충실도 물리학과 정확한 제어 가능성을 달성합니다.
증류를 통한 실시간 성능: Self Forcing 증류 파이프라인을 통해 모델이 10.81 FPS로 가속화되어 1분 이상의 안정적인 장기 시뮬레이션과 실시간 텔레오퍼레이션과 같은 대화형 애플리케이션이 가능합니다.
하류 작업에 신뢰할 수 있음: DreamDojo는 정책 평가를 위한 정확한 시뮬레이터로 기능하며, 실제 세계 성공률과 0.995의 피어슨 상관관계를 보이고, 모델 기반 계획에 사용될 때 실제 세계 성능을 17% 향상시킬 수 있습니다.

엔비디아는 모든 가중치, 학습 코드, 평가 벤치마크를 공개했습니다. 이 공개소프트웨어 출시로 오늘부터 자신의 로봇 데이터로 DreamDojo를 사후학습할 수 있습니다.

자세한 내용은 논문과 코드를 확인하세요.