로봇, 15분 기억 장착: MEM 구조로 장기 작업을 완성하다

💡 핵심 요약

로봇의 장기 작업 수행에서 ‘기억력’의 중요성이 실험적으로 입증됨.

MEM 구조 도입 후 실제 작업 성공률이 크게 향상: 냉장고 열기(+62%), 젓가락 집기(+11%).

VLA 모델의 단기 관찰 한계를 실 데이터로 돌파한 멀티스케일 메모리가 핵심.

🎯 인사이트: 복합적이고 긴 시간의 맥락을 파악하는 멀티스케일 메모리야말로 실세계 로봇 성능 혁신의 열쇠다.

로봇의 ‘기억력’ 문제는 왜 중요한가?

로봇은 점차 더 복잡한 작업을 요구받고 있다. 물건 집기나 냉장고 열기처럼 단순해 보이는 동작도 실제로는 연속성과 맥락 기억력이 필수다. 기존 VLA(Vision-Language-Action) 모델은 단기 관찰 기반에 강점이 있었으나, 작업 단계가 많거나 맥락이 오래 이어질 땐 실패가 많았다. 이는 로봇이 과거 정보를 빠르게 잊고, 긴 맥락을 이해하지 못해 생긴 한계다. 실사용, 상업화, 안전성 모두 ‘기억력’ 강화와 직결된다.

기존 VLA 모델의 한계

VLA 모델은 비전, 언어, 행동을 결합하지만, 입력 데이터의 단기적 처리에 집중된 구조다. 길고 복잡한 작업에서는 이전 동작을 충분히 기억하지 못해 오류 확률이 높아진다. 예를 들면, 냉장고 문 열기 작업에서 단계별 인식은 가능하나 전체 맥락을 지속적으로 참고하지 못해 실패가 잦다. 단기 관찰만 저장하는 인코더 구조의 한계로 정보 손실 문제가 발생하며, 이 때문에 긴 실세계 작업 성공률이 제한적이다.

MEM 구조 — 단기·장기 메모리 통합 원리

스탠포드·UC 버클리·MIT 연구진은 MEM(Multi-scale Memory) 구조로 이 ‘기억력 결여’ 문제 해소를 시도했다. MEM은 단기 비디오 메모리(즉각적 응답)와 장기 언어요약(전체 상황 문맥 보존)을 병렬로 활용한다. 특히 비디오 인코더에 Space-Time Separable Attention(시공간 분리 주의집중)을 적용해 연산량 및 메모리 요구를 30% 이상 절감하면서도 맥락 정보는 충분히 보존한다. 최신 VLA 모델에 MEM을 직접 탑재해 두 메모리 구조가 상호보완적으로 동작한다.

실제 적용 결과 — 성능 향상 데이터

MEM 구조 적용 실험에서 냉장고 열기는 62% 성공률 향상, 젓가락 집기도 11% 증가했다. 특히 ’15분간 맥락 유지’를 요구하는 복잡 작업에서, 기존 VLA 모델은 중간에 맥락을 잃고 실패했지만 MEM은 전체 과정을 기억하며 연속성을 요구하는 임무도 안정적으로 완수했다. 시공간 분리 인코더 덕분에 저렴한 연산 자원으로도 효율을 극대화할 수 있었다.

⚙️ AI & 오픈소스 활용 방안

MEM 구조는 로봇뿐 아니라 자율주행, 서비스로봇 등 장기적 연산·행동이 요구되는 AI 분야 모두에 적용 가능하다. 복잡한 실세계 문제 해결에 ‘기억력’이 상용화의 한계 돌파구임을 보여준다. 물류, 생산, 돌봄 등 장기 업무 AI 도입에 경쟁력이 강화될 전망이다.

🏷️ 태그: #로봇기억력, #MEM구조, #멀티스케일메모리, #VLA모델, #스탠포드

댓글 남기기