TML-Interaction-Small: 실시간 멀티모달 AI가 여는 인간-AI 협업의 미래

요약

2760억 파라미터 Mixture-of-Experts 구조로 효율성과 고성능을 실현한 혁신적인 멀티모달 AI
200ms 단위 실시간 멀티모달 동시 처리 및 Voice Activity Detection 미사용 구현
진정한 인간-AI 협업을 가능케 하는 ‘동시 퍼셉션·제너레이션’ 병렬 구조

AI는 이제 도구를 넘어, 함께 일하는 동료로 진화하고 있습니다.

인공지능 기술의 발전은 인간과 기계의 상호작용 방식을 끊임없이 재정의하고 있습니다. 최근 Thinking Machines Lab의 TML-Interaction-Small은 그러한 흐름의 전환점을 예고하며, 실시간 인간-AI 협업을 위한 혁신적 멀티모달 모델로 주목받고 있습니다. 기존 대형 언어 모델을 뛰어넘는, ‘네이티브 멀티모달 아키텍처’의 길을 제시합니다.

Thinking Machines Lab과 TML-Interaction-Small의 등장

2026년 5월 13일, Thinking Machines Lab은 TML-Interaction-Small의 연구 프리뷰를 공식 발표했습니다. 이 모델은 단순히 텍스트만 다루는 AI를 넘어, 음성, 영상, 텍스트를 동시에 인식하고 실시간 반응할 수 있습니다. ‘실시간 협업’이라는 철학으로 설계되어, 인간과 AI가 진정한 동료처럼 자연스럽게 협력하는 새로운 환경을 지향합니다.

2760억 파라미터 Mixture-of-Experts: 효율성과 성능의 균형

TML-Interaction-Small의 핵심 기술은 대규모 2760억 파라미터 Mixture-of-Experts(MoE) 구조에 있습니다. MoE 아키텍처는 다양한 분야에 특화된 여러 ‘전문가’ 네트워크를 두고, 입력 데이터 특성에 따라 적절한 네트워크만 선택적으로 활성화하는 방식입니다.

흥미로운 점은, 실제 예측 시 활성화되는 파라미터는 120억(12B) 수준에 불과하다는 사실입니다. 전체의 약 4.3%만을 사용해 지식 표현력은 유지하며, 현실적인 추론 속도와 자원 효율성까지 동시에 확보했습니다. 초대형 모델의 강점과 실용성을 겸비한 접근입니다.

200ms 단위 실시간 멀티모달 처리 아키텍처

이 모델의 또 다른 주요 혁신은 200ms 단위 청크(chunk) 처리 능력에 있습니다. 음성, 영상, 텍스트 입력을 각각 200밀리초 간격의 작은 청크로 분할해 동시에 처리하는 방식은, 인간의 자연 대화 리듬에 가까운 즉각성을 제공합니다.

특히 외부 Voice Activity Detection(VAD) 모듈이 필요 없습니다. 기존 음성 인식 시스템과 달리 TML-Interaction-Small은 음성 신호의 유무까지 자체적으로 처리해, 더 간편하고 지연 없는 반응을 보장합니다.

동시 퍼셉션·제너레이션: 실시간 협업의 핵심

대부분의 기존 멀티모달 AI 예시(예: OpenAI GPT-4V, Google Gemini)는 턴베이스(순차적) 구조로, 모든 입력이 끝난 후에 응답을 생성합니다. TML-Interaction-Small은 이 틀을 깨고, 인식(Perception)과 생성(Generation) 작업을 동시에 수행하는 병렬 구조를 도입했습니다.

즉, 사용자가 말을 끝내기를 기다리지 않고, AI가 한편으로 계속 맥락을 분석하며 적합한 응답을 실시간으로 만들어낼 수 있습니다. 이것이야말로 인간 간 대화에 가까운, 끊김 없는 상호작용을 가능하게 합니다.

기존 멀티모달 AI와의 차별점

OpenAI GPT-4V는 텍스트와 이미지를 통합적으로 이해하지만, 실시간 음성 대화에는 최적화되어 있지 않습니다. Google Gemini도 다양한 입력을 다루나, 대부분 사전에 정의된 입력에 대한 응답 생성에 초점을 둡니다.

TML-Interaction-Small은 실시간성 자체를 우선 원칙으로 삼아, 200ms 단위 청크 처리, VAD 미사용, 동시 퍼셉션·제너레이션 등 완전히 다른 협업 중심 아키텍처를 보여줍니다. 즉각적, 연속적 인간-AI 상호작용 실현에 최적화된 설계입니다.

실시간 인간-AI 협업의 미래 활용처

TML-Interaction-Small 기반 실시간 멀티모달 AI는 다양한 분야에서 변화의 가능성을 엽니다.

교육·트레이닝: AI 튜터가 학생의 풀이 과정을 영상·음성으로 실시간 분석하고, 즉시 피드백·힌트 제공
의료: 진료 영상/음성을 실시간 인식해 의사의 임상 판단을 보조
창작·디자인: 디자이너의 작업을 실시간 분석하며 즉각적인 개선 제안 및 변화 이미지 생성
고객 서비스: 고객 발화와 표정·감정을 동시에 포착해 인간 상담사와 비슷한 자연스러운 상호작용 구현

결론: 실시간 협업 AI의 새 지평

TML-Interaction-Small은 2760억 파라미터 기반 MoE의 힘, 200ms 실시간 멀티모달 처리, 그리고 동시 퍼셉션·제너레이션 구조로 협업 중심의 AI 패러다임을 제시합니다. 이 모델을 통해 AI는 단순한 도구가 아니라 ‘협력자’로 거듭나고 있습니다. 앞으로 이 혁신 기술이 어떤 새로운 쓰임과 가치를 만들어낼지 주목할 만합니다.

주요 포인트

2760억 파라미터 MoE로 효율성과 고성능의 조화
200ms 단위 실시간 멀티모달 동시 처리 및 VAD 미사용
동시 퍼셉션·제너레이션, 인간-AI 협업의 새 패러다임

TAG : TML-Interaction-Small, Thinking Machines Lab, 실시간 멀티모달 AI, Mixture-of-Experts, AI-human collaboration, 네이티브 멀티모달, 200ms 처리, Perception-Generation 병렬

요약