엔비디아, AI 스케일링을 위한 대규모 인프라 업데이트 Dynamo v0.9.0 출시

엔비디아, AI 스케일링을 위한 대규모 인프라 업데이트 Dynamo v0.9.0 출시

📌 핵심 요약

  • 엔비디아가 AI 추론 프레임워크의 최대 규모 인프라 업그레이드인 Dynamo v0.9.0을 출시했다.
  • NATS와 ETCD를 제거하고 ZMQ, MessagePack 기반의 새로운 아키텍처로 전환했다.
  • 세 가지 백엔드(vLLM, SGLang, TensorRT-LLM)를 통한 완전한 멀티모달 분할을 지원하며, E/P/D 분리 기능을 제공한다.
  • 플래시인덱서 미리보기와 칼만 필터 기반의 스마트 라우팅으로 지연 시간을 크게 단축했다.

💡 이번 업데이트는 분산 AI 추론의 운영 복잡성을 크게 낮추고, 대규모 모델 배포의 문턱을 획기적으로 낮출 것으로 기대된다.

엔비디아가 최근 AI 추론 프레임워크의 역사상 가장 큰 인프라 업그레이드인 Dynamo v0.9.0을 출시했다. 이 업데이트는 대규모 모델의 배포와 관리를 획기적으로 단순화하며, 특히 멀티모달 데이터 처리能力和 GPU 활용도를 크게 향상시킨 것으로 알려졌다.

NATS와 ETCD 제거: 경량화 인프라의 시대

이번 버전의 가장 큰 변화는 NATS와 ETCD의 제거다. 이전 버전에서 이 도구들은 서비스 검색과 메시징을 담당했으나, 개발자들이 추가 클러스터를 관리해야 하는 ‘운영 부담’을 가중시켰다.

엔비디아는 이를 새로운 이벤트 플레인과 디스커버리 플레인으로 대체했다. 시스템은 이제 고성능 전송을 위해 ZMQ(ZeroMQ)를, 데이터 직렬화에는 MessagePack을 사용한다. 쿠버네티스를 사용하는 팀을 위해 Dynamo는 네이티브 서비스 디스커 지원을 제공한다. 이 변경으로 운영 환경에서 인프라가 더욱 가볍고 유지보수가 쉬워졌다.

멀티모달 지원과 E/P/D 분할

Dynamo v0.9.0은 세 가지 주요 백엔드인 vLLM, SGLang, TensorRT-LLM 전반에 걸쳐 멀티모달 지원을 확대했다. 이를 통해 모델이 텍스트, 이미지, 비디오를 더 효율적으로 처리할 수 있게 되었다.

이번 업데이트의 핵심 기능은 E/P/D(인코딩/프리필/디코딩) 분할이다. 기존 설정에서는 단일 GPU가 세 단계를 모두 처리했는데, 이는 무거운 비디오나 이미지 처리 시 병목 현상을 야기했다. v0.9.0은 인코더 분리를 도입하여 인코더를 별도의 GPU 세트에서 실행할 수 있도록 했다. 이를 통해 모델의 특정 요구에 따라 하드웨어를 유연하게 확장할 수 있다.

플래시인덱서 미리보기: 지연 시간 문제 해결

이번 릴리스에는 분산 KV 캐시 관리의 지연 시간 문제를 해결하기 위해 설계된 플래시인덱서의 미리보기 버전이 포함되었다.

대규모 컨텍스트 윈도우로 작업할 때 GPU 간 키값 데이터를 이동하는 것은 느린 과정이다. 플래시인덱서는 이러한 캐시된 토큰의 인덱싱과 검색 방식을 개선하여 첫 번째 토큰까지의 시간(TTFT)을 단축한다. 아직 미리보기 버전이지만, 분산 추론이 로컬 추론만큼 빠르게 느껴지도록 하는 중요한 단계다.

스마트 라우팅과 부하 예측

수백 개의 GPU에 걸쳐 트래픽을 관리하는 것은 어렵다. Dynamo v0.9.0은 예측 부하 추정을 사용하는 더 똑똑한 플래너를 도입했다.

시스템은 칼만 필터를 사용하여 과거 성능에 기반하여 요청의 미래 부하를 예측한다. 또한 쿠버네티스 게이트웨이 API 추론 확장(GAIE)의 라우팅 힌트를 지원한다. 이를 통해 네트워크 레이어가 추론 엔진과 직접 통신할 수 있다. 특정 GPU 그룹이 과부하 상태이면, 시스템은 더 높은 정밀도로 유휴 워커로 새 요청을 라우팅할 수 있다.

기술 스택 한눈에 보기

v0.9.0 린리스는 여러 핵심 구성 요소를 최신 안정 버전으로 업데이트했다. 지원되는 백엔드와 라이브러리의 분류는 다음과 같다.

구성 요소 버전
vLLM 0.14.1
SGLang 0.5.8
TensorRT-LLM 1.3.0rc1
NIXL 0.9.0
Rust 코어 dynamo-tokens 크레이트

러스트로 작성된 dynamo-tokens 크레이트의 포함으로 토큰 처리가 고속으로 유지된다. GPU 간 데이터 전송을 위해 Dynamo는 RDMA 기반 통신을 위해 NIXL(NVIDIA Inference Transfer Library)을 지속적으로 활용한다.

핵심 정리

인프라 디커플링: NATS와 ETCD의 제거로 통신 아키텍처 현대화가 완성되었다. 새로운 이벤트 플레인과 쿠버네티스 네이티브 서비스 디스커버리로 전환하여 외부 클러스터 관리의 운영 부담이 해소되었다.

완전한 멀티모달 분할: Dynamo는 이제 세 가지 백엔드 전반에 걸쳐 완전한 인코딩/프리필/디코딩 분할을 지원한다. 비전 또는 비디오 인코더를 별도의 GPU에서 실행하여 컴퓨팅 집약적 인코딩 작업이 텍스트 생성 프로세스를 병목시키지 않는다.

낮은 지연 시간을 위한 플래시인덱서 미리보기: 분산 KV 캐시 관리 최적화를 위한 전용 구성 요소의 미리보기가 도입되었다. 대화 ‘메모리’의 인덱싱과 검색을 훨씬 빠르게 만들어 첫 번째 토큰까지의 시간을 단축하는 것을 목표로 한다.

칼만 필터를 활용한 더 똑똑한 스케줄링: 칼만 필터 기반 예측 부하 추정이 가능해져 플래너가 GPU 부하를 더 정확하게 예측하고 트래픽 급증을 사전에 처리할 수 있다. 쿠버네티스 게이트웨이 API 추론 확장의 라우팅 힌트도 지원된다.

Dynamo v0.9.0은 AI 추론 인프라의 새로운 표준을 제시하며, 개발자들이 대규모 AI 시스템을 더 쉽게 구축하고 운영할 수 있도록 한다. 엔비디아는 이번 업그레이드를 통해 AI 스케일링의 새로운 시대를 열었다고 강조했다.

관련 키워드: 엔비디아, Dynamo, AI 추론, 인프라 업그레이드, vLLM, SGLang, TensorRT-LLM, 멀티모달, 분산 컴퓨팅, GPU 클러스터, 쿠버네티스, ZMQ, MessagePack, 플래시인덱서, 칼만 필터

댓글 남기기