핵심 요약
- Nemotron-Labs-TwoTower는 고정된 Nemotron-3-Nano-30B-A3B 백본과 별도로 학습된 이산 확산 헤드를 결합한 하이브리드 오픈 웨이트 언어모델이다.
- 자가회귀 LM의 직렬 토큰 생성으로 인한 추론 처리량 병목을 완화하기 위한 아키텍처 실험으로 해석된다.
- 오픈 웨이트는 NVIDIA Nemotron Open Model License로 배포되어 상용 활용 시 라이선스 조건 검토가 필수적이다.
고정 백본과 이산 확산 디코딩의 결합은 LLM 추론 최적화 분야에서 ‘학습 비용은 절감하되 생성 처리량을 높이겠다’는 실무적 타협점의 사례로 평가된다.
2026년 7월 NVIDIA는 자가회귀 LM이 가진 처리량 한계를 이산 확산 언어모델(discrete diffusion language model)로 풀어내려는 새로운 오픈 웨이트 모델, Nemotron-Labs-TwoTower를 공개했다. 기존 Nemotron-3-Nano-30B-A3B 백본을 고정한 채 확산 헤드만 별도로 학습한다는 점은, 모델 설계 측면에서 흥미로운 타협을 보여준다. 본문에서는 MarkTechPost 원문(원문 기사 바로가기)과 NVIDIA 공개 자료(Nemotron 페이지 바로가기)를 기준으로 구조와 의미를 정리한다.
등장 배경: 자가회귀 LM의 처리량 한계
처리량 개선의 실무적 임팩트
대부분의 오픈소스 LLM은 한 번에 한 토큰씩 순차적으로 디코딩하는 자가회귀 방식을 채택한다. 이 구조는 구현이 단순하고 품질이 안정적이라는 장점이 있지만, 본질적으로 직렬 처리라서 동시 사용자 수를 늘리거나 응답 지연을 낮추는 데 명백한 상한이 존재한다. MarkTechPost 기사는 텍스트 생성의 처리량 병목(throughput bottleneck in text generation) 해소를 Nemotron-Labs-TwoTower의 명시적 목표로 언급하고 있다. 따라서 이번 배포는 성능 수치 경쟁보다는 ‘유사한 품질을 더 적은 지연으로, 더 많은 요청을 동시에’ 처리하기 위한 아키텍처 검증 성격이 강하다고 볼 수 있다.
오픈소스 LLM 생태계에 남기는 질문
확산 언어모델은 한 번에 여러 토큰을 동시에 복원하는 병렬 디코딩이 가능하다는 점에서 이론적 처리량 이점을 가진다. 다만 실제로는 마스킹 비율, 반복 샘플링, 디코딩 스텝 수 같은 하이퍼파라미터에 따라 품질과 속도 간 트레이드오프가 크게 달라진다. 따라서 TwoTower가 “실제로 어떤 워크로드에서 처리량 이득을 보이는가”는 별도 벤치마크가 필요한 영역으로, 현시점에서는 “개선 가능성이 보이는 새로운 경로”로 해석하는 것이 안전하다.
Nemotron-Labs-TwoTower 구조 해부
TwoTower라는 명칭은 인코더 역할의 고정 자가회귀 백본과 디코더 역할의 이산 확산 헤드를 분리한 구조적 특성을 반영한 것으로 추정된다. 아래 표는 공개 정보를 토대로 정리한 핵심 스펙 요약이다.
| 항목 | 내용 |
|---|---|
| 모델명 | Nemotron-Labs-TwoTower |
| 백본 | Nemotron-3-Nano-30B-A3B (학습 중 가중치 고정) |
| 확장 모듈 | Discrete diffusion head (디퓨전 헤드만 별도 학습) |
| 모델 유형 | 이산 확산 언어모델 + 자가회귀 백본의 하이브리드 |
| 라이선스 | NVIDIA Nemotron Open Model License |
| 배포 형식 | 오픈 웨이트 |
| 발행 주체 | NVIDIA |
| 원문 보도 | MarkTechPost, 2026-07-01 |
30B-A3B 표기는 활성 파라미터 3B 클래스 MoE(Mixture of Experts) 구조로 추정된다. 다만 두 토탈 파라미터와 활성 파라미터의 정확한 비율은 NVIDIA의 공식 모델 카드 추가 공개가 필요한 부분이다. TwoTower의 핵심은 “고정 백본 + 학습 가능한 확산 헤드”의 조합이 회수 가능 여부에 있다. 백본을 고정하면 대규모 모델을 처음부터 재학습하는 비용을 피할 수 있고, 확산 디코딩만 별도로 최적화해 추론 경량화 실험을 빠르게 반복할 수 있다는 장점이 생긴다.
Two-Tower 설계가 주는 실무적 이점
- 학습 비용 절감: 30B급 백본을 다시 학습하지 않고 확산 헤드만 학습하므로, 실험 1회당 컴퓨팅 비용이 크게 줄어든다.
- 추론 경로 분리: 자가회귀 경로와 확산 경로를 분리해 운용하면, 워크로드 성격에 따라 디코딩 전략을 선택적으로 적용할 여지가 생긴다.
- 연구 친화성: 백본이 고정되어 있어 확산 디코더의 효과만 비교 실험하기 쉽다. 이는 후속 연구의 베이스라인으로 활용 가능성이 높다.
오픈 웨이트와 라이선스 체크포인트
Nemotron-Labs-TwoTower는 NVIDIA Nemotron Open Model License로 배포된다. 이름에 “Open”이 들어가지만, 이는 “무제한 오픈소스”를 의미하지는 않는다. 해당 라이선스는 월간 활성 사용자 수 기준, 허용 사용 분야, 책임 조항 등에 조건을 두는 상용 친화형 라이선스로 알려져 있다. 따라서 기업에서 도입할 때는 다음 두 가지를 반드시 점검해야 한다.
- 사용자 수 기준 충족 여부: 사내 서비스로 임베딩할 경우 월간 활성 사용자 수 제한을 확인해야 한다.
- 파생 모델 및 재배포 범위: 미세조정(fine-tuning)이나 양자화 후 재배포 시 라이선스 의무가 따라오는지 확인이 필요하다.
상세 조건은 NVIDIA의 공식 Nemotron 페이지(build.nvidia.com/nemotron)에서 라이선스 전문을 직접 확인하는 것을 권장한다.
의미와 시사점
Nemotron-Labs-TwoTower는 ‘고정 백본 + 이산 확산 디코딩’이라는 조합을 오픈 웨이트로 공개함으로써 LLM 추론 최적화 연구의 새로운 베이스라인을 제시했다는 점에서 의의가 크다. 지금까지 확산 언어모델은 메리트만 강조된 학술 시연에 머무르는 경우가 많았는데, NVIDIA가 실제 30B급 백본과 결합해 배포한 것은 산업계에서 확산 디코딩이 실용 옵션이 될 수 있다는 신호로 읽힌다. 다만 품질과 처리량 간 정확한 트레이드오프, 그리고 자가회귀 모델 대비 응답 지연 감소폭은 별도 측정 없이는 단정할 수 없으므로, 도입 검토 시에는 자체 워크로드 기반 벤치마크를 선행하는 것이 바람직하다.
도입 전 자가 점검 체크리스트
- 내 서비스의 평균 응답 길이와 동시 요청 패턴을 기준으로, 확산 디코딩의 이론적 처리량 이점이 실제로 발현되는지 검토했는가?
- NVIDIA Nemotron Open Model License의 사용자 수, 사용 분야, 재배포 조건을 내부 법무/컴플라이언스와 확인했는가?
- 백본을 고정할 때 발생하는 품질 손실이 내 도메인(한국어, 코드, 도메인 지식 등)에서 허용 범위인지 평가했는가?
- 확산 디코더의 하이퍼파라미터(마스킹 스케줄, 샘플링 반복 수 등)에 대한 운영 가이드를 NVIDIA가 공식 제공하는지 확인했는가?
정리하면, Nemotron-Labs-TwoTower는 자가회귀 LM의 처리량 한계를 이산 확산 디코딩으로 풀려는 NVIDIA의 실험적 오픈 웨이트 모델이다. Nemotron-3-Nano-30B-A3B 백본을 고정한 채 확산 헤드만 학습하는 구조는 학습 효율과 추론 속도라는 두 마리 토끼를 노린 설계로 보이며, 향후 오픈소스 LLM 생태계에서 확산 디코딩 표준 베이스라인 역할을 할 가능성이 있다. 다만 상용 적용을 위해서는 NVIDIA Nemotron Open Model License 조건 확인과 자체 워크로드 기반 성능 검증이 선행되어야 할 것이다.