텐센트 AI, 실시간 오디오 대화 가능한 7B 파라미터 대형 오디오 언어 모델 ‘Covo-Audio’ 오픈소스 공개

Covo-Audio 핵심 요약

통합 엔드-투-엔드 음성 처리 : 음성 입력부터 출력까지 한 모델에서 처리하여 정확성과 반응성이 크게 향상
실시간 오디오 대화 및 추론 지원 : 기존 모델 대비 속도와 자연스러움에서 차별화된 대화형 AI 경험 제공
오픈소스 공개로 연구 및 산업 활용 확대 : 다양한 분야에서 접근성 및 혁신 촉진

텐센트의 혁신적 오디오 언어 모델은 음성 AI의 새로운 지평을 엽니다.

텐센트 AI ‘Covo-Audio’ 모델 개요

텐센트 AI 랩은 최근 70억(7B) 파라미터 규모의 엔드-투-엔드 대형 오디오 언어 모델(LALM, Large Audio Language Model) ‘Covo-Audio’를 오픈소스로 공개했다. 이 모델은 연속되는 오디오 입력을 직접 처리하고 오디오 출력을 생성할 수 있도록 설계되어, 음성 처리와 언어 인텔리전스를 하나의 통합 구조에서 구현했다. 기존 음성 AI 시스템이 주로 음성 인식 → 텍스트 변환 → 텍스트 처리 → 음성 합성과 같이 단계적으로 동작했다면, Covo-Audio는 오디오 신호 전체를 처음부터 끝까지 하나의 아키텍처에서 통합 처리한다는 점에서 차별화된다.

LALM(대형 오디오 언어 모델)의 시대와 중요성

최근 인공지능 분야에서 텍스트 기반 대형 언어 모델(LLM)이 괄목할 발전을 이루고 있음과 동시에, 음성 및 오디오 AI 역시 빠르게 진화하고 있다. 특히 더욱 자연스러운 대화, 인간적인 인터페이스를 원하는 사용자가 늘어나면서, 음성과 텍스트를 함께 이해하고 생성하는 AI의 필요성이 높아졌다. LALM은 이러한 요구에 대응하기 위해 등장한 구조로, 기존 음성 인식 시스템에서 발생하는 지연 시간, 모듈 간 정보 손실, 복잡한 파이프라인 문제를 해결할 수 있는 잠재력을 지닌다.

Covo-Audio 시스템 아키텍처 및 주요 구성 요소

Covo-Audio의 아키텍처는 크로스모달(음성과 텍스트 등 복수 매체) 상호작용을 고려하여 4가지 주요 컴포넌트로 구성된다. 첫째, 오디오 인코더 모듈은 입력된 음성 신호를 모델이 처리가능한 고차원 정보로 변환한다. 둘째, 오디오 토크나이저는 연속 오디오 신호를 컴퓨터가 이해할 수 있는 이산적인 토큰 시퀀스로 바꿔준다. 셋째, 7B 파라미터의 핵심 LLM 백본이 오디오와 텍스트 토큰을 통합 처리하며 의미와 맥락을 파악한다. 마지막으로 오디오 디코더가 모델의 출력을 다시 음성 신호로 변환하여 사용자에게 제공한다. 이 네 단계가 유기적으로 작동해 Covo-Audio에서 실시간 오디오 대화가 가능해진다.

기술적 가치와 활용 분야

Covo-Audio의 가장 큰 기술적 의의는 음성 처리 파이프라인 전체를 단일 모델로 통합했다는 점이다. 이로 인해 모듈 간 정보 손실이나 지연이 최소화되며, 실제 대화에서 더욱 자연스럽고 빠른 음성 인터페이스를 구현할 수 있다. 활용 분야로는 실시간 음성 비서, 오디오 기반 추론 시스템, 다국어 음성 번역, 감정 인식형 대화 서비스, 접근성 향상을 위한 음성 지원 도구 등이 있다. 교육, 의료, 고객 서비스 등 다양한 산업 현장에서 Covo-Audio 기반의 대화형 AI 솔루션을 통해 혁신적인 사용자 경험을 만들 것으로 기대된다.

기존 모델과의 차별성

Covo-Audio는 OpenAI의 Voice Engine, Google의 AudioLM 등 기존 음성 AI 모델과 비교했을 때, 실시간 인퍼런스(추론)와 오디오-텍스트 통합 능력에 방점을 둔다는 점에서 차별화된다. 예를 들어, OpenAI Voice Engine은 주로 음성 합성 기술에, Google AudioLM은 오디오 생성 품질에 초점을 맞춰왔으나, Covo-Audio는 입력단에서 출력단까지 전체 오디오 흐름을 직접 처리하며, 텍스트와 오디오의 상호이해와 생성이 가능하다. 7B 파라미터 대형 모델을 오픈소스로 공개한 것은 연구자와 개발자 커뮤니티에 추가 연구와 실험을 위한 견고한 토대를 제공한다는 의미도 크다.

향후 연구 및 산업 확장성

Covo-Audio의 오픈소스 공개는 음성 AI 분야에서의 협업과 혁신을 가속화할 것으로 전망된다. 연구자들은 해당 모델을 바탕으로 더욱 효율적인 오디오 토크나이징, 다국어 음성 및 실시간 처리 최적화와 같은 여러 기술적 시도를 할 수 있다. 산업 현장에서는 고객 서비스 자동화, 음성 기반 접근성 도구, 현장 실시간 통역 등 다양한 실용 서비스로 확장될 가능성이 높다. 다만 공개 자료에 구체적인 벤치마크 수치, 모델 공개 시기, 라이선스 유형 등은 추가 정보 확인이 필요하다. 그럼에도 불구하고 텐센트 AI의 이번 오픈소스 공개는 음성 대화 AI 패러다임 전환의 중요한 이정표라 할 수 있다.

포인트 요약

엔드-투-엔드로 통합되어 실시간 자연스러운 음성 대화 구현
연구 및 산업 활용을 위해 오픈소스로 공개되어 확장성 뛰어남
음성-텍스트 간 통합적 처리 및 대화형 AI 고도화 기반 마련

TAG : Covo-Audio, 텐센트 AI, 대형 오디오 언어 모델, LALM, 음성 AI, 실시간 음성 대화, AI 오픈소스, 음성지능, 대화형 AI, 오디오 언어 모델