Liquid AI, 240억 파라미터 하이브리드 AI 모델 ‘LFM2-24B-A2B’ 출시

Liquid AI, 240억 파라미터 하이브리드 AI 모델 ‘LFM2-24B-A2B’ 출시

생성형 인공지능 산업이 ‘파라미터 수가 많을수록 성능이 좋다’는 기존의 사고방식에서 벗어나 효율적 아키텍처의 중요성이 부상하고 있다. 이러한 변화 속에서 스타트업 Liquid AI가 지난 2월 24일 발표한 새로운 대규모 언어모델 LFM2-24B-A2B가 업계의 주목을 받고 있다. 이 모델은 240억 개의 총 파라미터를 보유하면서도 실제 추론 시 활성화되는 파라미터는 단 23억 개에 불과한 ‘희소 혼합 전문가(Sparse Mixture of Experts)’ 구조를 채택했다. 이를 통해 기존 동급 모델 대비 현저히 낮은 연산 비용으로 고성능을 달성할 수 있다.

하이브리드 아키텍처의 기술적 혁신

LFM2-24B-A2B의 가장 큰 특징은 어텐션(Attention)과 컨볼루션(Convolution)을 결합한 하이브리드 구조다. Liquid AI는 효율적인 게이트 단거리 컨볼루션 블록과 소수의 그룹 쿼리 어텐션(GQA) 블록을 결합했다. 이 구조는 하드웨어 인 루프 아키텍처 검색을 통해 개발되었으며, 빠른 프리필과 디코딩 속도를 낮은 메모리 비용으로 제공한다.

전통적인 트랜스포머 기반 대규모 언어모델은 연산량과 메모리 요구량이 파라미터 수에 비례하여 증가하는 문제가 있었다. 그러나 LFM2-24B-A2B는 활성화되는 파라미터를 제한함으로써 이러한 병목 현상을 크게 개선했다. 240억 개의 총 파라미터 중 실제 추론에 사용되는 것은 고작 23억 개에 불과해, 연산 효율성을 극대화하면서도 대형 모델의 표현력을 유지할 수 있다. 특히 총 파라미터는 3배 증가했지만(83억에서 240억) 활성 파라미터는 단 1.5배 증가(15억에서 23억)에 그쳐 효율적이다.

모델은 24개 레이어에서 40개 레이어로 깊어지고, MoE 블록당 전문가 수는 32개에서 64개로 늘었다. 다만 활성 파라미터 예산을 23억으로 유지하기 위해 각 전문가가 약간 더 좁아졌다. 처음 2개 레이어는 훈련 안정성을 위해 밀집 상태를 유지하며, 어텐션 대 컨볼루션 비율은 약 1대 3(40개 중 10개 어텐션 레이어)으로 유지된다.

32GB RAM에서 동작하는 하드웨어 친화적 설계

이 모델은 32GB RAM 환경에서도 구동될 정도로 경량화되어 있으며, 클라우드는 물론 에지 환경에서도 배포가 가능하다. 특히 소비자용 노트북과 데스크톱의 통합 GPU 및 NPU에서도 동작한다는 점이 다르다.

Liquid AI는 하드웨어 인 루프 방식을 통해 설계 단계에서부터 실제 하드웨어 환경을 고려했다. 그 결과 AMD 라이젠 AI 맥스+ 395와 같은 소비자용 프로세서에서도 원활하게 동작한다. 추론 시 지연과 에너지 소모가 소형 모델 수준으로 유지되어, 고성능 컴퓨팅 인프라가 없는 환경에서도 대규모 인공지능 모델을 활용할 수 있게 되었다.

또한 라마.cpp, vLLM, SGLang 등 주요 추론 프레임워크에서 즉시 지원하며, 다양한 양자화 옵션(Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16 등)을 제공한다. GGUF 형식도 지원되어 로컬 PC부터 서버, 모바일 기기까지 폭넓게 적용 가능하다.

벤치마크에서 입증된 성능

Liquid AI는 LFM2 시리즈(3억5천만에서 240억까지)를 통해 일관된 품질 상승 곡선을 입증했다. GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500 등 주요 벤치마크에서 파라미터 수가 증가할수록 성능이 로그 선형적으로 향상되는 것을 확인했다. 이는 약 100배 파라미터 범위가 작은 모델 크기에서 한계에 도달하지 않음을 확인해 준다.

실제 하드웨어에서의 성능 비교도 인상적이다. LFM2-24B-A2B는 Qwen3-30B-A3B(총 305억, 활성 33억)와 gpt-oss-20b(총 210억, 활성 36억) 등 동급 MoE 모델과 비교해 프리필 및 디코드 처리량에서 앞서는 결과를 보였다. 특히 vLLM 환경에서 1,024 동시 요청 시 초당 약 26,800개의 토큰을 처리할 수 있어, 대규모 서비스 배포에도 적합하다.

또한 모바일 기기와 에지 하드웨어를 위한 NPU 지원도 진행 중이며, 토큰당 단 23억의 활성 파라미터를 가진 MoE 설계로 인해 240억 총 파라미터임에도 디바이스 배포에 최적화된 후보가 된다.

오픈소스로 공개 및 향후 계획

LFM2-24B-A2B는 Hugging Face에서 오픈소스로 공개되었다. 개발자들은 무료로 모델을 다운로드받아 로컬에서 실행하거나 직접 튜닝할 수 있다. LFM2 시리즈는 Hugging Face에서 1,000만 다운로드를 돌파했다.

Liquid AI는 현재 17조 개의 토큰으로 사전 훈련 중이며, 훈련이 완료되면 추가 포스트 훈련과 강화 학습을 거친 LFM2.5-24B-A2B를 출시할 예정이다.

Liquid AI의 LFM2-24B-A2B는 대규모 언어모델의 미래가 단순히 파라미터 수의 경쟁이 아니라, 효율적인 아키텍처 설계라는 것을 보여주는 사례다. 32GB RAM에서도 구동 가능한 이 모델은 인공지능 민주화의 새로운 장을 열 수 있을 것으로 기대된다.

댓글 남기기