LFM2.5-230M의 등장, 모바일과 엣지를 점령하기 시작한 초소형 오픈웨이트 LLM

온디바이스 LLM 경쟁이 파라미터 경쟁이 아닌, “얼마나 가볍게 어디서나 도는가”를 기준으로 재편되고 있다. Liquid AI가 공개한 LFM2.5-230M은 230M 파라미터라는 최소 크기 모델임에도 Galaxy S25 Ultra에서 213 tok/s, Raspberry Pi 5에서 42 tok/s의 추론 속도를 보고하며 온디바이스 실행의 현실적인 기준선을 끌어올렸다. 동시에 Qwen3.5-0.8B, Gemma 3 1B 대비 파라미터가 더 적음에도 지시 따르기 벤치마크에서 우위를 주장하며 업계의 관심을 모으고 있다.

LFM2.5-230M은 LFM2 아키텍처 기반의 230M 파라미터 초소형 오픈웨이트 모델임
Galaxy S25 Ultra 213 tok/s, Raspberry Pi 5 42 tok/s 추론 속도를 측정해 온디바이스 실행이 실용적 수준에 진입함
llama.cpp, MLX, vLLM, SGLang, ONNX 등 5종 런타임을 동시에 지원해 모바일과 서버를 잇는 배포 전략을 취함

초소형 모델 경쟁은 이제 “얼마나 작은가”가 아니라 “어디서 얼마나 안정적으로 도는가”를 핵심 평가축으로 전환하고 있다.

들어가며: 230M 파라미터가 다시 화제인 이유

왜 지금 초소형 LLM인가

오픈웨이트 LLM 생태계는 1B 미만의 초소형 구간으로 빠르게 확장되고 있다. 클라우드 의존 없이 사용자 단말에서 추론을 마치려는 수요가 늘면서, 적은 메모리와 낮은 전력으로도 동작하는 경량 모델에 대한 관심이 커지고 있다. 230M 파라미터 모델이 다시 주목받는 이유도 같은 맥락에서 해석된다.

LFM2.5-230M의 포지셔닝

Liquid AI는 LFM2.5-230M을 자사의 최소 크기 모델로 포지셔닝했다. 더 적은 자원으로 1B급 모델과 유사한 응답 품질을 내겠다는 전략이며, llama.cpp, MLX, vLLM, SGLang, ONNX 등 다양한 런타임을 동시에 지원해 휴대폰, 노트북, 라즈베리파이, 데이터센터에 이르는 폭넓은 타깃 환경을 확보했다.

LFM2.5-230M 핵심 사양과 아키텍처

LFM2 아키텍처와 230M 설계 의도

LFM2.5-230M은 LFM2 아키텍처를 기반으로 한다. LFM2는 Liquid AI가 자체 설계한 구조로, 동일 클래스 대비 학습 및 추론 효율을 높이도록 최적화되었다고 회사 측은 설명하고 있다. 230M이라는 파라미터 규모는 모바일과 엣지 디바이스에서 별도의 가속기 없이 상시 실행을 가능하게 하려는 명시적 설계 선택으로 분석된다.

오픈웨이트 라이선스와 배포 채널

모델은 오픈웨이트로 공개되어 누구나 가중치를 내려받아 직접 구동하거나 파인튜닝할 수 있다. Hugging Face 등 공개 허브와 Liquid AI의 공식 배포 채널을 통해 내려받을 수 있으며, 별도 상용화 시 라이선스 조건을 반드시 확인해야 한다.

다중 런타임 지원이 갖는 전략적 의미

llama.cpp, MLX, vLLM, SGLang, ONNX를 동시에 타깃한 이유

한 번의 릴리즈로 5개 런타임을 동시에 지원하는 것은 이례적인 행보다. llama.cpp와 ONNX는 모바일·엣지, MLX는 Apple Silicon, vLLM과 SGLang은 서버·프로덕션 추론 환경의 사실상 표준으로 자리 잡았다. LFM2.5-230M은 이러한 다양한 환경을 단일 가중치로 포괄해 통합 비용을 낮추고 있다.

런타임	주요 타깃 환경	LFM2.5-230M 활용 시점
llama.cpp	CPU, 모바일, 엣지	저전력 온디바이스 실행
MLX	Apple Silicon	맥·아이패드 최적화
vLLM	데이터센터, 서버	대규모 배치 서빙
SGLang	에이전트, 구조화 프롬프트	복잡한 워크플로 추론
ONNX	다양한 하드웨어 백엔드	크로스 플랫폼 배포

온디바이스와 서버 추론을 잇는 호환성

다중 런타임 전략의 핵심은 “하나의 가중치로 양 끝단을 모두 커버”한다는 점이다. 개발자는 동일 모델을 휴대폰 프로토타입에서 시작해 그대로 서버 프로덕션으로 이전할 수 있어, PoC와 배포 사이의 전환 비용을 크게 절감할 수 있는 것으로 분석된다.

디바이스별 실측 추론 속도

Galaxy S25 Ultra 213 tok/s의 의미

Galaxy S25 Ultra에서 213 tok/s의 추론 속도를 측정했다는 것은 모바일 단독 실행이 실시간 응답의 현실적인 임계점을 넘었다는 신호로 해석된다. 단순 응답이 아니라 다중 턴 대화나 짧은 요약 작업도 끊김 없이 처리 가능한 대역으로 볼 수 있다.

Raspberry Pi 5 42 tok/s의 의미

Raspberry Pi 5에서 42 tok/s는 엣지 단말 수준에서 외부 의존 없이 로컬 LLM을 운용할 수 있는 기준선이 된다. IoT 게이트웨이, 산업용 컨트롤러, 오프라인 키오스크 등 네트워크가 불안정한 환경에서 자체 추론을 수행하는 사례가 늘어날 것으로 분석된다.

클라우드 워크로드와의 비교 구도

vLLM과 SGLang 지원을 통해 서버 환경에서도 동일한 가중치를 그대로 활용할 수 있다는 점이 중요하다. 휴대폰에서 검증한 프롬프트와 동작을 별도 양자화나 변환 없이 데이터센터 워크로드로 확장할 수 있어, 모델 운영의 일관성이 크게 향상될 것으로 분석된다.

Qwen3.5-0.8B, Gemma 3 1B 벤치마크 결과

지시 따르기 능력 비교

Liquid AI 측 발표에 따르면 LFM2.5-230M은 Qwen3.5-0.8B 및 Gemma 3 1B 대비 파라미터가 더 적음에도 지시 따르기 벤치마크에서 우위를 보인다고 주장한다. 이는 “작은 모델이 더 큰 모델을 이긴다”는 모델 효율성 시장의 새로운 경쟁축을 형성하는 것으로 보이며, Qwen·Gemma 진영의 대응이 향후 주목할 변수가 될 것으로 분석된다.

파라미터 효율성 논란과 해석 주의점

다만 벤치마크 우위 주장은 라이선스, 평가 데이터셋, 프롬프트 포맷, 양자화 조건 등이 완전히 동일하지 않을 수 있다는 점을 유의해야 한다. 따라서 독립 기관의 재현 평가가 공개될 때까지는 우위 주장을 “공식 입장”으로 받아들이되, 절대적 우위로 단정하기는 이르다는 견해가 유력하다.

활용 시나리오와 전망

로컬 AI 어시스턴트와 오프라인 워크플로

230M 파라미터라는 점은 메모리 1GB 미만의 단말에서도 동작할 가능성을 시사한다. 로컬 AI 어시스턴트, 오프라인 요약, 사내 문서 분류, 키오스크형 챗봇과 같이 클라우드 연동이 부담스러운 영역에서 우선 채택될 것으로 분석된다. speculative decoding을 활용한 추론 가속화 사례처럼, 후속 가속 기법과 결합되면 동일 단말에서 더 긴 컨텍스트나 더 높은 응답성을 확보할 여지도 생긴다.

온디바이스 에이전트 시대를 향한 시사점

LFM2.5-230M은 “온디바이스 에이전트”라는 새로운 카테고리를 현실화하는 시험대가 될 것으로 분석된다. 모델 자체의 성능뿐 아니라 llama.cpp·ONNX·MLX 등 다양한 런타임을 통한 배포 폭이 경쟁력을 좌우하는 시점이며, 1B 미만 구간에서의 경쟁은 2026년 하반기에도 가속화될 것으로 보인다.

마무리: 생태계 확장의 신호탄

LFM2.5-230M은 초소형 오픈웨이트 LLM 시장의 기술적, 전략적 이정표로 볼 수 있다. 230M이라는 작은 파라미터 규모로 모바일·엣지·서버를 동시에 커버하고, 1B급 모델 대비 벤치마크 우위까지 주장한 점에서 업계의 판도를 흔들 잠재력이 충분하다. 다만 벤치마크의 재현성, 라이선스 조건, 실제 워크로드 성능 등은 추가 검증이 필요한 영역으로 남아 있다. MarkTechPost 원문과 관련 추론 가속화 기사를 함께 참고하면, 온디바이스 LLM 생태계 확장의 전체 그림을 보다 정확히 그려볼 수 있을 것이다.

핵심 정리

LFM2.5-230M은 LFM2 아키텍처 기반의 230M 파라미터 초소형 오픈웨이트 모델임
Galaxy S25 Ultra 213 tok/s, Raspberry Pi 5 42 tok/s의 실측 속도로 온디바이스 실행의 실용적 기준선을 제시함
llama.cpp, MLX, vLLM, SGLang, ONNX 5종 런타임을 동시에 지원해 모바일과 서버를 잇는 배포 전략을 구사함
Qwen3.5-0.8B, Gemma 3 1B 대비 벤치마크 우위를 주장하나 독립 재현 평가가 추가로 필요함
로컬 AI 어시스턴트와 오프라인 워크플로, 온디바이스 에이전트 영역에서 우선 채택될 것으로 분석됨

LFM2.5-230M, Liquid AI, 온디바이스 LLM, 오픈웨이트, llama.cpp, MLX, vLLM, SGLang, ONNX, LFM2, Galaxy S25 Ultra, Raspberry Pi 5, Qwen3.5-0.8B, Gemma 3 1B, 초소형 LLM