Baidu의 Unlimited OCR, 3B MoE로 긴 문서 한 번에 파싱하다

2026년 6월, Baidu는 장문 문서를 한 번의 forward pass로 처리하도록 설계된 OCR 모델 Unlimited OCR를 MIT 라이선스로 공개했다. 3B 파라미터의 MoE 구조와 Reference Sliding Window Attention(R-SWA) 기법을 결합해, 출력 길이가 늘어도 메모리와 지연 시간 곡선이 평탄하게 유지된다고 MarkTechPost는 보도했다.

  • Unlimited OCR은 3B 파라미터 MoE 모델로 30~100장 문서를 단일 forward pass로 처리하도록 설계됐다.
  • 핵심 기법인 R-SWA는 KV 캐시 크기를 일정하게 유지해 출력 길이 증가 시 메모리·지연을 평탄화한다.
  • OmniDocBench v1.5에서 93.23점을 기록, DeepSeek OCR 베이스라인 대비 6.22점 높은 점수로 MIT 라이선스 공개됐다.

Unlimited OCR은 KV 캐시를 평탄화하는 어텐션 설계로 장문 문서 파싱의 비용 곡선을 낮추는 데 기여했다.

Unlimited OCR 개요

3B MoE 모델의 설계 철학

Unlimited OCR은 3B 파라미터 규모의 MoE(Mixture of Experts) 구조를 채택했다. 일반적인 dense 모델과 달리 입력 토큰을 여러 전문가 모듈로 라우팅해, 동일 연산량 대비 표현 효율을 높이도록 설계된 것으로 분석된다. OCR처럼 시각 토큰과 텍스트 토큰이 혼합되는 작업에서 MoE가 영역별 특화 추론에 활용될 수 있다는 분석이 존재한다. 모델명 그대로 “unlimited”라는 명칭은 페이지 수 제약을 줄이는 방향성을 시사하는 것으로 보인다.

오픈소스 MIT 라이선스의 의미

Unlimited OCR은 MIT 라이선스로 공개됐다. 이는 상업적 이용과 2차 수정, 재배포를 폭넓게 허용하는 라이선스로, Baidu가 해당 모델을 연구용을 넘어 제품·서비스에 활용하기 쉬운 조건으로 공개했음을 시사한다. 오픈소스 OCR 진영에 새로운 기준점을 제시한 것으로 평가된다.

R-SWA로 KV 캐시를 평탄하게

일반 어텐션의 메모리 한계

트랜스포머 기반 OCR 모델이 긴 문서를 처리할 때 가장 큰 병목은 KV 캐시다. 표준 self-attention은 토큰 수 N에 대해 KV 캐시가 O(N)으로 증가하기 때문에, 페이지 수가 늘어날수록 GPU 메모리 점유와 디코딩 지연이 선형 이상으로 누적된다. 결과적으로 50~100장 분량의 문서를 단일 패스로 처리하기 어렵게 만드는 주요 요인 중 하나가 이 지점으로 분석된다.

Reference Sliding Window Attention 동작 방식

R-SWA는 이 문제를 어텐션의 참조 범위를 제한하는 방식으로 해결한다. 각 토큰이 전체 시퀀스가 아닌 고정 크기의 슬라이딩 윈도우 내에서만 키·밸류 쌍을 참조하도록 제한해, KV 캐시 크기를 윈도우 크기에 종속된 상수로 묶어버린다. 여기에 페이지 경계나 의미 단위 같은 reference 포인트를 활용해 윈도우 경계를 보정하는 절차를 추가한 것이 R-SWA의 차별점으로 분석된다. 결과적으로 모델은 페이지 수와 무관하게 동일한 메모리 풋프린트를 유지할 수 있다.

출력 길이 증가 시 메모리와 지연 특성

아래 표는 일반 어텐션과 R-SWA의 출력 길이 대비 자원 곡선을 개념적으로 비교한 것이다.

구분 일반 어텐션 R-SWA (Unlimited OCR)
KV 캐시 증가 출력 길이에 비례해 증가 윈도우 크기 기준 상수
페이지 수 확장성 수십 장 이상에서 한계 30~100장 단일 forward pass
디코딩 지연 곡선 길어질수록 누적 증가 평탄한 지연 유지
장문 처리 비용 페이지 수 비례 페이지 수와 사실상 분리

MarkTechPost 보도에 따르면 Unlimited OCR은 이러한 특성으로 30~100장 분량의 문서를 단일 forward pass로 처리하도록 설계됐다. 출력 길이가 늘어도 메모리·지연 곡선이 평탄하게 유지된다는 점이 가장 큰 기술적 주장이다.

OmniDocBench v1.5 성능 분석

93.23점의 의미

Unlimited OCR은 OmniDocBench v1.5에서 93.23점을 기록했다. OmniDocBench v1.5는 페이지 레이아웃, 표, 수식, 다국어 텍스트를 폭넓게 평가하는 문서 파싱 벤치마크로, 90점대 초반은 상용 OCR 시스템의 상위권 영역에 속하는 점수로 해석될 수 있다. 짧은 단일 페이지에 특화된 모델이 아니라 장문 다중 페이지에서도 점수가 유지됐다는 점에서 의미가 있다.

DeepSeek OCR 대비 6.22점 격차

같은 조건에서 DeepSeek OCR 베이스라인 대비 6.22점 우위를 보였다. 점수 격차 6점대 초반은 OCR 벤치마크에서 단순 노이즈로 단정하기 어려운 수준으로, Unlimited OCR이 동일 카테고리 베이스라인을 의미 있는 차이로 앞서고 있음을 시사한다. 다만 OmniDocBench v1.5 외 다른 벤치마크에서의 상대적 위치는 별도 검증이 필요한 부분으로 보인다.

활용 시나리오와 향후 전망

장문 문서 파싱 적용처

단일 forward pass로 30~100장을 처리한다는 점은 실제 업무 워크플로우에 직접적인 영향을 줄 수 있다. 수백 페이지 분량의 기술 매뉴얼, 계약서 묶음, 학술 논문 PDF를 한 번에 임베딩해야 하는 RAG 파이프라인, 보고서 자동화 시스템, e-디스커버리 도구 등에서 페이지 단위 분할과 후처리 결합 비용을 크게 낮출 잠재력이 있는 것으로 분석된다. 특히 1회 호출로 문서 전체 구조를 보존할 수 있다는 점은 검색 인덱싱 품질에도 영향을 줄 수 있다.

오픈소스 OCR 경쟁 구도

DeepSeek OCR, PaddleOCR, GOT-OCR 등 기존 오픈소스 OCR 모델과 MIT 라이선스의 Unlimited OCR이 나란히 비교될 수 있는 구도가 형성되고 있다. MoE + R-SWA 조합은 “장문 처리에 특화된 오픈소스 OCR”이라는 명확한 포지셔닝을 제공하며, 다른 모델들도 어텐션 효율을 중심으로 대응 전략을 재조정할 가능성이 있어 보인다. 장기적으로는 OCR이 단일 페이지 인식에서 문서 전체 이해로 이동하는 흐름을 가속할 것으로 기대된다.

개발자가 도입 시 고려할 점

실제 도입 단계에서는 다음 항목을 점검할 필요가 있다. 첫째, 3B MoE 모델이므로 디코딩 시전문가 라우팅 비용이 발생해 추론 하드웨어 요구 사양을 확인해야 한다. 둘째, R-SWA의 윈도우 크기와 reference 정책이 도메인별 PDF 품질에 미치는 영향을 자체 데이터로 평가해야 한다. 셋째, OmniDocBench v1.5 점수만으로 도메인 일반화를 단정하기 어려우므로, 자체 문서 코퍼스에 대한 회귀 테스트를 병행하는 것이 안전하다. MIT 라이선스 덕분에 상업적 임베딩 자체는 비교적 자유롭게 진행할 수 있을 것으로 보인다.

정리 포인트

  • Unlimited OCR은 3B MoE 모델로 30~100장 문서를 단일 forward pass로 처리하도록 설계된 오픈소스 OCR이다.
  • R-SWA 기법으로 KV 캐시를 평탄화해, 출력 길이가 늘어도 메모리·지연 곡선이 평탄하게 유지된다.
  • OmniDocBench v1.5에서 93.23점을 기록해 DeepSeek OCR 대비 6.22점 우위를 보였으며 MIT 라이선스로 공개됐다.

참고: MarkTechPost – Baidu Releases Unlimited OCR, GeekNews – AI/오픈소스 카테고리

Unlimited OCR | Baidu | R-SWA | KV Cache | MoE | 3B 모델 | OmniDocBench v1.5 | DeepSeek OCR | 장문 문서 파싱 | 오픈소스 OCR | MIT 라이선스 | MarkTechPost | OCR 벤치마크 | 문서 인식

댓글 남기기