구글 AI, 100만 토큰 컨텍스트 지원하는 Gemini 3.1 Pro 출시

구글(Google)이 Gemini 3 시리즈의 첫 번째 버전 업데이트인 Gemini 3.1 Pro를 공식 출시했다. 이번 릴리즈는 단순한 마이너 패치가 아니다. reasoning 안정성, 소프트웨어 엔지니어링, 도구 사용 신뢰성에 초점을 맞춘 에이전트(agentic) AI 시장을 공략하는 전략적 업데이트다.

출시와 함께 구글이 보낸 메시지는 명확하다. 이제 단순히 ‘대화’하는 모델에서 ‘작업’하는 모델로의 전환점이 왔다. Gemini 3.1 Pro는 파일 시스템을 탐색하고, 코드를 실행하며, 과학적 문제를 해결할 수 있는 자율 에이전트의 핵심 엔진으로 설계되었다. 성공률 측면에서도 업계 최정상 프론티어 모델에 필적하거나 일부 영역에서는 초과하는 성과를 보이고 있다.

초대용량 컨텍스트와 정밀한 출력

가장 주목할 만한 기술적 업그레이드 중 하나는 대규모 컨텍스트 처리 능력이다. Gemini 3.1 Pro Preview는 100만 토큰 입력 컨텍스트 창(input context window)을 유지한다. 소프트웨어 엔지니어링 관점에서 보면, 전체 중규모 코드 저장소를 모델에 입력해도 파일 간 의존성을 파악하면서 맥락을 잃지 않는다.

진정한 뉴스는 6만5천 토큰 출력 제한이다. 개발자가 100페이지 분량의 기술 매뉴얼이나 복잡한 다중 모듈 파이썬 애플리케이션을 생성하더라도, 단일 턴에서 ‘최대 토큰’ 벽에 부딪히지 않고 작업을 완료할 수 있게 되었다.

추론 능력의 도약

Gemini 0가 ‘딥 싱킹(Deep Thinking)’을 도입했다면, Gemini 3.1은 그 사고를 효율적으로 만든 버전이다. 엄격한 벤치마크에서의 성능 향상은 주목할 만하다.

벤치마크	성능	측정 내용
ARC-AGI-2	77.1%	완전히 새로운 로직 패턴을 해결하는 능력
GPQA Diamond	94.1%	대학원 수준의 과학적 추론
SciCode	58.9%	과학 컴퓨팅을 위한 파이썬 프로그래밍
Terminal-Bench Hard	53.8%	에이전트 코딩 및 터미널 사용
Humanity’s Last Exam	44.7%	인간에 가까운 한계에서의 추론

ARC-AGI-2에서 77.1%를 기록한 것이 이 릴리즈의 대표 수치다. 구글 팀은 이것이 기존 Gemini 3 Pro의 추론 성능의 2배 이상을 나타낸다고 주장한다. 이는 모델이 학습 데이터의 패턴 매칭에 의존할 가능성이 줄었고, 데이터셋의 새로운 에지 케이스에 직면했을 때 ‘스스로 해결해내는’ 능력이 크게 향상되었음을 의미한다.

에이전트 툴킷: 커스텀 도구와 앤티그래비티

구글 팀은 개발자 터미널을 공략하는 명확한 의도를 보이고 있다. 메인 모델과 함께 gemini-3.1-pro-preview-customtools라는 전문화된 엔드포인트를 출시했다.

이 엔드포인트는 베시 명령어와 커스텀 함수를 혼합하는 개발자에 최적화되어 있다. 이전 버전에서는 모델이 어떤 도구를 우선적으로 사용해야 할지 판단하는 데 어려움을 겪었으며, 때때로 로컬 파일 읽기만으로 충분한 상황에서 검색을 그럴듯하게 만들어내는 환각(hallucination) 현상이 나타났다. 커스텀툴 variant는 view_file이나 search_code 같은 도구를 우선시하도록 특히 조정되어 있어 자율 코딩 에이전트의 더욱 신뢰할 수 있는 백본이 된다.

이번 릴리즈는 구글의 새로운 에이전트 개발 플랫폼인 Google Antigravity와도 깊이 통합되었다. 개발자들은 새로운 ‘미디엄(medium)’ 사고 수준을 활용할 수 있다. 이를 통해 ‘추론 예산(reasoning budget)’을 전환할 수 있다. 복잡한 디버깅에는 고밀도 사고를 사용하고, 표준 API 호출에는 미디엄 또는 로우로 전환하여 지연 시간과 비용을 절약할 수 있다.

API 주요 변경사항

이미 Gemini API에서 구축 중인 개발자를 위한 작지만 중요한 브레이킹 체인지가 있다. Interactions API v1beta에서 total_reasoning_tokens 필드가 total_thought_tokens로 이름이 변경되었다. 이 변경은 Gemini 3 시리즈에서 도입된 ‘생각 서명(thought signatures)’과 일치한다. 이것은 모델의 내부 추론을 암호화한 표현으로, 다중 턴 에이전트 워크플로우에서 맥락을 유지하려면 모델에 다시 전달해야 한다.

데이터에 대한 모델의 appetite도 성장했다. 파일 처리 관련 주요 업데이트는 다음과 같다.

100MB 파일 제한: 기존 API 업로드 제한이 20MB에서 5배 증가했다.
유튜브 직접 지원: 이제 미디어 소스로 유튜브 URL을 직접 전달할 수 있다. 모델이 수동 업로드 대신 URL을 통해 영상을 ‘시청’한다.
클라우드 통합: 클라우드 스토리지 버킷 및 비공개 데이터베이스 사전 서명 URL을 직접 데이터 소스로 지원한다.

지능의 경제학

Gemini 3.1 Pro Preview의 가격 책정은 공격적이다. 20만 토큰 미만의 프롬프트에 대해 입력은 100만 토큰당 2달러, 출력은 100만 토큰당 12달러다. 20만 토큰을 초과하는 컨텍스트의 경우, 입력 4달러, 출력 18달러로 가격이 상승한다.

Claude Opus 4.6이나 GPT-5.2 같은 경쟁 제품과 비교할 때, 구글 팀은 Gemini 3.1 Pro를 ‘효율성 리더’로 포지셔닝하고 있다. Artificial Analysis 데이터에 따르면, Gemini 3.1 Pro는 현재 Their Intelligence Index에서 1위를 기록하면서, 가장 가까운 프론티어 경쟁 제품의 절반 수준의 비용으로 운영된다.

핵심 정리

100만/6만5천 컨텍스트 창: 모델은 대규모 데이터와 저장소를 위한 100만 토큰 입력 창을 유지하면서, 장형 형식 코드 및 문서 생성을 위한 출력 제한을 6만5천 토큰으로 크게 향상시켰다.
논리 및 추론의 도약: ARC-AGI-2 벤치마크 성능이 77.1%에 도달하여 이전 버전의 추론 능력을 2배 이상 능가했다. 대학원 과학 과제를 위한 GPQA Diamond에서도 94.1%를 달성했다.
전용 에이전트 엔드포인트: 구글 팀은 전문화된 gemini-3.1-pro-preview-customtools 엔드포인트를 도입했다. 이는 자율 에이전트를 위해 베시 명령어 및 시스템 도구(view_file, search_code 등)를 우선시하도록 최적화되어 있다.
API 브레이킹 체인지: 개발자들은 total_reasoning_tokens 필드가 v1beta Interactions API에서 total_thought_tokens로 변경되었으므로 코드베이스를 업데이트해야 한다. 이는 모델의 내부 ‘생각’ 처리와 더 잘.align된다.
향상된 파일 및 미디어 처리: API 파일 크기 제한이 20MB에서 100MB로 증가했다. 또한 개발자들은 이제 유튜브 URL을 프롬프트에 직접 전달하여 파일을 다운로드하거나 다시 업로드하지 않고도 모델이 영상 콘텐츠를 분석할 수 있다.

출시된 Gemini 3.1 Pro는 AI 에이전트 시대를 향한 구글의 본격적인 도약이다. 초대용량 컨텍스트, 향상된 추론 능력, 전문화된 에이전트 엔드포인트를 갖춘 이 모델은 개발자들이 자율적으로 작동하는 AI 시스템을 구축하는 데 새로운 가능성을 열 것으로 기대된다.