구글, '에이전트 AI' 시장 공략 위한 제미니 3.1 프로 출시 - 100만 토큰 컨텍스트

구글, ‘에이전트 AI’ 시장 공략 위한 제미니 3.1 프로 출시

100만 토큰 컨텍스트 창과 ARC-AGI-2 기준 77.1% 달성

구글이 제미니 3 시리즈의 첫 번째 버전 업데이트인 ‘제미니 3.1 프로’를 공식 출시했다. 이번 업데이트는 단순한 패치 수준이 아닌, Reasoning 안정성, 소프트웨어 엔지니어링, 도구 활용 신뢰성에 초점을 맞춘 ‘에이전트 AI’ 시장 공략의 전환점이 된다.

개발자들에게 이 업데이트는 중요한 신호다. 단순히 ‘대화’하는 모델에서 ‘작업’하는 모델로의 전환을 의미하기 때문이다. 제미니 3.1 프로는 파일 시스템을 탐색하고, 코드를 실행하며, 과학적 문제를 Reasoning으로 해결할 수 있는 자율 에이전트의 핵심 엔진으로 설계되었다.

100만 토큰 컨텍스트, 정확한 출력

가장 즉각적인 기술적 업그레이드 중 하나는 대규모 데이터 처리다. 제미니 3.1 프로 프리뷰는 100만 토큰의 대규모 입력 컨텍스트 창을 제공한다. 소프트웨어 엔지니어링 관점에서 말하면, 개발자는 이제 전체 중규모 코드 저장소를 모델에 입력해도 파일 간 의존성을 파악하는 데 충분한 ‘기억력’을 확보할 수 있다.

진정한 뉴스는 6만5천 토큰의 출력 제한이다. 6만5천 토큰 창은 장문 생성기를 구축하는 개발자에게 상당한 도약이다. 100페이지 분량의 기술 매뉴얼이든 복잡한 다중 모듈 파이썬 애플리케이션이든, 모델은 이제 갑작스러운 ‘토큰 최대치’ 없이 한 번의 작업으로 완료할 수 있다.

Reasoning 역량 두 배 증가

제미니 3.0이 ‘딥 싱킹’ 도입에 관한 것이라면, 제미니 3.1은 그 싱킹을 효율적으로 만드는 것이다. 엄격한 벤치마크에서의 성능 향상이 주목할 만하다.

벤치마크 별 점수는 다음과 같다. ARC-AGI-2는 77.1%로 완전히 새로운 로직 패턴을 해결하는 능력을 측정한다. GPQA 다이아몬드는 94.1%로 대학원 수준의 과학적 Reasoning을 나타낸다. 사이코드는 58.9%로 과학 컴퓨팅을 위한 파이썬 프로그래밍을 의미한다. 터미널벤치 하드는 53.8%로 에이전트 코딩과 터미널 사용을 평가한다. 휴머니티즈 라스트 엠람(HLE)은 44.7%로 인간에 가까운 한계에 대한 Reasoning을 측정한다.

특히 ARC-AGI-2에서의 77.1%가 핵심 수치다. 구글 팀에 따르면 이는 기존 제미니 3 프로 대비 Reasoning 성능이 두 배 이상 향상된 것이다. 이는 모델이 훈련 데이터의 패턴 매칭에 의존할 가능성이 낮아졌고, 데이터셋의 새로운 에지 케이스에 직면했을 때 ‘해결책을 찾아내는’ 능력이 훨씬 높아졌음을 의미한다.

에이전트 툴킷: 커스텀 도구와 ‘중력반전’

구글 팀은 개발자 터미널 확보를 위해 명확한 노력을 기울이고 있다. 메인 모델과 함께 전문화된 엔드포인트를 출시했는데, 바로 ‘제미니-3.1-프로-프리뷰-커스텀툴즈’다.

이 엔드포인트는 베이스 명령과 커스텀 함수를 결합하는 개발자에 최적화되어 있다. 이전 버전에서는 모델이 어떤 도구를 우선적으로 사용할지 결정하는 데 종종 어려움을 겪었으며, 로컬 파일 읽기로 충분한 경우 검색을hallucination하기도 했다. 커스텀툴즈 변수는 view_file이나 search_code 같은 도구를 우선시하도록 특별히 조정되어 있어 자율 코딩 에이전트의 더 신뢰할 수 있는 기반이 된다.

이번 출시에는 구글의 새로운 에이전트 개발 플랫폼인 ‘구글 앤티그래비티’와의 심층 통합도 포함되어 있다. 개발자들은 이제 새로운 ‘중간’ 싱킹 레벨을 활용할 수 있다. 이를 통해 ‘Reasoning 예산’을 전환할 수 있다. 복잡한 디버깅에는 고밀도 싱킹을 사용하고, 표준 API 호출에는 지연 시간과 비용을 절약하기 위해 중간이나 낮은 수준으로 낮출 수 있다.

API 주요 변경사항과 새로운 파일 메서드

이미 제미니 API에서 개발 중인 개발자들을 위한 작지만 중요한 호환성 문제가 있다. 인터랙션 API v1beta에서 필드 이름이 변경되었다. total_reasoning_tokens가 total_thought_tokens로 이름이 변경되었다. 이 변경은 제미니 3 시리즈에서 도입된 ‘싱크 서명’과 정렬된다. 이는 모델 내부 Reasoning의 암호화된 표현으로, 다중 턴 에이전트 워크플로우에서 컨텍스트를 유지하려면 모델에 다시 전달해야 한다.

모델의 데이터 요구도 성장했다. 파일 처리 관련 주요 업데이트는 다음과 같다.

파일 크기 제한 100MB: 이전 20MB 업로드 한도가 5배 증가했다.
유튜브 직접 지원: 이제 미디어 소스로 유튜브 URL을 직접 전달할 수 있다. 모델이 수동 업로드 대신 URL을 통해 동영상을 ‘시청’한다.
클라우드 통합: 클라우드 스토리지 버킷 및 개인 데이터베이스 사전 서명 URL을 직접 데이터 소스로 지원한다.

지능의 경제학

제미니 3.1 프로 프리뷰의 가격 책정은 공격적이다. 20만 토큰 미만의 프롬프트는 입력 비용이 100만 토큰당 2달러, 출력이 100만 토큰당 12달러다. 20만 토큰을 초과하는 컨텍스트는 입력 4달러, 출력 18달러로 가격이 오른다.

클로데 오푸스 4.6이나 GPT-5.2 같은 경쟁사와 비교할 때, 구글 팀은 제미니 3.1 프로를 ‘효율 리더’로 포지셔닝하고 있다. 인텔리전스 인덱스에서 최상위권을 유지하면서도 가장 가까운 프론티어 피어의 약 절반 수준의 비용으로 운영할 수 있다고 한다.

핵심 정리

100만/6만5천 컨텍스트 창: 모델은 대규모 데이터와 저장소를 위한 100만 토큰 입력 창을 유지하면서, 장문 코드와 문서 생성을 위한 출력 한도를 6만5천 토큰으로 크게 업그레이드했다.
논리와 Reasoning의 도약: ARC-AGI-2 벤치마크 성능이 77.1%에 달하며, 이전 버전 대비 Reasoning 성능이 두 배 이상 향상되었다. 대학원 수준의 과학 과제를 위한 GPQA 다이아몬드에서도 94.1%를 달성했다.
전용 에이전트 엔드포인트: 구글 팀은 전문화된 제미니-3.1-프로-프리뷰-커스텀툴즈 엔드포인트를 출시했다. 이는 베이스 명령과 시스템 도구(예: view_file 및 search_code)를 더 효과적으로 우선시하여 더 신뢰할 수 있는 자율 에이전트를 가능하게 한다.
API 호환성 변경: 개발자들은 total_reasoning_tokens 필드가 v1beta 인터랙션 API에서 total_thought_tokens로 이름이 변경되었으므로 코드베이스를 업데이트해야 한다.
향상된 파일 및 미디어 처리: API 파일 크기 한도가 20MB에서 100MB로 증가했다. 또한 개발자들은 이제 유튜브 URL을 프롬프트에 직접 전달하여 파일을 다운로드하거나 다시 업로드할 필요 없이 모델이 비디오 콘텐츠를 분석할 수 있다.

구글, ‘에이전트 AI’ 시장 공략 위한 제미니 3.1 프로 출시 – 100만 토큰 컨텍스트