구글의 새로운 연구, AI 추론 비용을 50% 절감하면서 정확도 향상

💡 핵심 요약
버지니아 대학과 구글의 새로운 연구가 생각이 오래 걸린다고 깊은 생각은 아니다를 증명했습니다.
연구팀은 토큰 수가 많을수록 정확도가 떨어지는 과대 사고 현상을 발견했습니다.
새로운 측정법 Deep-Thinking Ratio를 통해 추론 비용을 49% 절감하면서 정확도를 오히려 높였습니다.
🎯 인사이트: AI도 무의식적으로 생각합니다. 모델의 내부 층에서 어떤 토큰이 깊은 사고를 하는지 파악하면 더 효율적인 추론이 가능합니다.

토큰 최대화의 실패

기술자들은 종종 AI가 작업에 투입하는 노력의 지표로 토큰 수를 사용합니다. 그러나 연구팀은 원시 토큰 수가 정확도와 평균 상관계수 r = -0.59를 가지고 있음을 발견했습니다.

이 음수는 모델이 더 많은 텍스트를 생성할수록 더 틀릴 가능성이 높다는 것을 의미합니다. 이것은 과대 사고 때문에 발생합니다. 모델이 루프에 갇히거나, 불필요하게 긴 단계를 반복하거나, 자신의 실수를 증폭시키거나 합니다. 길이만 의존하면 비정보적인 토큰에 비싼 컴퓨트를 낭비하게 됩니다.

깊은 사고 토큰이란

연구팀은 진정한 사고가 최종 출력만이 아니라 모델의 층 내부에서 발생한다고 주장했습니다. 모델이 토큰을 예측할 때 일련의 트랜스포머 층을 통해 데이터를 처리합니다.

얕은 토큰: 쉬운 단어의 경우, 모델의 예측이 일찍 안정화됩니다. 5번째 층에서 36번째 층까지 추측이 많이 변하지 않습니다.
깊은 사고 토큰: 어려운 논리나 수학 기호의 경우, 예측이 더 깊은 층에서 크게 바뀝니다.

깊이를 측정하는 방법

이러한 토큰을 식별하기 위해 연구팀은 모델의 모든 층에 있는 내부 초안을 들여다보는 기술을 사용합니다. 중간 숨겨진 상태를 모델의 임베딩 행렬을 사용하여 어휘 공간으로 투사합니다.

그들은 중간 층 분포와 최종 층 분포 간의 Jensen-Shannon Divergence를 계산합니다. 토큰이 후반 Regime에서만 안정화되면 깊은 사고 토큰입니다. 테스트에서 0.85의 깊이 분수를 설정하여 토큰이 층의 마지막 15%에서만 안정화됨을 의미합니다.

Deep-Thinking Ratio는 전체 시퀀스에서 이러한 어려운 토큰의 비율입니다. DeepSeek-R1-70B, Qwen3-30B-Thinking, GPT-OSS-120B와 같은 모델에서 DTR은 정확도와 평균 양의 상관계수 r = 0.683을 보였습니다.

Think@n: 절반 비용으로 더 나은 정확도

연구팀은 추론 중 AI 성능을 확장하는 새로운 방법인 Think@n을 만들기 위해 이 혁신적인 접근 방식을 사용했습니다.

대부분의 개발자들은 Self-Consistency를 사용합니다. 48개의 다른 답변을 샘플링하고 다수결 투표로 최상의 것을 선택합니다. 이것은 모든 답변에 대해 모든 토큰을 생성해야 하기 때문에 매우 비쌉니다.

Think@n은 조기 중지를 사용하여 게임을 바꿉니다.

모델은 여러 후보 답변 생성을 시작합니다.
50개의 접두사 토큰만 후에 시스템은 각 후보의 DTR을 계산합니다.
낮은 DTR을 가진 전망 없는 후보의 생성을 즉시 중지합니다.
높은 깊은 사고 점수를 가진 후보만 완료합니다.

AIME 2025 결과

방법	정확도	평균 비용
Cons@n (다수결 투표)	92.7%	307.6 토큰
Think@n (DTR 기반 선택)	94.7%	155.4 토큰

AIME 25 수학 벤치마크에서 Think@n은 표준 투표보다 높은 정확도를 달성하면서 추론 비용을 49% 줄였습니다.

💡 핵심 정리

토큰 수는 정확도의 신뢰할 수 없는 예측자입니다: 원시 출력 길이는 성능과 평균 음의 상관관계(r = -0.59)를 가집니다. 더 긴 추론 흔적은 종종 품질 향상보다 과대 사고를 나타냅니다.
깊은 사고 토큰이 진정한 노력을 정의합니다: 초기 층에서 안정되는 단순한 토큰과 달리, 깊은 사고 토큰은 수렴하기 전에 더 깊은 모델 층에서 내부 예측이 상당한 수정을 거치는 토큰입니다.
Deep-Thinking Ratio가 더 나은 지표입니다: DTR은 시퀀스에서 깊은 사고 토큰의 비율을 측정하며 정확도와 강력한 양의 상관관계(r = 0.683)를 보입니다.
Think@n이 효율적인 테스트 시간 확장을 가능하게 합니다: 높은 깊은 사고 비율을 가진 샘플만 우선하고 완료함으로써 Think@n 전략은 표준 다수결 투표의 성능과 일치하거나 능률합니다.
조기 중지를 통한 대규모 비용 절감: 50개의 짧은 접두사에서 DTR을 추정할 수 있기 때문에, 전망 없는 생성을 일찍 거부하여 총 추론 비용을 약 50% 줄일 수 있습니다.

🏷️ 태그: #구글AI #DeepThinkingRatio #LLM #AI연구 #추론비용 #인공지능