Google DeepMind, Semantic Evolution으로 새로운 알고리즘
Google DeepMind 연구팀이 LLM을 활용한 진화 시스템 AlphaEvolve를 개발했다.
이 시스템은 알고리즘의 소스 코드를 으로 취급하여 새로운 학습 알고리즘을 자동으로 발견한다.
VAD-CFR과 SHOR-PSRO라는 두 가지 새로운 알고리즘을했다.
🎯 인사이트: AI가 인간의 상상을 초월하는 알고리즘을 스스로 만들어내는 시대가 왔다.
1. Background
1.1 기존 방식의 한계
다중 에이전트 강화학습(MARL) 분야에서 오랫동안 인간의 직관에 의존해왔다. 연구자들은 CFR(Counterfactual Regret Minimization)과 PSRO(Policy Space Response Oracles) 같은 알고리즘을 수동으로 개선해왔다.
1.2 AlphaEvolve의 등장
DeepMind는 AlphaEvolve를 통해 패러다임을 바꾸었다. 이 진화적 코딩 에이전트는 LLM을 활용하여 새로운 다중 에이전트 학습 알고리즘을 자동으로 발견한다.
2. Semantic Evolution
2.1 기존 AutoML과의 차이
기존 AutoML이 주로 숫자 상수를 최적화하는 반면, AlphaEvolve는 의미론적 진화를 수행한다. Gemini 2.5 pro를 유전자 연산자로 활용하여 로직을 재작성하고 새로운 제어 흐름을 도입한다.
2.2 작동 방식
- 초기화: 표준 기반 구현으로 시작
- LLM 돌연변이: 적합도에 따라 부모 알고리즘 선택 후 코드 수정
- 자동 평가: 프록시 게임에서 실행
- 선택: 성능 좋은 후보를 다시population에 추가
3.된 알고리즘
3.1 VAD-CFR
Volatility-Adaptive Discounted CFR은 다음과 같은 메커니즘을 활용한다:
- Volatility-Adaptive Discounting: 지수 이동 평균으로 학습 불안정 추적
- Asymmetric Instantaneous Boosting: 긍정적 후회값 1.1배 증가
- Hard Warm-Start: 500번째 반복까지 정책 평균화 지연
실험 결과 11개 게임 중 10개에서 최고 성능 달성.
3.2 SHOR-PSRO
Smoothed Hybrid Optimistic Regret PSRO는 동적 Annealing Schedule을 사용한다. 학습_solver는 안정성을 위해, 평가_solver는 활용 추정을 위해 다른 blended 요소를 사용한다.
4. 의의
4.1 혁신적인 접근
AI가 단순히 하이퍼파라미터를 조정하는 것이 아니라, 완전히 새로운 symbolic logic을해냈다.
4.2 향후 전망
이번 연구는 AI가 인간의 직관을 초월하는 알고리즘을 스스로 만들어낼 수 있는 가능성을 보여주었다.
DeepMind의 AlphaEvolve는 LLM을 활용한 의미론적 진화로 새로운 알고리즘을 자동 발견했다. VAD-CFR과 SHOR-PSRO는 다중 에이전트 학습의 새로운 표준이 될 수 있다.
5. 결론
AI가 스스로 새로운 알고리즘을 만들어내는 시대가 열렸다. AlphaEvolve의 가능성은 무한하다.