Webwright: Microsoft Research의 차세대 웹 자동화 에이전트, 벤치마크 점수 2배 향상 이끌어

핵심 1: Microsoft Research의 Webwright는 Playwright 스크립트 재사용 기반 설계로 기존 click-trace 방식의 한계를 극복했다.
핵심 2: Odysseys 벤치마크에서 기존 GPT-5.4 대비 약 1.8배 향상(60.1%)된 성능을 기록하며, Online-Mind2Web에서도 업계 최고 수준의 결과를 달성했다.
핵심 3: 약 1,000줄의 간결한 코드와 모듈 구조로, 일반화 효과와 재현성, 평가 자동화까지 확보해 연구와 실전 모두에 시사점을 남겼다.

Webwright는 구조적 혁신과 성능 향상을 모두 실현한 차세대 웹 자동화 에이전트의 모범 사례입니다.

서론: Webwright 출시 및 배경

마이크로소프트 리서치가 웹 자동화 에이전트 영역에서 새로운 프레임워크 Webwright를 공개했다. 2026년 5월 공식 발표된 이 프레임워크는 기존 웹 에이전트의 기술적 한계를 근본적으로 재설계한 결과물이다. 웹 자동화 기술은 AI 에이전트가 인간처럼 웹 인터페이스와 상호작용하는 핵심 역량으로, 최근 대형 언어 모델의 발전과 함께 빠르게 진화하고 있다.

Webwright의 구조와 기술적 특징

Webwright의 핵심 설계 철학은 Playwright 스크립트의 재사용에 있다. 기존은 사용자의 클릭 동작을 단순 추적하는 click-trace 방식이 주요했으나, Webwright는 Playwright 테스트 스크립트를 에이전트의 행동 단위로 활용한다. 이 접근법 덕분에 명확한 동작 정의 등 구조적 이점을 제공할 수 있게 되었다.

아키텍처는 세 개의 핵심 모듈로 구성되며 전체 코드베이스는 약 1,000줄에 불과하다. 단일 agent 루프 구조로 설계의 간결함과 유지보수성이 보장된다. 백엔드로는 GPT-5.4를 활용해 복잡한 웹 환경 속 의사결정 및 작업 수행 능력까지 확보했다.

기존 웹 에이전트와의 차별점

기존 click-trace 방식은 상호작용 패턴의 단순화에 따라 일반화 능력이 떨어지고, 비직관적 행동 생성, 평가 자동화의 어려움 등 구조적 한계를 안고 있었다. 이에 마이크로소프트 리서치는 테스트 분야에서 이미 널리 쓰이고 검증된 Playwright 생태계를 프레임워크에 통합했다.

Playwright 스크립트 기반 접근은 에이전트의 행동을 명확하게 정의해 해석 가능성이 높고, 기존 테스트 자원의 재활용을 통한 개발 효율성 향상, 계층 구조의 효과적 활용 등 다양한 환경 적응력까지 갖췄다.

성능 평가: 벤치마크 결과 상세 분석

Webwright는 대표 평가 벤치마크에서 뚜렷한 성능 우위를 보였다. Odysseys 벤치마크에서 60.1%를 기록하여, 동일 백엔드인 GPT-5.4 단독(33.5%) 대비 약 1.8배 향상된 결과다. Odysseys는 장기 작업 시퀀스에서의 적합성을 중점으로, 복잡한 웹 작업에서 에이전트 역량을 종합적으로 측정한다.

또 다른 평가인 Online-Mind2Web에서도 오피스 Eval 스코어 86.7%를 달성, 해당 벤치마크 기준 최고 점수를 기록했다. Mind2Web은 실질 웹 환경의 다단계 작업 수행 능력을 측정하며, 다양한 도메인의 웹사이트에서 일반화 성능을 검증한다.

두 벤치마크에서의 성과는 Webwright가 특정 작업에 국한되지 않고 실전 응용에 적합한 범용 웹 자동화 역량을 갖췄음을 보여준다. 특히 장기 시퀀스 작업과 실제 환경 개선이 실질적인 활용 가치를 입증한다.

업계 및 연구 생태계에서의 의의

Webwright의 등장은 웹 자동화 AI 에이전트 연구에 여러 시사점을 남겼다. 첫째, 도메인 특화 도구(Playwright) 재사용을 통해 에이전트 행동 명시화와 모델 일반화 간 균형을 효과적으로 맞춘 점이 눈에 띈다. 둘째, 약 1,000줄의 소스코드와 3개 모듈이라는 간결한 구조는 엔지니어링적 재현성과 확장성 측면에서 큰 장점이다.

모듈화 및 효율적인 코드 구조는 복잡성을 최소화하면서도 성능을 극대화한 좋은 예로, 향후 웹 에이전트 연구 설계에도 영향을 줄 전망이다. 평가 자동화 역시 Playwright 기반 구조 덕분에 자연스러운 평가 파이프라인 구축이 가능해졌다.

향후 전망 및 한계점

Webwright의 성과는 고무적이지만, 개선 과제도 있다. 첫째, 현재 테스트는 주요 벤치마크 환경에 최적화된 측면이 있어, 다양한 실제 웹 환경에서의 일반화 능력을 추가로 검증할 필요가 있다. 둘째, Playwright 스크립트 작성 능력에 대한 의존성이 에이전트 범용성을 한계짓는 요소가 될 수 있다.

향후 연구로는 더 복잡한 웹 애플리케이션 테스트, 다중 에이전트 협업 시나리오, 실시간 웹 상호작용 처리 등 다양한 시도를 기대할 수 있다. 또한 다른 대형 언어 모델과의 조합 가능성 역시 확장 가치가 있으며, 실제 상용 환경에서의 평가도 뒷받침돼야 한다.

결론적으로, Webwright는 웹 자동화 에이전트의 혁신적 접근을 실현하며 업계 기준을 크게 개선했다. 간결한 설계와 도구의 효과적 활용이라는 원칙은 향후 관련 기술 및 연구에 좋은 방향성을 제시할 것으로 기대된다. 실전 응용과 학술 양면에서 모두 주목받을 성과로, 해당 분야의 지속 발전이 기대된다.

구조적 혁신: Playwright 스크립트 재사용 기반, 3개 모듈/1,000줄 코드 구조로 구현
압도적 성능: Odysseys·Mind2Web 등 각종 벤치마크에서 업계 최고 수준 기록
연구/실무 모두 아우르는 가치: 평가 자동화, 재현성, 도구 생태계 연계 등 학계·산업계에 모두 시사점

TAG : Webwright, MicrosoftResearch, 웹자동화, AI에이전트, Playwright, Odysseys벤치마크, OnlineMind2Web, GPT54, 성능향상