핵심 요약
- 논문 Code as Agent Harness는 코드를 LLM의 결과물이 아닌 에이전트의 operational substrate로 재정의한다.
- UIUC, Meta, Stanford 연구진이 2026년 5월 arXiv에 102페이지 서베이를 공개하며 Harness Interface 등 3계층 구조로 분석한다.
- LLM은 에이전트 시스템의 한 컴포넌트로 위치하며 실행 기반과 상태 관리 레이어의 결합이 에이전트 성능을 좌우하는 것으로 분석된다.
에이전트 엔지니어링의 초점이 모델에서 코드로 이동하는 흐름을 보여주는 학술 서베이로 해석된다.
최근 AI 에이전트 연구는 모델 자체보다 에이전트를 둘러싼 실행 환경과 코드 구조에 관심을 기울이기 시작했다. 이러한 흐름 속에서 2026년 5월 공개된 서베이 논문 Code as Agent Harness는 코드와 에이전트의 관계를 근본적으로 다시 묻고 있다.
은 이 논문의 핵심 주장과 3계층 분석 프레임워크를 정리하고 그 시사점을 살펴본다.
들어가기 – 에이전트와 코드의 관계 재정의
LLM을 중심으로 본 에이전트 시스템의 blind spot
기존 에이전트 논의는 대부분 LLM의 추론 능력과 프롬프트 설계에 집중해 왔다. 그러나 실제 프로덕션 환경에서 에이전트는 도구 호출, 상태 저장, 외부 피드백 검증 같은 운영적 행위를 끊임없이 수행한다. 이 같은 운영 계층을 코드 없이 구현하는 것은 사실상 불가능하다는 지적이 꾸준히 제기되어 왔다.
서베이 저자들은 이러한 blind spot을 문제의 출발점으로 삼고 있다. 즉 에이전트 시스템에서 코드의 역할을 종속 객체가 아니라 운영 기반 substrate로 재해석할 필요가 있다는 것이다.
논문 개요 – Code as Agent Harness
arXiv 공개 이력과 프로젝트 페이지 구성
논문 Code as Agent Harness는 UIUC, Meta, Stanford 소속 연구진의 합작으로 작성되었으며 2026년 5월 arXiv를 통해 공개되었다. 분량은 총 102페이지에 달하며 광범위한 관련 연구를 아우르는 서베이 형식이다. 2026년 6월 25일에는 geeknews를 통해 국내 개발자 커뮤니티에도 공유되었다.
| 항목 | 내용 |
|---|---|
| 논문 제목 | Code as Agent Harness |
| 페이지 수 | 102페이지 |
| 게재 플랫폼 | arXiv |
| 게재 시점 | 2026년 5월 |
| 주요 소속 | UIUC, Meta, Stanford |
| 주요 연구 기관 | UIUC, Meta, Stanford |
| 프로젝트 페이지 | code-as-harness.github.io |
| 커뮤니티 공유 | geeknews 토픽 |
논문은 단순한 문헌 정리를 넘어 에이전트 시스템을 구성하는 코드 요소를 새로운 관점으로 분류하고 있다는 점에서 의의가 있다.
핵심 주장 – 코드는 operational substrate
코드의 역할을 종속 객체에서 운영체제로 전환
서베이의 중심 명제는 다음과 같다. 코드는 더 이상 LLM이 생성하는 결과물이 아니다. 에이전트가 추론하고 행동하며 상태를 저장하고 피드백을 검증하는 operational substrate다. 즉 코드는 모델이 만들어내는 부산물이 아니라 에이전트 실행 자체를 떠받치는 토대로서의 역할을 수행한다는 것이다.
필자는 이러한 주장이 의미하는 바를 두 가지로 정리한다. 첫째, 에이전트의 성능은 모델 파라미터뿐 아니라 코드로 구현된 운영 환경의 품질에 크게 좌우된다. 둘째, 에이전트 디자인 패턴을 논할 때 코드 레이어를 별도의 분석 대상으로 다뤄야 한다는 점이다.
3계층 구조 분석
LLM 레이어와 하위 실행 레이어의 상호작용
논문은 에이전트 시스템을 분석하기 위해 3계층 구조 프레임워크를 제안한다. 여기에는 Harness Interface를 포함한 실행 레이어들이 포함되며 LLM은 그 중 하나의 컴포넌트로 위치한다. 구체적으로는 다음과 같은 구성이 제시된다.
- LLM 레이어: 추론과 의사결정을 담당하는 모델 자체의 영역
- Harness Interface 레이어: LLM과 외부 시스템 사이에서 도구 호출과 메시지 흐름을 관리하는 계층
- 실행 substrate 레이어: 상태 저장, 피드백 검증, 부수효과 실행 등 운영적 기능을 떠받치는 코드 기반
3계층은 서로 독립적이지 않고 끊임없이 상호작용한다. LLM이 생성한 호출 의도는 Harness Interface를 거쳐 실행 substrate로 전달되고 substrate는 다시 검증된 피드백을 상위 레이어로 되돌려 보낸다. 이러한 순환 구조 안에서 코드 substrate는 단순한 매개체가 아니라 에이전트의 신뢰성을 결정짓는 핵심 요소로 기능하는 것으로 분석된다.
시사점 – 에이전트 엔지니어링 패러다임 전환
향후 연구 방향과 실무 적용 포인트
이 서베이가 던지는 가장 큰 질문은 에이전트 엔지니어링의 중심을 어디에 두어야 하느냐다. 지금까지는 모델 선정과 프롬프트 최적화가 1차 관심사였으나 Code as Agent Harness는 코드 substrate 설계의 중요성을 부각시킨다. 향후 연구는 Harness Interface의 표준화, 실행 substrate의 재사용성, 상태 관리 패턴 등으로 확장될 가능성이 높다.
실무 측면에서도 다음과 같은 변화가 예상된다. 먼저 에이전트 프로젝트 평가 시 코드 레이어의 안정성과 관측 가능성을 별도 지표로 다루어야 할 것이다. 또한 LLM 호출을 감싸는 harness 코드 자체를 엔지니어링 자산으로 관리하는 문화가 필요해 보인다. 마지막으로 서베이에서 강조된 operational substrate 개념은 멀티 에이전트, 장기 실행 작업, 자율 워크플로 같은 영역으로 자연스럽게 이어질 것으로 보인다.
결론적으로 본 서베이는 에이전트 연구의 렌즈를 모델에서 코드로 전환하는 출발점으로 읽힌다. AI 에이전트 시스템을 본격적으로 설계하고 운영하려는 팀이라면 LLM 한 컴포넌트가 놓여 있는 3계층 구조 전체를 함께 설계해야 한다는 메시지를 새겨둘 필요가 있다.
정리 포인트
- 코드는 LLM의 결과물이 아니라 에이전트의 operational substrate라는 재정의가 핵심 명제다
- 3계층 구조는 LLM, Harness Interface, 실행 substrate 레이어의 상호작용으로 구성된다
- UIUC, Meta, Stanford의 102페이지 서베이는 2026년 5월 arXiv에 공개되었다
- 에이전트 엔지니어링의 초점이 모델에서 실행 코드로 이동하는 패러다임 전환을 보여준다
- Harness Interface 표준화와 substrate 재사용성이 향후 연구 과제로 부상할 것으로 분석된다