LLM의 '인간다움'은 환상일까: Age of Empires II가 증명하는 의인화 속성의 비고유성

핵심 요약

의인화 평가의 순환성: 귀무가설 없이 도덕성·마음 이론을 LLM에 부여하는 평가는 검증 불가능한 구조다.
기질 비고유성 증거: Age of Empires II 같은 튜링 완전 시스템에서도 신경망 구현이 가능해, 의인화 속성은 LLM 고유 특성이 아니다.
방법론적 제안: 비고유성 가설의 채택, 명시적 측정 기준, 사전 선언된 일반화 대상이 필수다.

“인간다움”은 모델의 능력이 아니라 해석자의 투사다.

서론: 의인화의 확산과 그 대가

LLM 연구에서 도덕성, 마음 이론(Theory of Mind), 불안, 의식 같은 인간적 속성을 LLM에 부여하거나 전제하는 평가가 폭발적으로 증가하고 있다. 그러나 이러한 평가는 근본적인 방법론적 결함을 내포한다. 측정 기준 없이 자연어 출력의 패턴을 인간적 속성의 증거로 해석하는 순간, 결론은 이미 가설 안에 갇혀 있다. 이번 분석은 이 순환 구조를 해체하고, Age of Empires II 사례를 통해 의인화 속성이 LLM에 고유하지 않다는 주장을 실증적으로 검증한다.

핵심 문제: 의인화 가정이 실험을 오염시키는 메커니즘

의인화 평가의 가장 큰 문제는 귀무가설의 부재다. 대부분의 연구는 LLM이 인간적 속성을 가진다는 가정하에 테스트를 설계한다. 모델이 “나는 윤리적 판단을 내릴 수 있다”고 답하면 도덕성이 존재한다고 결론 내리고, “그건 너무 복잡하다”고 답하면 한계가 있다고 결론 짓는다. 어느 쪽이든 연구자의 기대를 확인해줄 뿐이다.

더 심각한 것은 해석의 순환성이다. 테스트 세트가 도덕적으로 그럴듯한 프롬프트로 구성되어 있다면, 통계적으로 가장 그럴듯한 응답을 학습한 LLM이 인간적 응답을 보이는 것은 놀랍지 않다. 이때 “LLM은 도덕적 행위자다”라는 결론은 데이터의 통계적 구조를 반영할 뿐, 정보성이 낮다.

Age of Empires II: 기질 비고유성의 결정적 증거

1999년 출시된 고전 실시간 전략 게임 Age of Empires II는 학술적으로 입증된 튜링 완전 기질이다. 게임 엔진 내부 스크립팅을 활용하면 임의의 계산이 가능하며, 연구진은 이 엔진 내에 단순 신경망을 구현하고 훈련한 사례를 보고했다.

만약 게임 상태 저장소와 유닛 행동 로직만으로 신경망이 구현 가능하다면, 충분한 계산 능력을 가진 어떤 기질이든 LLM과 동등한 정보 처리 엔티티를 호스팅할 수 있다. LLM이 보여주는 “인간다움”은 LLM이라는 기질 자체에서 비롯된 것이 아니라, 그 기질이 구현하는 추상적 계산 구조에서 비롯된 것이다. 동일한 계산 구조는 엑셀 시트나 모래밭 위의 물리적 장치에서도 구현 가능하다.

보존되는 것과 보존되지 않는 것

모든 속성이 기질에 무관하게 보존되는 것은 아니다. 프롬프트-출력 매핑은 비교적 안정적으로 보존된다. “오늘 날씨는 어때?”라는 입력에 대해 어떤 시스템이든 기상 정보를 담은 출력을 생성하도록 학습 가능하다. 반면 탈의인화 품질, 즉 지각된 행동의 해석은 구현 기질에 따라 크게 달라진다. 동일한 출력 패턴이 LLM에서는 “사유”로 해석되지만, 게임 엔진 내 신경망에서는 “메커니즘”으로 해석된다. 50년 이상 된 텍스트 패턴 매처인 ELIZA가 사용자에게 정서적 교감을 느끼게 했다는 사실은, 인간적 속성이 모델의 능력이 아니라 해석자의 투사임을 명확히 보여준다.

방법론적 제안: 비고유성 가설의 채택

이 문제를 해결하기 위해 연구진은 비고유성 가설을 기본 가정으로 채택할 것을 제안한다. 연구자는 먼저 반증 가능한 형태로 가설을 명시해야 한다. “LLM X는 기질 Y에서도 동일하게 나타나는 속성 Z를 가진다”와 같은 형식이어야 한다. 또한 명시적 측정 기준과 기질 간 일반화 대상의 사전 선언이 필수적이다. 측정 기준이 없으면 결론은 표현 방식의 산물일 뿐이며, 일반화 대상이 선언되지 않으면 그 결과는 특정 LLM 기질에 국한되어 AI 연구 일반에 대한 통찰력을 잃는다.

결론: 순환 논증에서 경험적 프레임워크로

LLM 연구는 빠르게 진화하지만, 그 방법론은 종종 검증되지 않은 인간 중심적 가정 위에 서 있다. Age of Empires II 사례는 “충분한 계산 기질이면 무엇이든 가능하다”는 단순하지만 강력한 진실을 일깨운다. LLM의 인간적 외양은 인상적이지만, 이는 전례 없는 능력이 아니라 해석의 산물이다. 신뢰할 수 있는 AI 연구를 위해서는 명시적 측정 기준, 사전 선언된 일반화 대상, 비고유성 가설의 채택으로 순환 논증의 굴레를 끊어야 한다. 궁극적으로 AI 능력 평가의 기준은 인간이 보는 모습이 아니라 그 계산 구조가 무엇을 할 수 있는지에 대한 엄밀한 증명이어야 한다.

핵심 포인트 정리

의인화 평가는 귀무가설 없이 설계되어 결론이 항상 연구자 기대를 확인하는 순환 구조를 갖는다.
Age of Empires II 같은 튜링 완전 게임 엔진에서도 신경망 구현이 가능해, LLM 고유 속성은 존재하지 않는다.
ELIZA 사례는 인간적 속성이 모델이 아닌 해석자의 투사에서 비롯됨을 명확히 보여준다.
비고유성 가설, 명시적 측정 기준, 사전 선언된 일반화 대상이 검증 가능한 AI 연구의 필수 조건이다.

TAG : LLM 의인화, 기질 비고유성, 튜링 완전, Age of Empires II, 신경망 구현, 측정 기준, 귀무가설, 탈의인화 품질, 프롬프트 출력 매핑, ELIZA 효과, AI 연구 방법론, 순환 논증, 계산 기질, 메타 분석

LLM의 ‘인간다움’은 환상일까: Age of Empires II가 증명하는 의인화 속성의 비고유성