모방을 넘어 발견으로, 리차드 서튼이 말하는 생성 AI의 다음 패러다임

지도학습 기반 생성 AI는 학습 데이터의 패턴을 모방하는 모델에 불과하며, 과학·수학 영역의 새로운 발견에는 구조적으로 한계가 있다는 비판이 제기된다.
신뢰 가능한 원천 자료가 있는 영역(인터넷 답변, 문서 요약)에서는 모델이 기존 내용을 충실히 재현할수록 환각이 줄고, 답변의 질은 데이터 품질에 의해 좌우된다.
소설·이미지처럼 정답이 없는 영역에서는 모방 기반 생성이 비교적 잘 작동하지만, 이는 분포 내 재조합에 가까우며 진정한 창의성과는 구분된다.

서튼의 ‘Bitter Lesson’ 사상은 LLM이 학습 분포를 넘어서려면 강화학습과 세계 모델이라는 다음 패러다임이 필요함을 시사한다.

2026년 6월, 강화학습 분야의 거장 리차드 서튼(Rich Sutton)은 자신의 블로그와 발표를 통해 현재의 생성형 AI 패러다임이 갖는 본질적 한계에 대해 강하게 목소리를 냈다. ‘Bitter Lesson(쓴맛의 교훈)’으로 유명한 그는, 인간이 손으로 정제한 데이터에 의존하는 한 모델은 인간을 ‘모방’하는 데서 멈출 수밖에 없다고 주장한다. 특히 그는 4가지 영역을 명확히 구분하면서, 생성 AI의 ‘창의성’이 어디까지 진짜인지 냉정하게 해부했다.

왜 ‘모방’인가: 지도학습 기반 생성 AI의 구조

현재 대부분의 대규모 언어 모델(LLM)은 인터넷 텍스트를 대규모로 수집하고, 지도학습(supervised learning) 형태로 인간이 만든 정답 라벨을 부여받아 학습한다. 서튼은 이러한 학습 방식을 ‘사람이 일일이 답을 알려주는 사교육’에 비유했다. 모델은 주어진 예시와 통계적으로 가장 비슷한 출력을 생성하도록 보상받기 때문에, 본질적으로 ‘사례와 비슷하게 행동하는 모방 모델(imitation model)’일 뿐이라고 본다.

이 관점에서 보면, 모델이 새로운 과학적 가설을 스스로 만들어내거나 미해결 수학 문제를 풀어내는 것은 구조적으로 매우 어려운 일이다. 학습 데이터에 존재하지 않는 패턴을 ‘발견’하는 것이 아니라, 기존 패턴을 ‘재조합’하는 것이 모델이 할 수 있는 최선이라는 것이다. 실제로 오늘날 LLM의 추론 능력 상당 부분이 학습 데이터에 포함된 풀이 과정을 재생하는 데서 나온다는 분석이 있다.

영역별로 보는 생성 AI의 작동 방식

영역	원천 자료	모방의 적절성	환각 위험
인터넷 Q&A 답변	스택오버플로우, 공식 문서 등 풍부	충실한 재현이 적절	낮음(원천 추적 가능 시)
문서 요약	원문 텍스트가 존재	요약 자체가 재조합	낮음(원문 대조 가능)
소설·이미지 생성	참·거짓 판단 불가	모방이 비교적 자연스러움	판단 불가
과학·수학의 새로운 발견	기존 논문·정리	구조적으로 한계	높음(검증된 길 없음)

표에서 보듯, 영역에 따라 ‘모방’이 적절한지 여부는 크게 달라진다. 특히 마지막 행인 과학·수학 발견 영역은, 학습 데이터에 정답이 없는 영역에 해당하기 때문에 지도학습 모델이 스스로 새로운 사실을 만들어내는 것은 본질적으로 어렵다는 평가가 지배적이다.

‘새로움’의 환상, 환각이 어디서 오는가

서튼이 강조한 또 다른 핵심은 ‘좋은 답변의 원천은 모델이 아니라 데이터의 품질’이라는 점이다. 인터넷 답변이나 문서 요약처럼 이미 신뢰 가능한 원천이 존재하는 영역에서 모델이 그 내용을 그대로 재현하는 것은 환각을 줄이는 가장 효과적인 방법이다. 반대로 모델이 학습 데이터에 명시적으로 없는 ‘새로운 문장’을 만들어내는 경우, 그 내용이 사실과 다를 가능성은 통계적으로 커진다.

즉, 환각(거짓 정보 생성) 문제는 모델이 너무 똑똑해서가 아니라 학습 목표가 ‘정답 맞히기’이지 ‘진실 검증하기’가 아니기 때문에 발생한다. 한국어로 번역하면 “학습 데이터에 존재하지 않는 패턴까지 통계적으로 만들어내는 현상”에 가깝다. 이는 모델 스케일과 데이터 양 확대만으로는 환각 문제를 완전히 해소하지 못한다는 평가가 제기된다로 분석된다.

다음 패러다임의 등장: 강화학습과 세계 모델

그렇다면 LLM 다음에는 무엇이 와야 하는가. 서튼의 Bitter Lesson은 이미 2019년 글에서 “계산 자원을 활용하는 일반적인 방법이 결국 특수한 인간 지식을 이긴다(general methods that leverage computation are ultimately the most effective)”라고 못 박았다. 최근 그는 이 명제를 다시 한번 강화하면서, 강화학습(RL)과 세계 모델(world model)의 결합이 새로운 돌파구가 될 것이라고 시사했다.

RAG, 툴 사용, 에이전트 오케스트레이션의 의미

이러한 흐름은 이미 실무에서도 나타나고 있다. Retrieval-Augmented Generation(RAG)은 모델 외부에 신뢰 가능한 원천 문서를 두고, 모델은 그 문서를 ‘조회하고 요약하는 역할’만 수행하게 만든다. 툴 사용(tool use)은 모델이 계산기, 검색 엔진, 코드 실행기를 호출하도록 허용하며, 에이전트 오케스트레이션은 여러 모델과 도구를 조합해 복잡한 작업을 단계적으로 해결하도록 설계한다. 공통점은 ‘모델이 답을 만들어내는 것’이 아니라 ‘모델이 외부 환경을 탐색하고 행동하는 것’에 초점을 둔다는 점이다.

아래는 RAG 기반 응답 흐름을 단순화한 의사 코드 예시다. 모델이 ‘새로운 사실’을 생성하는 대신, 외부 지식 베이스를 먼저 조회하고 그 결과를 근거로 답변을 구성하도록 강제한다.

def rag_answer(query, knowledge_base, llm):
    docs = knowledge_base.search(query, top_k=5)   # 1) 외부 원천 조회
    context = "\n".join([d.text for d in docs])   # 2) 근거 컨텍스트 구성
    prompt = f"""다음 자료만을 근거로 한국어로 답하라.\n자료:\n{context}\n질문:{query}"""
    answer = llm.generate(prompt)                 # 3) 모델은 '재구성'만 수행
    return {"answer": answer, "sources": [d.id for d in docs]}

이처럼 모델이 ‘생성’보다 ‘선택과 재구성’을 담당하도록 설계할수록, 서튼이 말한 환각 위험 영역은 줄어든다. 동시에 모델은 외부 환경과 상호작용하며 보상을 받기 때문에, 장기적으로는 강화학습 기반의 자기 개선(self-improvement) 루프로 확장될 가능성이 높다. 이러한 변화는 아직 초기 단계이지만, ‘모방을 잘하는 AI’와 ‘발견하는 AI’ 사이의 간극을 메우는 핵심 전략이 될 것으로 보인다.

맺음, 모방을 잘하는 AI와 발견하는 AI 사이

결론적으로 서튼의 메시지는 ‘지금의 LLM이 나쁘다’는 것이 아니다. 그는 “기존 문서와 패턴을 충실히 재현하는 데는 현재 모델이 매우 뛰어나며, 이는 분명 가치 있는 능력”이라 인정한다. 다만 ‘발견’까지 확장하려면 학습 패러다임 자체가 바뀌어야 한다는 점이 핵심이다. 한국 개발자와 연구자 입장에서 다음 세 가지 실천 포인트가 의미가 크다.

데이터 파이프라인을 ‘콘텐츠 소스’ 관점으로 재설계 — 모델 성능의 상한선은 데이터 품질에 크게 좌우된다. 사내 도메인 지식, 검증된 기술 문서, 정제된 코드 저장소를 우선순위 높은 원천으로 관리해야 한다.
‘생성’보다 ‘오케스트레이션’에 예산을 배분 — 모델 자체를 키우는 데 매몰되지 말고, RAG, 에이전트, 툴 사용을 결합해 ‘외부 환경을 탐색하는 시스템’으로 설계하는 편이 현실적 임팩트가 크다.
강화학습·세계 모델 트랙을 주시 — 2026년 기준 RLHF 이후의 RL 기술, 시뮬레이션 기반 세계 모델, 멀티모달 에이전트 등장은 LLM 단독으로는 불가능했던 ‘발견형 AI’로 가는 징후로 분석된다.

‘쓴맛의 교훈’이 말했듯, 결국 살아남는 방법은 인간이 손으로 만든 규칙과 데이터가 아니라, 일반적인 계산 방법과 환경과의 상호작용을 통한 학습이다. 모방을 뛰어넘는 AI는 데이터의 분포 안에 머무르지 않고, 세계 모델 안에서 가설을 세우고 검증하는 방식으로 진화할 가능성이 높다. 한국 생태계에서도 이를 단순 후행이 아니라, 산업 도메인에 맞는 ‘발견형 AI’ 실험으로 적극 전환할 시점이다.

참고 자료: GeekNews – Rich Sutton의 AI 창의성과 발견, Amazon Science – The Bitter Lesson by Rich Sutton

#RichSutton #BitterLesson #생성AI #지도학습 #강화학습 #세계모델 #LLM한계 #환각 #AI창의성 #에이전트 #AI패러다임 #모방vs발견 #LLM비판 #한국개발자