브라운대 AI 부정행위 사건에서 배우는 대학 평가 시스템 재설계

핵심 요약

  • Brown University의 ECON 1170 중간고사에서 최소 50명이 AI 부정행위 의혹을 받았으며, 일부 답안이 ChatGPT 출력과 일치하는 비정상적 문체로 적발됨
  • take-home 중간고사 평균 96점, 만점 40명이었으나 대면 기말고사 전환 후 평균 48점, 89명 중 59명만 출석하여 점수와 출석 모두 급락함
  • 교수 Roberto Serrano는 다음 학년부터 주간 과제 성적 반영과 take-home 시험을 모두 중단하기로 결정하며 Princeton의 1893년 Honor Code 기반 무감독 시험 제도가 대안으로 부각됨

AI는 대학 시험의 형식만 바꾸는 것이 아니라 평가의 신뢰 그 자체를 비용으로 만들었다는 점이 이 사건의 본질이다.

2026년 3월, Brown University의 고급 수리경제학 과목 ECON 1170에서 take-home 방식의 중간고사가 진행된 직후 교수 Roberto Serrano는 적어도 50명의 학생 답안이 ChatGPT 출력과 유사한 비정상적 문체를 담고 있다는 사실을 발견했다. 사건은 단순한 부정행위 적발을 넘어, AI가 대학 평가 시스템의 신뢰 구조를 근본부터 흔들 수 있다는 경고로 확산되고 있다. 본 고에서는 이 사건의 수치와 배경, 그리고 제도적 대응 방향을 분석한다.

5. AI 시대 대학 평가 시스템 재설계 제안

5.1 브라운대 사건이 드러낸 take-home 시험의 구조적 한계

take-home 시험은 학생이 자택에서 일정 시간 내에 답안을 작성해 제출하는 형태로, 개방형 사고력 평가에 유리해 많은 대학에서 채택해 왔다. 그러나 ECON 1170 사건은 이 형식이 생성형 AI에 노출될 때 점검 장치가 약화된다는 점을 드러냈다. 중간고사 평균이 96점에 달하고 40명이 만점을 기록한 결과는, 정상적인 학습 곡선으로는 설명하기 어려운 통계적 이상치로 해석된다. 특히 일부 답안에서 동일 문체, 유사한 접속사 반복, 비현실적으로 매끄러운 문장 구조가 관찰되었으며, 이는 LLM 생성 텍스트 특징과 겹치는 1차 신호로 작용했다.

또한 take-home 시험은 과목의 평가 역량과 정합성이 떨어질 수 있다. 장시간 자택 작성 과제는 자료 탐색과 종합에는 유리하지만, 수리경제학처럼 개인의 논리적 추론과 계산 능력을 확인해야 하는 과목에서는 학생의 사고 과정을 단독으로 검증하기 어렵다. 자신의 사고인지 AI의 산출물인지 구별하기 어렵다. 따라서 과목의 학습 목표와 평가 형식이 정합해야 한다는 원칙이 다시 강조되어야 한다.

5.2 대면 시험 복귀와 출석률 하락이 말하는 신뢰 비용

Serrano 교수가 대면 기말고사로 형식을 전환하자 결과는 극명하게 갈렸다. 평균 점수는 96점에서 48점으로 절반 수준으로 떨어졌고, 89명의 수강생 중 59명만 시험에 출석해 약 34%가 결석했다. 이 두 수치는 동시에 두 가지 비용을 가시화한다. 첫째, 형식이 바뀌는 순간 학생의 실제 역량이 드러나면서 기존 점수 체계가 학점을 부풀렸다는 사실이 확인되었다. 둘째, 대면 시험이라는 통제된 환경을 회피하기 위해 상당수가 시험 자체를 포기했다는 점에서, 평가는 학습의 도구이자 의무 이행의 장치라는 두 가지 기능을 동시에 잃었다고 볼 수 있다.

신뢰 비용을 정량적으로 정리하면 다음 표와 같다.

지표 take-home 중간고사 대면 기말고사 변화
평균 점수 96점 48점 약 50% 하락
만점자 수 40명 미공개 정상 분포로 회귀
출석 인원 전원 응시 추정 89명 중 59명 약 34% 결석
AI 부정행위 위험 매우 높음 낮음 통제 환경 확보

Princeton University의 Honor Code는 1893년부터 시작된 무감독 시험 전통으로, 학생이 자체 서약만으로 시험에 임하게 한 제도다. 이 모델은 기술적 통제보다 윤리적 신뢰에 기반을 두며, AI 시대를 맞아 그 가치와 한계가 동시에 재조명되고 있다. 기술로 막을 수 없는 영역을 신뢰로 메우는 방식이지만, 모든 학생 집단이 이 약속을 유지할 수 있다는 보장은 없기 때문에 상호 보완적 장치가 필요하다.

5.3 교수·학생·대학 행정부의 역할 재정의

Serrano 교수가 다음 학년부터 주간 과제 성적 반영과 take-home 시험을 모두 중단하기로 한 결정은, 한 교수의 개인적 대응을 넘어 제도적 신호로 읽힌다. 그러나 단독 조치는 지속 가능하지 않으며, 교수·학생·대학 행정부가 각자의 책임을 분담해야 한다. 먼저 교수는 과목 목표에 맞는 평가 형식을 설계하고, AI 탐지 도구와 학습 분석 데이터를 결합해 비정상 패턴을 조기에 식별해야 한다. 동시에 탐지 한계와 오탐 가능성을 학생에게 투명하게 고지하는 절차도 마련되어야 한다.

학생은 AI 활용 가이드라인을 명확히 인지해야 하며, 대학은 Honor Code 같은 윤리 기반 제도와 AI 활용 규범을 결합한 통합 정책을 수립해야 한다. 특히 학점 기재, 부정행위 조사 절차, 이의 제기 및 권리 구제 절차가 사전에 문서화되어 있어야 신뢰 비용을 통제할 수 있다. 아울러 AI 탐지 기술은 끊임없이 우회되므로, 단일 기술 의존보다는 형식 다양화, 과정 평가 강화, 구술 시험, 프로젝트 기반 평가의 혼합이 실질적 해법으로 보인다.

핵심 시사점

핵심 정리

  • take-home 시험은 AI 시대에 형식 자체의 점검이 필요하며, 과목 학습 목표와 평가 형식의 정합성 확보가 우선 과제다.
  • 평균 96점에서 48점으로의 하락과 89명 중 59명 출석(약 66%)이라는 수치는 형식 변경 이후 드러난 차이를 보여준다.
  • Serrano 교수의 사례는 교수 단독 대응의 한계를 드러내며, 교수·학생·행정부의 역할 분담이 제도적 해법의 출발점이다.
  • Princeton의 1893년 Honor Code 사례처럼 윤리 기반 제도와 형식 다양화, 기술 통제를 결합한 다층적 접근이 검토 대상이다.

결론적으로 AI가 대학 시험의 형식만 바꾸는 것이 아니라 평가의 신뢰 그 자체를 비용으로 만들었다는 인식이 출발점이 되어야 한다. 기술과 제도, 윤리의 세 축을 다시 설계하지 않는다면, Brown University 사례와 유사한 상황은 다른 대학에서도 점검 대상이 될 가능성이 있다.

관련 주제: Brown University, AI 부정행위, ChatGPT, take-home 시험, Roberto Serrano, Princeton Honor Code, 수리경제학, 평가 무결성, 대학 시험 제도, AI 탐지, 학업 신뢰, ECON 1170, 고등교육

참고 자료: GeekNews 원문 보기, El 국가 English 원문 보기

댓글 남기기