대서양지가 공개한 AI 학습 음악 데이터베이스, 음악 저작권 거버넌스의 전환점

Atlantic 기자 Alex Reisner가 AI 학습용 음악 데이터셋 4종을 발굴해 누구나 검색 가능한 형태의 데이터베이스로 공개했다.
가장 큰 데이터셋 두 개의 규모가 각각 약 1,200만 곡, 900만 곡에 달하며 나머지 두 개도 의미 있는 규모의 학습 데이터를 포함하고 있다.
언론이 학습 데이터 출처를 대중이 감사할 수 있도록 공개한 초기 사례 중 하나로, AI 정책과 저작권 거버넌스의 전환점이 될 것으로 분석된다.

AI 시대의 저작권 분쟁은 학습 데이터의 “무엇을”이라는 차원에서 “누구의” 곡인지라는 차원으로 이동하고 있다.

2026년 6월 22일 The Verge가 보도한 바에 따르면, 미국 매체 The Atlantic이 AI 학습에 사용된 음악 데이터 4종을 정리한 검색형 데이터베이스를 공개했다 (The Verge). 이번 공개는 생성형 AI와 음악 산업의 충돌이 데이터셋 수준의 투명성 문제로 진입했음을 보여주는 신호탄으로 평가된다.

AI 학습용 음악 데이터, 무엇이 문제였는가

음악 저작권과 생성형 AI의 충돌 배경

2023년 이후 음원 권리자와 레이블은 Suno, Udio 등 음악 생성형 AI 서비스를 상대로 저작권 침해 소송을 잇따라 제기해 왔다. 핵심 쟁점은 AI가 학습한 음원의 권리자가 동의나 보상 없이 곡이 활용됐다는 점이다. 그러나 학습 데이터 내부에 어떤 곡이 포함됐는지 외부에서 확인하기 어려웠다는 점이 지속적으로 지적돼 왔다.

학습 데이터 출처 비공개 관행의 한계

대부분의 AI 개발사는 학습 데이터의 곡 목록과 권리 정보를 영업비밀이라며 공개하지 않았다. 이로 인해 권리자는 “내 곡이 학습됐는지조차 모르는” 비대칭 구조에 놓였다. 규제当局과 학계는 데이터 감사가 불가능한 상태에서 공정한 저작권 정책을 설계하는 데 한계를 느꼈으며, 이러한 배경이 Atlantic의 DB 공개를 의미 있는 전환점으로 만들었다 (The Atlantic).

Atlantic의 데이터베이스, 어떻게 구성됐나

Alex Reisner 기자의 4개 데이터셋 발굴 과정

보도에 따르면 Atlantic 소속 기자 Alex Reisner가 공개 문서, 학술 자료, AI 개발사 공개 정보 등을 교차 분석해 학습용 음악 데이터셋 4종을 식별한 것으로 전해진다. 각각의 데이터셋은 규모와 출처 측면에서 서로 다른 특성을 보이는 것으로 파악된다 (The Verge).

약 1,200만 곡·900만 곡 규모 데이터의 의미

The Verge가 정리한 수치에 따르면 가장 큰 두 데이터셋은 각각 약 1,200만 곡과 900만 곡을 포함한다. 나머지 두 데이터셋도 의미 있는 규모의 학습 데이터를 담고 있는 것으로 전해진다. 단순 곡 수만으로도 글로벌 음원 카탈로그의 상당 비중을 아우른다는 점에서 업계의 반응이 주목된다 (The Verge).

검색 인터페이스와 시민 감시 가능성

Atlantic은 데이터셋을 정적 PDF가 아닌 검색형 인터페이스로 제공해 권리자·연구자·일반 사용자가 자신의 곡이나 아티스트가 포함 여부를 직접 조회할 수 있게 했다.티스트가 학습 데이터에 포함됐는지 직접 조회할 수 있도록 했다. 이러한 시민 감시 가능성은 AI 학습 데이터의 투명성 논의에서 새로운 기준을 제시한 것으로 분석된다 (The Atlantic).

데이터 투명화가 바꾸는 AI 산업의 판도

음원 권리자와 레이블의 대응 시나리오

DB가 공개됨에 따라 권리자는 자신의 곡이 학습 데이터에 포함됐는지 확인하고, 라이선스 계약 부재가 확인될 경우 라이선스 청구나 삭제를 요구할 수 있게 됐다. 레이블 입장에서는 곡별로 학습 사용 여부를 감사해 일괄 합의 또는 개별 대응 전략을 세우는 데 활용할 가능성이 크다. 다만 Atlantic DB에 포함된 데이터셋이 학습용 사본의 일부에 불과할 수 있어, 모든 학습 행위를 포괄하지 못한다는 한계도 존재한다 (The Verge).

규제 기관과 AI 개발사 간 정책 변수

유럽연합 AI Act와 미국 저작권청의 가이던스는 학습 데이터 공개 수준을 핵심 변수로 다룬다. Atlantic의 DB는 규제 기관이 “실제 어떤 곡이 학습되는가”를 논의할 때 참고 가능한 1차 자료로 기능할 것으로 보인다. AI 개발사 입장에서는 데이터셋 목록을 비공개로 유지해온 경쟁 우위가 약화될 가능성이 있어, 향후 라이선스 시장 형성과 opt-out 구조 도입이 가속화될 것으로 전망된다 (The Atlantic).

한국 음악 산업에 대한 함의

한국 저작권위원회와 한국음악저작권협회도 학습 데이터 투명성 논의를 본격화할 필요가 커졌다. K-Pop과 국내 인디·대중음악 곡이 해외 AI 학습 데이터셋에 포함됐을 가능성에 대비해, 권리 정보 데이터베이스와 AI 학습용 라이선스 시장 구축이 중요한 과제로 부상하고 있다. 정부는 “데이터 감사 가능성”을 AI 정책 평가 항목에 포함하는 방향을 검토할 필요가 있을 것으로 분석된다 (The Verge).

데이터 투명성의 시대 개막: Atlantic의 DB는 학습 데이터가 더 이상 블랙박스가 아님을 입증했다.
권리자 중심 감사의 일상화: 권리자가 자신의 곡이 학습됐는지 직접 조회하는 시대가 시작됐다.
규제와 산업의 동시 재편: 데이터셋 목록 공개는 라이선스 시장과 AI 정책 모두를 재편하는 촉매가 될 것이다.
한국 산업의 과제: 국내 음원 권리 정보와 AI 학습용 라이선스 체계 정비에 속도를 높여야 할 시점이다.

참고 자료: The Verge, The Atlantic