합법적으로 구매한 책은 공정이용, 해적판은 침해

앤트로픽이 저작권 소송에 이긴 이유

by 경영로스팅

AI가 소설을 읽고, 시를 이해하고, 인간처럼 글을 쓸 수 있는 시대가 되었다. 하지만 그 AI는 과연 ‘무엇을’ 읽고 배웠을까. 정당하게 구매한 책일까, 아니면 누군가의 허락 없이 복제된 텍스트일까.

2024년 8월, 세 명의 작가들이 미국 캘리포니아 북부지방법원에 Anthropic을 상대로 소송을 제기했다. 핵심 주장 중 하나는, Anthropic이 수십만 권의 저작권 보호 도서를 무단 복제하여 Claude AI를 훈련시켰다는 점이다. 원고들은 “수십억 달러 규모의 사업을 위해 허가 없이 도서를 훔쳐 썼다”고 주장했다.

2025년 6월, 법원은 이 사건에서 두 가지 쟁점을 분리해 판단했다. (1) AI가 학습에 사용하는 콘텐츠가 공정이용(fair use)에 해당하는지 여부, (2) 해적판 도서를 사용하는 행위가 저작권 침해에 해당하는지 여부다.
- 판사는 합법적으로 구매한 책으로 AI를 훈련하는 것은 공정이용에 해당한다고 봤지만,
- Books3·LibGen·PiLiMi 등애서 불법 복제물을 활용한 사례는 저작권 침해로 판단했다.

(1) 법원은 “AI 훈련은 작가 지망생이 책을 읽고 배우는 것과 같다”고 판단했다. LLM이 기존 책을 복제하거나 대체하려는 것이 아니라, 전혀 다른 표현을 창조하는 목적이라는 점에서 학습 자체는 ‘변형적 사용’에 해당한다는 논리였다. “AI 훈련은 우리가 평생 볼 수 있는 기술 중 가장 변형적인 사례 중 하나”라는 앨섭 판사의 언급은 이 입장을 강하게 뒷받침했다.

(2) 그러나 출처가 문제였다. 판결문에 따르면 Anthropic은 2021년부터 2022년까지 해적판 전자책 700만 권 이상을 인터넷에서 다운로드한 것으로 확인되었다. Books3에서 196,640권, Library Genesis에서 최소 500만 권, Pirate Library Mirror에서 200만 권에 달하는 수치를 기록했다. 이에 대해 판사는 “나중에 구매했다고 해서 도난의 책임이 면제되지는 않는다”며 저작권 침해를 별도로 인정했다.

특히 이 문제는 Claude가 활용한 학습 데이터 저장 방식과도 관련이 깊다. Anthropic은 이들 해적판 도서를 회사 내부의 ‘중앙 도서관’ 시스템에 보존해 훈련에 반복적으로 활용한 것으로 드러났다. 데이터 저장과 반복 접근은 일회적 열람이 아니라 구조적 침해로 간주되었다. 이에 따라 해당 사안은 2025년 12월 별도 재판에서 손해배상 여부를 다투게 된다.

이번 판결은 AI 기업들이 데이터 확보 방식에 있어 새로운 전환점이 되었다. ‘합법적으로 구매한 책은 공정이용, 해적판은 침해’라는 명확한 기준은 기술 기업의 책임 범위를 정밀하게 규정한다. 실제로 Anthropic은 2024년, Google의 도서 스캔 프로젝트 책임자를 영입하고 수백만 달러를 들여 인쇄본 도서를 구매해 직접 스캔하는 체제로 전환했다.

한편, AI의 학습 방식을 인간의 학습과 동등하게 본 이번 판결은 철학적 무게를 지닌다. 단순한 데이터 입력이 아닌, 의미 있는 창작의 전 단계로서 ‘학습’의 정당성을 인정한 것이다. 이는 향후 AI 생성물이 단순 복제물이 아닌 창작물로서 보호받을 수 있는 법적 근거로 작용할 수 있다.

OpenAI, Meta, Google 등 다른 AI 기업들도 이 판결을 단순한 참고 사례로 넘기기 어렵다. 유사한 소송이 줄줄이 이어지고 있는 가운데, 이번 판결은 공정이용 인정이라는 첫 선례가 되었다.

중고 서적이나 이북을 정당하게 구매한 뒤, 그 내용을 AI가 학습에 사용하는 것은 위법이 아니다. 적어도 미국에서는 말이다.

keyword
이전 18화삭제한 대화까지 보존하라? 오픈 AI의 딜레마