깃허브(GitHub) Copilot, 저작권 침해 소송

생성형 AI와 저작권, 어디까지 허용되는가

by 정연주 변리사

생성형 AI는 이제 개발, 디자인, 콘텐츠 제작 전반에 깊숙이 들어와 있습니다. 그중에서도 개발자들에게 가장 큰 영향을 준 도구 중 하나가 바로 ‘GitHub Copilot’입니다.


GitHub Copilot은 개발자가 작성 중인 코드의 맥락을 이해해, 다음 줄의 코드를 자동으로 완성하거나 함수 전체를 제안해 주는 AI 기반 코딩 보조 도구입니다. 이 도구는 수많은 개발자들의 작업 방식을 바꾸었고, 실제로 개발 생산성을 크게 높였다는 평가도 받고 있습니다.


그러나 이 편리한 도구를 둘러싸고, 다음과 같은 근본적인 법적 질문이 제기되었습니다.

AI는 공개된 데이터를 어디까지 학습할 수 있는가?

그 과정에서 저작권 침해는 발생하지 않는가?


이 논쟁의 중심에 있었던 사건이 바로 깃허브 코파일럿 저작권 소송입니다.



오픈소스와 GitHub, 그리고 Copilot의 등장


컴퓨터 소프트웨어는 사람이 읽을 수 있는 소스 코드(Source Code)를 기반으로 작동합니다. 개발자는 자신의 의지에 따라 이 소스 코드를 외부에 공개하기도 하는데, 이를 오픈소스(Open Source Software, OSS)라고 부릅니다.


오픈소스는 “자유롭게 사용할 수 있다”는 인식이 강하지만, 법적으로는 저작권이 존재하는 소프트웨어입니다. 다만, 저작권자가 정한 오픈소스 라이선스에 따라 복제, 수정, 재배포의 범위가 허용될 뿐입니다. 즉, 라이선스 조건을 벗어나는 이용은 저작권 침해가 될 수 있습니다.


이러한 오픈소스 코드가 전 세계적으로 공유·협업되는 대표적인 플랫폼이 바로 ‘GitHub’입니다. GitHub는 2008년 설립 이후, 전 세계 개발자들이 코드를 저장하고 버전을 관리하며 협업하는 사실상 표준 플랫폼으로 자리 잡았습니다.


2018년, Microsoft는 GitHub를 인수했고, 이후 2021년 OpenAI와 협력해 GitHub Copilot을 공개했습니다. Copilot은 GitHub에 공개된 방대한 오픈소스 코드를 학습 데이터로 활용해, 개발자의 코드 작성을 돕는 AI 서비스입니다.


초기에는 무료였으나, 이후 유료 서비스로 전환되면서 “오픈소스를 학습한 AI를 상업적으로 이용해도 되는가”라는 문제가 본격적으로 제기되기 시작했습니다.



깃허브 코파일럿 소송, 무엇이 쟁점이었나


2022년, 일부 오픈소스 개발자들은 GitHub, Microsoft, OpenAI를 상대로 미국에서 집단소송을 제기했습니다. 이들이 제기한 핵심 주장은 다음과 같습니다.


GitHub Copilot이,

GitHub에 공개된 오픈소스 코드를 학습 데이터로 사용했고,

그 결과 원저작자의 코드와 동일하거나 실질적으로 유사한 코드를

출처 표시 없이 사용자에게 제공함으로써,

저작권 및 오픈소스 라이선스를 위반했다는 것입니다.


특히 원고 측은 미국 Digital Millennium Copyright Act(DMCA) 제1202조를 근거로 들었습니다. 해당 조항은 저작물에 포함된 저작권 관리 정보(Copyright Management Information), 즉 작성자, 라이선스 정보 등을 무단으로 제거하거나 변경하는 행위를 금지하고 있습니다.


원고들은 Copilot이 코드의 출처와 라이선스 정보를 제거한 채 결과물을 제공함으로써 DMCA를 위반했다고 주장했습니다.



법원의 판단: “추상적 주장만으로는 부족하다”


2024년 7월, 미국 캘리포니아 연방법원은 이 소송에서 대부분의 청구를 기각했습니다.

판결의 핵심은 비교적 명확합니다.


“원고들은 Copilot이 자신의 코드와 동일한 결과물을 실제로 재현했다는 점을 구체적으로 입증하지 못했다.”


즉, “AI가 내 코드를 학습했을 가능성”이나 “이론적으로 복제가 가능하다”는 주장만으로는 저작권 침해를 인정하기 어렵다는 것입니다.


법원은 Copilot이 제시한 코드가 원본과 완전히 동일하지 않고, 일부 구조나 표현이 달라진 변형 결과물에 해당한다면, DMCA에서 말하는 침해 요건을 충족하지 않는다고 보았습니다.


이로 인해 DMCA 기반 저작권 침해 주장, 부당이득 청구, 징벌적 손해배상 청구 등은 대부분 받아들여지지 않았습니다.



그렇다면 깃허브는 완전히 자유로운가?


그렇지는 않습니다.

법원은 모든 쟁점을 일괄적으로 종결하지는 않았습니다.

현재까지 두 가지 쟁점은 여전히 남아 있습니다.

오픈소스 라이선스 위반 여부

GitHub와 개발자 간 계약(약관) 위반 여부


즉, AI 학습 자체가 곧바로 저작권 침해로 인정되지는 않았지만, 오픈소스 라이선스를 어떻게 해석하고 준수해야 하는지는 여전히 법적 판단의 대상으로 남아 있습니다.


이 부분은 향후 판결에 따라 오픈소스 라이선스 구조, AI 학습 데이터 수집 방식, 출처 표시 및 필터링 기술 전반에 영향을 미칠 가능성이 있습니다.



공정 이용(Fair Use), AI 시대에 더 어려워진 이유


이 사건이 특히 주목받는 이유 중 하나는 공정 이용(Fair Use) 문제 때문입니다.


미국 저작권법은 교육, 연구, 분석, 비평 등 일정한 목적에 대해서는 저작권자의 허락 없이도 저작물 사용을 허용하고 있습니다.


그러나 생성형 AI의 경우, 학습 단계에서의 이용과 결과물의 상업적 활용이 명확히 분리되기 어렵고, 수억 개의 데이터를 학습한 결과 중 특정 저작물이 얼마나 기여했는지를 따지기 어렵다는 점에서 기존의 공정 이용 기준을 그대로 적용하기가 매우 까다롭습니다.


이번 판결은 “AI 학습 = 자동 침해”라는 단순한 도식은 성립하지 않지만, 그렇다고 완전한 면책도 아니다라는 현실적인 중간 지점을 보여줍니다.



시사점


이번 깃허브 코파일럿 판결은 AI가 학습 과정에서 공개된 데이터를 사용했다는 사실만으로는 저작권 침해가 쉽게 인정되기 어렵다는 점을 분명히 보여주었습니다.


반면, AI가 어떤 방식으로 학습하고, 어떤 기준으로 결과를 생성·제어하는지와 같은 기술적 작동 구조는 여전히 특허법적으로 보호할 수 있는 영역에 속합니다.


예를 들어 학습 방식, 출력 제어 로직, 중복 방지 기술, 유사도 판단 방법 등은 특허를 통해 권리로 정리할 수 있는 대상입니다.


AI가 만들어낸 결과물의 저작권 귀속이 아직 명확하지 않은 상황에서, 기업이나 기술 보유자가 자신의 기술을 안정적으로 보호하기 위해 기대할 수 있는 현실적인 수단은 결과물 자체가 아니라 그 결과물을 만들어내는 시스템과 방법을 미리 특허로 확보해 두는 것입니다.


결국 AI 서비스는 출시 이후 분쟁을 통해 권리를 주장하기보다, 출시 이전 단계에서 특허를 통해 기술 구조를 정리해 두는 것이 가장 실효성 있는 권리 보호 전략이라 할 수 있습니다.


이 글은 제 홈페이지에서도 확인하실 수 있습니다.

➡️홈페이지 바로가기



작가의 이전글‘두바이 쫀득 쿠키’, '두쫀쿠' 상표 등록될까?