오픈AI, 미국 정부와 딥시크 조사 논의

Feb 12. 2025

메타ai뉴스 논설위원 이현우 교수

서론

최근 인공지능(AI) 업계에서 가장 뜨거운 이슈 중 하나는 오픈AI와 중국 AI 기업 딥시크(DeepSeek) 간의 기술 도용 논란이다. 오픈AI는 딥시크가 자사의 AI 기술을 부적절하게 사용했다고 주장하며, 미국 정부 관계자들과 협력하여 이 문제를 조사 중이다. 반면, 오픈AI의 입장을 비판하는 시각도 존재한다. 오픈AI가 그동안 저작권 문제를 피해 가지 않았음에도 불구하고, 경쟁 기업이 자사의 기술을 활용했다고 문제 삼는 것이 위선적이라는 의견이다. 이에 대해 오픈AI는 "웹 크롤링과 증류(distillation)는 차원이 다르다"며 차이를 강조하고 있다. 본 글에서는 이번 논란의 핵심 쟁점과 AI 모델 학습 방식의 차이, 그리고 법적·윤리적 측면에서의 논의를 다룬다.

1. 오픈AI와 딥시크의 기술 도용 논란

2025년 2월 10일(현지시간), 오픈AI의 최고 글로벌 업무 책임자 크리스 리한(Chris Lihan)은 블룸버그 TV와의 인터뷰에서 딥시크가 오픈AI의 API를 통해 데이터를 부적절하게 추출하고, 이를 바탕으로 AI 모델을 학습시켰다는 정황이 포착되었다고 밝혔다. 그는 오픈AI가 미국 정부 관계자들과 이 문제를 논의하고 있으며, 추가 조사가 진행 중이라고 전했다.

딥시크는 최근 AI 업계에서 급부상한 기업으로, 저비용 고성능 AI 모델을 선보이며 많은 주목을 받고 있다. 그러나 마이크로소프트(Microsoft)의 보안 연구원들은 딥시크가 오픈AI의 API를 통해 데이터를 추출해 학습하고 있다는 점을 발견했고, 이를 오픈AI에 보고했다. 이후 오픈AI는 딥시크가 ‘증류(distillation)’ 기법을 이용해 자사의 모델을 활용하고 있다는 의심을 품고 조사에 나섰다.

‘증류’란, 기존 AI 모델의 출력물을 활용하여 새로운 모델을 학습시키는 기법으로, 일반적으로 모델의 성능을 향상시키거나 경량화하는 데 사용된다. 문제는 이 방식이 다른 기업의 모델에서 얻은 데이터로 새로운 모델을 만들 수 있다는 점에서 지적을 받고 있다는 것이다.

---

2. 웹 크롤링과 증류: 무엇이 다른가?

이번 논란에서 오픈AI는 웹 크롤링과 증류의 차이를 강조하며 자신들의 데이터 활용 방식과 딥시크의 접근법을 구별하고 있다.

오픈AI의 크리스 리한은 "웹 크롤링을 통한 데이터 수집은 도서관에서 책을 대출하는 것과 비슷하다"고 주장했다. 이는 공공 데이터나 온라인에 게시된 정보를 활용하여 AI 모델을 훈련하는 일반적인 방식이다. 반면, 그는 딥시크의 접근법을 "도서관에서 책을 가져온 후 표지와 저자를 바꿔서 판매하는 것"에 비유하며, 이는 복제 행위에 가깝다고 주장했다.

오픈AI는 자체적으로 공개된 데이터를 크롤링하여 AI 모델을 훈련해왔다. 그러나 딥시크는 오픈AI의 API를 통해 직접적으로 데이터를 추출한 후, 이를 바탕으로 새로운 모델을 학습시켰다고 의심받고 있다. 이러한 점에서 오픈AI는 "증류는 원본 모델의 정보를 부적절하게 사용한 것이며, 단순한 데이터 크롤링과는 본질적으로 다르다"는 입장을 고수하고 있다.

3. 법적 논쟁과 윤리적 문제

딥시크의 행위가 오픈AI의 지적재산권을 침해했는지 여부는 아직 법적으로 명확하지 않다. 전문가들은 만약 이 사건이 법정으로 간다면 오픈AI가 반드시 승리하기 어려울 수도 있다고 전망한다.

오픈AI는 과거 저작권이 있는 콘텐츠를 무단으로 크롤링하여 AI 모델을 학습시켰다는 논란에 휩싸인 바 있다. 예를 들어, 언론사 기사, 책, 논문 등 다양한 저작물이 AI 학습 데이터로 활용되었을 가능성이 제기되었고, 이에 대해 일부 콘텐츠 제작자들은 법적 문제를 제기했다. 오픈AI는 이에 대해 '공정 사용(Fair Use)'을 주장하며, AI 모델 학습을 위한 데이터 활용은 법적으로 정당하다는 입장을 내놓았다.

그러나 이번 사건에서 오픈AI는 딥시크가 자사의 AI 출력물을 활용했다고 비판하고 있다. 문제는 오픈AI가 과거 '공정 사용'을 내세웠던 논리를 이번에는 반대로 적용해야 한다는 점이다. 즉, 오픈AI의 주장이 일관되지 않다는 비판이 나오고 있으며, 이러한 모순이 법정에서 불리하게 작용할 가능성이 있다.

이와 함께 윤리적 문제도 중요한 논점이다. AI 업계에서는 데이터 사용에 대한 명확한 규범이 아직 확립되지 않은 상태이며, 기업마다 데이터 활용 방식이 다르다. 기술 발전 속도가 규제보다 빠른 만큼, 기업들이 자사의 기술을 보호하면서도 공정한 경쟁을 유지하는 방식에 대한 논의가 필요하다.

4. AI 기술 보호와 글로벌 AI 경쟁

이번 사건은 단순한 기술 도용 논란을 넘어, 글로벌 AI 경쟁에서의 기술 보호 문제로 확산될 가능성이 크다. 오픈AI와 마이크로소프트가 협력하여 중국 기업을 견제하려는 의도가 있는지에 대한 의문도 제기된다.

AI 기술이 국가 간 경쟁의 주요 요소가 되고 있는 만큼, 미국과 중국 간 AI 패권 경쟁은 더욱 치열해질 전망이다. 미국 정부가 오픈AI의 조사에 적극적으로 개입하는 것도 이러한 맥락에서 이해할 수 있다. 특히, AI 모델의 지적재산권 보호와 관련된 법적·정책적 논의가 앞으로 더욱 강화될 것으로 보인다.

결론

오픈AI와 딥시크 간의 논란은 단순한 기술 도용 이슈를 넘어 AI 데이터 사용의 윤리성과 법적 문제를 재조명하는 계기가 되고 있다. 오픈AI는 웹 크롤링과 증류의 차이를 강조하며 딥시크의 행위를 지적하고 있지만, 법적·윤리적 측면에서 자신들의 입장이 흔들릴 가능성도 크다.

이번 사건은 AI 업계의 데이터 활용 방식에 대한 명확한 기준이 필요하다는 점을 다시금 상기시키고 있다. AI 기술이 빠르게 발전하는 만큼, 지적재산권 보호와 공정 경쟁의 균형을 어떻게 맞출 것인지에 대한 논의가 더욱 활발해질 것이다. 앞으로 이 논란이 법정으로 이어질 경우, AI 산업 전체에 미칠 파급력도 상당할 것으로 예상된다.

keyword

매거진의 이전글머스크, 140조에 오픈AI 인수 제안 GPT-5와 O3의 통합: AI의 새로운 변화 매거진의 다음글