brunch

You can make anything
by writing

C.S.Lewis

by 안철준 Oct 26. 2023

가장 투명한 인공지능

ChatGPT-4는 얼마나 많은 정보를 공개하고 있을까요?

2023년 4월 14일, OpenAI 는 ChatGPT-4를 정식 출시했습니다. 하지만 구체적인 데이터는 공개하지 않았습니다. 매개변수는 얼마나 되는지, 연산의 규모는 얼마인지, 학습에 사용된 데이터의 크기는 얼마인지와 같은 내용을 모두 비공개로 했습니다. OpenAI 라는 기업의 이름이 무색한 발표였습니다. 하지만, OpenAI 만 그런 것은 아닙니다. 전세계 Big Tech 기업에서 경쟁적으로 준비하고 있는 AI의 자세한 정보는 공개하지 않고 있습니다. 왜 그럴까요? 그리고 이런 폐쇄적인 정책이 AI의 방향에 어떤 영향을 주게 될까요?

OpenAI는 ChatGPT-4를 발표하면서 관련된 데이터를 공개하지 않았다

<뉴옥타임즈>에 'Stanford Is Ranking Major A.I. Models on Transparency' 란 기사가 소개되었습니다. AI 모델들의 투명성에 관련된 내용입니다.

<뉴욕타임즈>에 소개된 AI 모델들의 투명성에 대한 기사. 요즘은 <Tech>세션에 AI에 관련된 기사를 쉽게 접할 수 있다. <이미지 출처>

어떤 AI 모델의 투명성이 가장 높았을까?

스탠포드 대학교에서 가장 많이 알려진 AI 모델의 투명성과 관련되어 랭킹을 발표했습니다.

OpenAI, Google, Meta 와 같은 회사의 AI Model에 대해서는 대부분 비공개를 하고 있습니다. 스탠포드 대학교의 관련 프로젝트를 이끄는 퍼시 리앙(Percy Liang) 은 이렇게 말합니다.

"3년 전만 해도 AI 모델에 대한 세부정보를 대부분 공개했습니다. 그런데, 이제는 어떤 모델을 사용하는지, 어떤 프로세스를 가지고, 어떤 데이터를 사용하는 지 등 관련된 정보는 거의 제공하지 않고 있습니다."

스탠포드 대학교는 기초 모델 투명성 지수(The Foundation Model Transparency Index) 라는 100가지 기준을 만들어 가장 많이 알려진 10개의 LLM 을 비교하여 그 순위를 공개한 겁니다.

가장 많이 알려진 AI 모델에 대한 투명성 랭킹. Meta의 LLaMA2 가 1위를 했다. ChatGPT-4는 3위이다. 그런데 랭킹보다 중요한 것은 절대적인 점수 자체이다 <이미지 출처>

10개의 모델 중 가장 높은 점수를 받은 LLM은 Meta의 LLaMA 2로 선정되었고, 점수는 54%였습니다. GPT-4는 48%로 세 번째로 랭킹되었구요. 하지만 중요한 것은 사실 1위를 한 LLaMA2도 100점 만점에 54점이라는 턱없이 낮은 점수를 받았다는 점입니다. 그만큼 AI 모델 기업 어디도 적절한 투명성을 제공하지 못하고 있다는 증명입니다.

AI 모델 정보를 공개하지 않는 이유

AI 기업들이 자신들의 AI 모델에 대한 정보를 공개하지 않는 주된 이유를 일반적으로 세 가지를 듭니다.

첫째는 소송입니다. 일부 AI 기업들은 자사의 AI 의 학습을 위해 웹상의 작가, 예술가, 미디어 회사의 저작물들을 무차별적으로 사용했다고 알려지고 있습니다. 이에 대한 소송 들이 진행되고 있는데 대부분 오프 소스 AI 프로젝트를 타겟으로 하고 있습니다. 그렇기 때문에 무분별한 소송에 자신들을 보호하기 위해선 부득이 비공개를 할 수 밖에 없다고 주장합니다.

둘째는 경쟁입니다. 군수경쟁과 같은 치열한 경쟁이 AI 산업에서 진행되고 있습니다. 작은 차이가 순식간에 경쟁력을 앗아가 버릴 수도 있는 상황에서 자신들의 정보를 오픈할 수 없다는 논리입니다. 보다 나은 데이터 세트, 파인 튜닝에 대한 미세한 노하우 및 최적화 등과 같은 노하우는 쉽게 경쟁업체에서 카피할 수 있는 내용들입니다.

셋째는 안전입니다. AI 모델에 대한 내용이 모두 오픈되면 훨씬 더 빠르고 거대한 혁신이 AI 분야에 일어날 텐데, 그런 폭발적인 확산을 제어하기 어려워진다는 주장입니다. AI 기술이 인류에 커다란 영향을 미칠 수 있기에 더욱 안전한 방식으로 처리되어야 한다고 주장하고 있죠.

개발 커뮤니티로 유명한 <Stack overflow>는 28%나 되는 인력을 감축했다고 발표했다. ChatGPT 때문에 사용자수가 급감했다고 알려졌다. ChatGPT는 <GitHub>나 <Stack overflow>의 데이터를 학습했다. 이런 상황 속에서 기존의 데이터를 가지고 있던 기업은 어떤 선택을 할 수 있을까? <이미지 출처>

하지만 스탠포드 대학교 연구원들은 AI 기업들의 주장을 반박하고 나섭니다. AI 기업들이 말하는 비공개에 대한 이유는 합리적인 근거가 부족하다고 말합니다.

1. 소송 : AI 기업의 경영진들이 소송을 걱정한다면 증거를 숨기기보다는 저작권이 있는 정보를 사용하여 모델을 학습함으로써 공정한 생태계를 만들어가야 하고

2. 경쟁 : 경쟁사에게 영업 비밀이 누설되는 것이 걱정된다면 다른 유형의 정보를 공개하거나 특허를 통해 아이디어를 보호할 수 있을 것입니다.

3. 안전 - 안전을 걱정한다고 했는데, 제어하기 어려울 만큼의 경쟁은 이미 일어나고 있는 현실이 아닌가요? 이것을 숨긴다고 해결될 수는 없다고 봅니다.

스탠포드 연구진들은 AI 모델이 점차 강력해질 수도록 더욱 더 많은 정보가 공개되어야 한다고 주장합니다. AI의 능력이 더 올라가고 더 많은 사람들이 사용하게 될 수도록, AI가 어떻게 작동하고, 그 한계는 무엇이고 또한 얼마나 위험할 수 있는 지 등의 정보를 알고 있어야지만 이에 대한 적절한 대처를 할 수 있다는 이야기입니다.

어둠 속에서 AI 혁명을 기대할 수는 없습니다. AI가 우리 삶을 변화시키기 위해서는 AI 내부의 블랙박스를 들여다보아야만 합니다.

당신의 의견은 어떻습니까? 엄청난 자본과 리소스가 투여되면서 AI 군비 경쟁이 현실로 나타나고 있습니다. 2차 세계대전 당시 핵폭탄 개발에 사활을 걸었던 국가간의 경쟁이 결국 어떤 결말을 맺었는지는 역사를 통해 잘알고 있지 않습니까? 어쩌면 AI는 핵폭탄보다도 훨씬 더 우리 삶에 돌이킬 수 없는 영향을 미치게 될 지 모릅니다. 삶의 아주 세부적인 곳까지 AI 가 영향을 미치게 될 때 우리는 어떻게 우리 자신을 지켜나갈 수 있을까요?

기초 모델 투명성 지수 사이트를 방문하면 다음과 같은 메시지를 만날 수 있습니다.

이러한 모델의 사회적 영향은 증가하는 반면 투명성은 감소하고 있습니다. 이러한 추세가 계속된다면 인공지능의 기반 모델은 소셜 미디어 플랫폼 및 기타 이전 기술만큼 불투명해지며 똑같은 실수를 반복할 수 있습니다

While the societal impact of these models is rising, transparency is on the decline. If this trend continues, foundation models could become just as opaque as social media platforms and other previous technologies, replicating their failure modes.