brunch

You can make anything
by writing

C.S.Lewis

by Ryan Son Oct 23. 2023

선도적 AI 모델의 역설, 투명성

Humanizing Tech Investments

지난 18일 스탠퍼드 대학교 연구진이 발표한 연구는 GPT-4 및 기타 최첨단 AI 시스템에 대한 비밀이 얼마나 깊고 잠재적으로 위험한지 보여준다.

Introducing The Foundation Model Transparency Index, Stanford University

그들은 총 10개의 서로 다른 AI 시스템을 조사했는데, 대부분 ChatGPT 및 기타 챗봇에 사용되는 것과 같은 대규모 언어 모델이었다. 여기에는 OpenAI의 GPT-4, Google의 PaLM 2, Amazon의 Titan Text와 같이 널리 사용되는 상용 모델이 포함되어 있으며, 개발자가 모델 학습에 사용된 데이터에 대해 얼마나 투명하게 공개했는지를(데이터 수집 및 주석 처리 방법, 저작권이 있는 자료 포함 여부 등) 포함하여 13가지 기준에 따라 개방성을 평가했다. 또한 모델을 훈련하고 실행하는 데 사용된 하드웨어, 사용된 소프트웨어 프레임워크, 프로젝트의 에너지 소비량에 대한 공개 여부도 조사했다.


그 결과는 언급한 모든 기준에 걸쳐 투명성 척도에서 54% 이상을 달성한 AI 모델이 없다는 점이었다. 전반적으로 Amazon의 Titan Text가 투명성이 가장 낮은 것으로 평가되었으며, Meta의 Llama 2가 가장 개방적인 것으로 선정되었다. 흥미로운 건 최근 주목받고 있는 개방형과 폐쇄형 모델 별 대립 구조의 대표 주자인 Llama 2가 오픈 소스 모델임에도 학습에 사용된 데이터, 데이터 수집 및 큐레이션 방법 등을 공개하지 않았다는 점이다. 즉, AI가 우리 사회에 미치는 영향력이 커지고 있음에도 불구하고 업계의 관련 불투명성은 전반적이고 지속적으로 확인되는 현상이라는 점이다.


이는 곧 AI 업계가 과학적 발전이 아닌 수익 중심 분야가 될 위험이 있으며 특정 기업이 주도하는 독점적 미래로 연결될 가능성도 있음을 의미한다.


Eric Lee/Bloomberg via Getty Images

이미 OpenAI의 CEO 샘 알트먼은 전 세계 정책 입안자들과 만나 그들에게 이 낯설고 새로운 지능에 대해 적극적으로 설명하며 관련 규제 구체화를 돕겠다는 의사를 공공연히 밝혀왔다. 하지만 그는 원칙적으로 AI를 감독하는 국제기구의 아이디어를 지지하지만, 데이터 세트에서 저작권이 있는 모든 자료를 금지하는 등의 일부 제한된 규칙이 불공정한 장애물이 될 수 있다고 생각하기도 한다. OpenAI라는 회사 이름에 담긴 '개방성'이 출범 당시 제시했던 급진적인 투명성에서 변질된 것이 분명해 보이는 이유다.


하지만 이번 스탠퍼드 보고서의 결과에서 드러나듯 경쟁을 위해 각자의 모델을 그렇게 비밀에 부칠 필요는 없다는 점에도 주목할 필요가 있다. 해당 결과는 곧 거의 모든 기업이 부진함을 드러내는 지표이기도 하기 때문이다. 예를 들어, 얼마나 많은 사용자가 자사 모델에 의존하고 있는지, 자사 모델을 사용하는 지역 또는 시장 부분에 대한 통계를 제공하는 회사는 없다고 한다.


오픈 소스를 원칙으로 하는 조직들 사이에서는 ‘눈이 많으면 모든 벌레는 드러나기 마련이다'는 속담이 있다.(Linus's law) 원시적인 숫자는 문제를 해결하고 고칠 수 있는 문제를 발견하는 데 도움이 된다. 


하지만 오픈 소스 관행은 점차적으로 공개 기업 내, 외부의 사회적 지위와 가치 인정을 잃게 만드는 경향도 있기에 무조건적인 강조는 크게 의미가 없다. 때문에 모델이 공개형이냐 폐쇄형이냐에 대한 프레임에 머물기보다는 강력한 AI 모델의 기반이 되는 ‘데이터’에 대한 외부 접근성을 조금씩 넓히는 것에 논의의 초점을 맞추는 것이 나은 선택이 될 수 있다. 


과학 발전에는 특정 연구 결과가 다시 나타나는지를 확인하는 재현성(Reproducibility) 확보가 중요하다. 이를 통해 각 모델 생성의 주요 구성 요소를 향한 투명성이 보장되는 방안을 구체화하지 않으면 결국 업계는 폐쇄적이고 정체된 독점적 상황에 머물게 될 가능성이 높다. 그리고 이는 빠르게 산업 전반에 AI 기술이 스며들고 있는 현재와 앞으로의 상황에 있어 꽤나 중요한 우선순위로 고려되어야 함을 기억해야 한다. 


언론인이나 과학자들에게 데이터를 이해하는 것이 중요해졌고 정책 입안자에게 투명성은 예정된 정책적 노력의 전제 조건이다. 대중에게도 투명성은 AI 시스템의 최종 사용자로서 지적 재산권, 에너지 사용량, 편견과 관련된 잠재적 문제의 가해자 또는 피해자가 될 수 있기에 중요하다. 샘 알트먼은 AI로 인한 인류 멸종 위험이 전염병이나 핵전쟁과 같은 사회적 규모의 위험 중의 하나로 전 세계적인 우선순위가 되어야 한다고 주장한다. 그러나 그가 언급한 위험한 상황에 도달하기까지는 발전해 가는 AI와 건강한 관계를 유지하는 우리 사회의 존속이 그 전제임을 잊어서는 안 된다.



*이 글은 23년 10월 23일 자 전자신문 기명칼럼에 게재된 내용의 원본입니다.


References


AI Is Becoming More Powerful—but Also More Secretive

Introducing The Foundation Model Transparency Index

생성형 AI, 폐쇄형 대 개방형 ‘맞불’

What OpenAI Really Wants

Revitalising Openness at Mozilla: A Mixed Method Research Approach

작가의 이전글 혁신가를 알아보는 렌즈, 시스템
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari