AI가 결정하는 "진실"의 경계
1월 27일 월요일 아침, 주식 시장이 열리자마자 나스닥은 3.1% 하락했고, Nvidia의 시장가치는 600억 달러가 증발했다. 사람들의 입에 오르내린 화두는, 중국 스타트업인 High-Flyer의 고성능, 저비용, 오픈소스 기반인 모델 DeepSeek가 이미 앱스토어 1위를 차지했다는 것이다. 미국에서 나온 여러 생성형 AI 기술(OpenAI와 Antropic의 모델들)과 비교하면, DeekSeek는 10분의 1도 안되는 비용으로 더 나은 성능을 자랑한다는 사실이 대부분의 사람들에게 충격으로 다가왔다.
나는 기술자가 아니라 성능, 비용, 훈련에 걸린 시간 등의 뉴스보다 다른 점에 더 관심이 갔다. 바로 DeepSeek가 천안문 광장 민주화 시위에 대한 대답을 하지 않았다는 것이다. 팩트 체크를 해본 결과, 영어로 질문하면 쉽게 답을 하지 않으며, 한국어로 하면 어느정도 대답을 한다.
기술자가 아닌 일반인의 지식으로 쉽게 설명하면 DeepSeek는 Meta의 Llama 3.3 오픈소스 모델을 기반으로 훈련 되었으나, 그 어느 모델과 같이 훈련에 사용되는 데이터와 여러 규칙은 그들이 스스로 결정할 수 있다. 대부분의 거대언어모델(Large Language Model)이 사용하는 fine-tuning학습이 아닌 강화학습(Reinforcement Learning)을 채택하는 등, 오픈소스 기반의 모델을 사용하였다 하더라도 이리저리 그들의 입맛에 맞춰 원하는 아웃풋을 낼 수 있도록 설계할 수 있다.
결국, AI 모델을 훈련시키는 그.들.이. 바로 이 사회에서 '진실'이 무엇인지를 결정한다는 얘기다.
강화학습은 쉽게 말해, 훈련되는 에이전트가 환경과 상호작용하며 어떠한 행동을 선택한 뒤, 그 행동에 대한 보상 또는 벌점을 받아 최적을 행동을 배우는 방식이다. 이와 같이, 어떤게 맞다 혹은 틀리다는 그 모델을 훈련하는 엔지니어가 결정할 수 있다는 것이다. (실제론 엔지니어 개인이라기 보단 그 모델을 훈련하는 기업의 목표와 기업의 사상, 윤리 기준도 반영 될 것이다.)
강화 학습이 무엇인지 쉽게 이해하기 위해 넷플릭스 추천 알고리즘을 떠올려보자. 여기에서 에이전트는 넷플릭스의 추천 시스템이다.
1. 환경: 넷플릭스는 사용자들이 어떤 프로그램을 얼마나 봤는지, 어떤 장르를 좋아하는지의 정보를 파악한다.
2. 행동: 넷플릭스는 사용자가 좋아할만한 영화나 프로그램을 추천하는 행동을 한다.
3. 보상: 넷플릭스는 사용자가 추천된 콘텐츠를 보고 얼마나 만족했는지에 따라 보상을 받는다. 예를들어, 좋아요를 누르면 +15점, 영화를 끝까지 다 보면 +10점, 영화를 보다가 멈추고 다른 콘텐츠를 찾으면 -5점. (기업이 어떤것이 "좋다" 혹은 "나쁘다"라는 비객관적인 결정을 내려야 한다)
4. 목표: 이 시스템의 목표는 사용자가 더 오래 콘텐츠를 시청하고, 만족스럽게 이용하는 것이다. (기업의 비즈니스 모델, 목표, 사상 등이 포함되어 있을 수 밖에 없는 부분)
넷플릭스 추천 시스템은 이런 과정을 통해 점차 사용자에게 맞는 콘텐츠를 추천하는 방향으로 발전한다. 그런데 중요한 건, 어떤 행동에 보상을 주고 어떤 행동에 벌을 줄지 결정하는 것은 바로 "사람"이라는 것이다. 그리고 그 "사람"은 기업의 사상과 비즈니스 모델, 목표와 윤리 가치 등의 모든 것들을 반영한다.
DeepSeek가 천안문 광장 민주화 시위에 대해 답하지 않은 이유는, 모델을 훈련할 때 민주주의, 시진핑, 민주화운동과 같은 키워드에 대한 답을 억제했을 가능성이 크다. 모델을 훈련할 때, 아예 그 정보에 대해 답하지 않도록 의도적으로 설계했을 수도 있다. 아예 그 정보에 대해 답을 하지 않도록 의도적으로 훈련되었을 수도 있다. 테스트 결과에서처럼, 영어로 질문을 던지면 답을 하지 않고, 한국어 같은 상대적으로 비주류 언어로 질문을 하면 필터링이 느슨해지는 방식도 충분히 있을 수 있다.
하지만, 내가 더욱 심각하게 생각하는 문제는 DeepSeek가 어떻게 훈련되었는지, 어떤 데이터셋을 사용했는지, 그리고 이 모델을 개발한 스타트업 High-Flyer가 어떤 목표와 윤리 가치가 무엇인지에 대한 정보가 투명하게 공개되지 않았다는 점이다.
우리는 AI가 제공하는 답변을 얼마나 믿어야 할까? AI가 몇 초 만에 내놓은 답변에 대해 너무 쉽게 신뢰를 보내는 것은 아닌지 다시 한 번 생각해볼 필요가 있다. 내가 말하고자 하는 '온라인 신뢰와 안전'의 핵심은 바로 이 점이다. 디지털 리터러시가 부족한 사람들은 AI가 만들어낸 가짜 정보나 왜곡된 사실을 진짜처럼 믿고, 그에 따라 행동할 위험이 존재한다. 물론, 사람들이 쉽게 사용할 수 있는 플랫폼을 내 놓은 OpenAI나 High-Flyer과 같은 대형 플랫폼이 책임을 다하는 것은 매우 중요하다. 그러나 시민사회와 개인이 스스로 알고 스스로를 보호하는 노력이 더욱 더 중요하다.
결론적으로, 진짜처럼 보이는 가짜 정보, 의도적으로 왜곡된 사실, 그리고 이를 감추고 있는 답변에 대해 우리는 얼마나 취약한지 깨닫고, 이에 대한 경각심을 가져야 한다.
이건 단지 DeepSeek만의 문제가 아니다.