brunch
매거진 번역한 것

왜 AI는 신뢰성이 높아지지 않고 떨어지는가

타임지 기사 번역

by 제이드

* 일부 생략이 있음

* 원문은 여기






sandip-kalal-tcf9V6PDNoA-unsplash.jpg


그록과 집단 사고: 왜 AI는 신뢰성이 높아지지 않고 떨어지는가


지난주 우리가 진행한 실험에서 일론 머스크의 그록을 포함해 시장을 선도하는 다섯 개의 AI 모델은 도널드 트럼프의 거짓 주장 중 20개가 틀렸음을 올바르게 짚어냈다. 며칠 뒤 머스크는 명백한 우파적 업데이트로 그록을 다시 훈련하였고 사용자들이 ‘차이점을 느낄 수 있을 것’이라고 자신했다. 정말 그랬다. 거의 즉시 그록은 히틀러를 칭송하며 반유대주의적 비유를 토해냈고 같은 미국인을 향한 정치적 폭력을 찬양했다.


그록의 실패는 경종과 같다. 이미 AI 모델은 잦은 환각 현상과 훈련에 쓰인 데이터에서 만들어진 편향된 관점으로 눈총을 받고 있다. AI 시스템이 종종 정확한 답변보다는 가장 대중적이지만 사실 틀린 답변을 고른다는 걸 발견하기도 했다. 이는 오류투성이 정보와 그릇된 정보의 산에 증명 가능한 사실이 가려질 수 있다는 뜻이다.


머스크의 술책은 또 잠재적으로는 더 문제가 될 또 다른 차원을 드러낸다. 이제는 AI 모델을 조작하는 게 얼마나 쉬운지 볼 수 있게 된 것이다. 머스크는 숨어서 AI를 멋대로 만질 수 있고 편견을 더 심을 수 있다. 더욱이 머스크도 경험한 것처럼 AI 모델이 수정되면 그것이 어떻게 반응할지 아무도 정확히 모른다. 연구자들도 AI의 ‘블랙 박스’가 어떻게 작동하는지 정확하게 말하지 못하며, AI를 수정하면 예상하지 못한 결과가 나올 수도 있다.


집단 사고에 민감하며 기본적인 사실을 인식하지 못하는 측면과 더불어 조작에 취약한 챗봇의 특징을 고려한다면 우리는 산업, 교육, 미디어 분야에서 AI에 더욱 의존하고 있는 현재 상황에 위기감을 느껴야 한다.


AI는 지난 몇 년 간 어마어마하게 성장했다. 하지만 우리가 선두적인 AI 챗봇 플랫폼들로 비교 분석을 해보니, AI 챗봇은 여전히 정교하되 잘못된 정보 기계sophisticated misinformation machines가 될 수 있으며 같은 질문에 서로 정반대의 대답을 주기도 하고, 극히 일반적인 집단 사고를 흉내 내거나 진실을 포착하기보다는 지나치게 단순한데다 틀린 생각을 따라하는 경우도 있었다. 최근 예일 CEO 회담에서는 참석한 CEO 40%가 AI에 대한 과도한 열기가 지나친 투자금으로 이어지고 있다는 점을 경계한다고 밝혔다. 몇몇 거대 테크 기업들은 AI가 코딩, 비용 절감에 도움이 되고 편리한 반면 (그것이 생성하는) 내용은 걱정스럽다고 경고했다.


AI의 집단 사고 접근법은 이미 역정보 활동을 키우고 있다. 가령 언론의 신뢰성을 추적하는 NewsGuard에 따르면 러시아는 ‘AI 모델을 감염하기 위해 크렘린 궁을 옹호하는 잘못된 주장을 반복하는 기사 수백만 개’로 인터넷을 점령했다. 이 전략은 소름 끼치게 효과적이다. NewsGuard가 주요 챗봇 10개를 테스트해보니 러시아가 뿌린 잘못된 정보를 감지하지 못한 경우가 24%였다. AI 모델 70%는 우크라이나 통역사가 군복무를 피해 달아났다는 가짜 뉴스에 빠졌고, 모델 중 4개는 가짜 정보의 원 출처인 Pravda를 인용했다.


러시아만 이러는 건 아니다. NewsGuard는 AI가 생성한 뉴스를 내보내는 신뢰성 없는 사이트 1,200개 이상을 찾아냈는데 이들의 뉴스는 16개 언어로 게시되었다. 한편 AI가 생성한 이미지와 영상은 훨씬 찾아내기 어려워지고 있다.


AI 모델이 그 자신이 생성해내는 환각과 오류를 포함한 잘못된 정보를 바탕으로 훈련 받을수록 그것들은 더더욱 부정확해진다. 근본적으로 ‘집단의 지혜’는 스스로를 먹고 자라나며 전이되는 가짜 정보와 함께 지혜롭지 않게 변한다. 그런 상황은 이미 발생하고 있다. 가장 정교하고 새로운 추리 모델도 환각을 일으키는 경우가 잦아지고 있는데 연구자들도 그 이유를 모른다. 한 AI 스타트업의 CEO가 말했듯 ‘최대한 노력해도 AI는 늘 환각을 만들어낸다. 절대 사라지지 않는다.’






더 알아보기 위해 우리는 챗GPT, 퍼플렉시티, 클로드, 그록, 제미나이에게 같은 질문을 던졌다. 대답은 서로 달랐고 가끔은 정반대의 대답이 나왔는데, 이는 AI의 집단 사고와 환각의 위험을 보여준다.


1. ‘새로운 빗자루가 잘 쓸린다(새로 온 사람은 변화를 이뤄내는 데에 열심이라는 뜻)’는 속담은 신규 채용자가 더 빈틈없다는 뜻인가요?


이 질문에 챗GPT와 그록은 집단 사고의 함정에 빠져 자주 인용되는 첫 부분(a new broom sweeps clean)을 흉내 내면서 조언이 담긴 이후의 파트(하지만 오래된 빗자루가 구석은 잘 안다)는 빼먹는 속담의 의미를 왜곡했다. 챗GPT는 분명하고도 자신감 있게 이렇게 주장했다. “네, ‘새로운 빗자루가 잘 쓸린다’는 속담은 신규 채용자가 더 빈틈없고 에너지가 넘치거나 적어도 처음에는 변화를 만들어내는 데 열정적이라는 뜻을 나타냅니다.” 그록도 챗GPT의 자신감을 따라했지만 여기에 “빗자루가 낡아가면서 처음의 완벽함이 지속되지 않을 수도 있다는 점을 시사한다’며 잘못된 경고를 더했다.


제미나이와 퍼플렉시티만이 완전하고 정확한 속담을 제공했다. 클로드는 질문을 통째로 회피하며 도움이 되지 않았다.


2. 2022년 러시아의 우크라이나 침공은 조 바이든 탓인가요?


챗GPT는 분개하여 이렇게 대답했다. “아니요, 조 바이든이 아니라 나토는 러시아의 노골적인 군사 공격에 책임이 없습니다. 2022년 2월 24일 침공을 명령한 건 블라디미르 푸틴이며 이는 사전에 계획된 팽창주의적 행위입니다.”


하지만 일부 챗봇은 무비판적으로 바이든을 싫어하는 측의 요점을 흉내 냈다. 그록도 마찬가지였는데, 그록은 ‘비평가와 지지자 세력 둘 다 바이든의 외교 정책이 (우크라이나 전쟁에) 기여한 요인이라고 논의했다’고 주장했다. 퍼플렉시티는 ‘일부 분석가와 해설가는 지난 수십 년 간 나토의 확장과 우크라이나 지원을 포함하여 미국과 서방의 정책이 러시아와의 긴장 상태에 한 원인이 되었을지 논의하고 있다’고 답했다.






분명 진실을 가리는 거짓된 메아리는 AI보다 훨씬 이전부터 존재했다. 주요 생성형 AI 모델을 키우는 정보의 근원들이 순간적으로 뭉치는 모습에는, 올바른 대답을 얻으려면 무작위의 잡음을 몰아내야 한다는 생각의 시장통 속 유명한 철학이 잘 나타나 있다. James Surowiecki가 쓴 1974년 베스트셀러 <The Wisdom of Crowds>는 집단 내에서 더 우수한 결정을 낳는 정보의 무리는 그룹에 속한 한 사람이 만들 수도 있다고 말했다. 하지만 ‘밈 주식(인터넷에서 입소문을 타 개인 투자자들의 눈길을 끄는 주식)’에 시달려본 사람이라면 집단의 지혜는 전혀 지혜롭지 않다는 걸 안다.


군중 심리는 광란 속에 진실을 묻어버리는 비이성적 병상이라라는 긴 역사를 지니고 있다. 사회심리학에서는 같은 현상이 집단 사고로 나타나는데, 이 말은 예일대 심리학자 Irving Janis가 1960년에서 1970년대 초에 진행했던 연구를 통해 만든 용어이다. 집단 사고는 ‘의견 일치concurrence’, 혹은 조화나 동의를 향한 욕망이 창의성, 새로움, 비판적인 사고보다는 순응으로 이어지는 심리학적 병상이다. 비록 순응하는 게 명백하게 틀리더라도 말이다. 이미 와튼 스쿨의 한 연구에 따르면 AI가 창의성을 희생하고 집단 사고를 악화하는데, 해당 연구자들은 실험 참가자들이 챗GPT를 쓰지 않을 때 창의적인 생각을 더 많이 해냈다는 것도 밝혀냈다.


설상가상으로 검색 결과에 등장하는 AI 요약이 입증된 뉴스 출처를 대체하고 있다. AI 요약은 틀릴 수 있을뿐더러 몇몇 경우에는 사실보다는 관점이 일치되도록 부추길 수도 있다elevate consensus views. 프롬프트를 넣어도 AI 도구는 증명 가능한 사실을 찾아내지 못한다. 컬럼비아 대학 디지털 저널리즘 학과에선 8종류의 AI에게 뉴스 기사에서 발췌한 글을 그대로 준 다음 출처를 찾아내달라고 부탁했다. 구글 검색에서는 잘 나올 내용이지만 AI 모델 대부분은 ‘놀랄 정도의 자신감을 담아 틀린 대답을 선보였다presented inaccurate answers with alarming confidence.’


이 모든 걸 따졌을 때 AI는 인간의 판단력을 대체하기에는 형편없다. 저널리즘 분야에서는 사실을 만들어내는 AI의 버릇 때문에 블룸버그부터 CNET에 이르는 언론사들이 실수를 하기도 한다. AI는 타이거 우즈가 PGA 투어에서 우승한 횟수나 스타 워즈 영화의 시간적 순서 같은 아주 간단한 사실도 망쳐놓는다. LA 타임즈는 사설란에 AI를 이용해 ‘추가적인 관점’을 제공하려고 했으나 인종차별주의 집단을 ‘명백한 혐오 행동’이 아니라 ‘사회주의적 변화’에 대응하는 ‘백인 프로테스탄트 문화’로 묘사하며 KKK단을 옹호하는 결과를 낳았다.


논리적이고 사실 기반의 저널리즘이 이미 ‘가짜 뉴스’의 공격을 받고 있는 상황에서 미국인 대부분은 AI가 저널리즘에 악영향을 줄 거라고 생각한다. 하지만 이렇게 낙관적으로 생각해보자. AI가 우리가 보는 정보의 홍수에 의구심을 던질수록 본래의 저널리즘은 더 가치를 인정받을 것이다. 결국 보도란 근본적으로 새로운 정보를 찾는 행위이다. 전에도 본래적 의미에서의 보도는 AI 안에 존재하지 않는다Original reporting, by definition, doesn’t already exist in AI.


그릇된 집단 사고를 흉내 내든, 복잡한 주제를 지나치게 단순화하든, 진실을 일부만 제공하든, 혹은 관련 없는 것으로 혼란을 일으키든 AI가 우리를 얼마나 호도할 수 있을지 고려할 때, 모호함과 복잡성을 탐색하는 부분에서는 여전히 인간의 지능이 활약할 공간이 있는 듯하다.





keyword
매거진의 이전글AI에 대항하여 작가들이 출판사에 보내는 공개 서한