brunch

뉴스를 검열하는 AI, 믿어도 될까

문과생이 설명하는 팩트체킹 AI와 그의 한계

by 니무스

AI가 가짜 뉴스를 잡는다? 그 이면을 살펴보자.

이번 달, 메타가 가짜뉴스를 식별하는 프로그램을 전부 중단하기로 했다는 내용을 기고했다. 이전 보고서에 따르면, 메타의 가짜뉴스 식별 머신러닝 모델은 90% 이상의 가짜뉴스를 걸러내는 성과를 보였다고 한다. 실제로 이러한 문제를 해결하기 위해 메타뿐만 아니라 여러 연구자와 기술 기업들이 인공지능(AI)을 활용한 가짜 뉴스 탐지 기술을 개발하고 있고, 메타의 이러한 행보에 사회적으로 혼란을 가져올 수 있다고 생각한다.


하지만 리스크 전문가로서, AI 기반 팩트체킹 시스템, 그 이면을 무시하고 지나갈 수 없다.


AI는 방대한 양의 텍스트 데이터를 분석하고, 거짓 정보를 식별하는 패턴을 학습할 수 있다. 하지만 단순히 AI를 도입한다고 해서 모든 문제가 해결되는 것은 아니다. AI의 한계를 인지하고, 기술의 장단점을 신중하게 고려하며 시스템을 설계하는 것이 필수적이다. 예를 들어, AI가 특정 정치적 입장의 기사에만 가짜 뉴스 판정을 내린다면, 그것은 뉴스 검열과 다를 바가 없다. 과연 AI는 중립적인 판단을 내릴 수 있는가? 아니면 인간의 편견이 기계적으로 확대 재생산되는가? 이번 글에서는 대체 AI가 어떻게 가짜 뉴스를 식별하는지, 그리고 그 절차에서 발생하는 리스크는 무엇인지를 다룬다.



AI 모델을 만드는 방법은 5단계로 설명할 수 있다 (쉽고, 기술적이지 않게)


1. 진짜와 가짜를 가르치기: 황금 데이터를 모으고 진실과 거짓을 가르쳐야 한다

2. AI 모델 선택하기: 똑똑한 뇌를 골라야 똑똑한 아웃풋이 나온다

3. AI 훈련시키기: 텍스트를 컴퓨터가 이해하는 숫자로 바꾸고, 데이터셋의 80%는 훈련 데이터로, 나머지 20%는 테스트 데이터로 나눠 훈련시키고 테스트해본다.

4. AI를 세상에 내보낸다: API나 봇으로 만들어 원하는 플랫폼에 적용시킨 뒤 한번 테스트해 볼 수 있다

5. 모니터링 및 업데이트: 피드백 룹과 모니터링 플랜을 만들어 AI 성능을 개선한다.


2.png Dall.e로 만들기 어렵다

조금 더 자세히 들어가 보자.


1. 진짜와 가짜를 가르치기


AI 모델이 효과적으로 학습하려면 신뢰할 수 있는 데이터가 필수적이다. 머신러닝 모델은 사람이 가르쳐 준 패턴을 기반으로 학습하기 때문에, 잘못된 데이터가 입력되면 AI 역시 부정확한 결과를 도출할 수밖에 없다. 가장 신뢰할 수 있는 데이터는 기존 팩트체킹 기관에서 검증한 정보다. (예를 들어, FactCheck.org는 정치적 발언, 음모론, 건강 관련 허위 정보를 분석하고 검증해 왔고 대다수가 신뢰할 수 있는 데이터소스로 분류된다). 기존 연구에서 공개된 데이터셋을 활용하는 방법도 있다. 예를 들어, LIAR 데이터셋은 정치인의 발언을 ‘거짓’부터 ‘완전한 사실’까지 6단계로 구분한 데이터셋이며, FakeNewsNet은 다양한 출처의 뉴스 기사를 검증하여 진짜 뉴스와 가짜 뉴스를 나눈 데이터셋이다.


하지만 데이터가 편향적이라면 AI도 편향적일 수밖에 없다. 팩트체크된 데이터가 특정 정치적 성향의 뉴스만 포함하고 있다면? AI는 특정 관점의 뉴스만 진실로 판단하고, 반대되는 뉴스는 가짜로 간주할 가능성이 크다. 이는 정보의 객관성을 심각하게 훼손할 수 있으며, 특정 진영의 검열 도구로 악용될 수도 있다.


또한, AI가 최신 트렌드를 반영하지 못하면 그 능력이 급격히 저하된다. 새로운 유형의 가짜 뉴스가 등장했을 때, 기존 데이터만 학습한 AI는 이를 감지하지 못한다. 과거의 허위 정보 패턴에 의존하는 모델은 새로운 형태의 정보 조작을 탐지하는 데 실패할 가능성이 크며, 이로 인해 잘못된 뉴스가 검열되지 않고 확산될 수 있다.


더불어, 한국과 같은 국가에서는 데이터셋이 충분히 반영되지 않을 가능성이 크다. 우리 시민사회와 언론, 정부 기관이 이러한 데이터 구축 과정에 참여하지 않는다면, 한국 관련 가짜 뉴스는 상대적으로 덜 걸러질 가능성이 있다. 이 문제를 해결하려면 글로벌 기업들이 AI를 설계할 때 다양한 지역의 언어와 문화적 맥락을 반영하도록 더 많은 기여를 할 필요가 있다.


2. AI 모델 선택하기


데이터가 준비되었으면 이제 AI 모델을 선택해야 한다. AI는 사람이 뉴스를 읽고 판단하는 것과 다르게, 통계적 패턴을 찾아서 “이 뉴스가 가짜일 확률이 몇 %”인지 예측한다. 가짜 뉴스를 판별하는 AI 모델은 크게 전통적인 머신러닝 모델과 자연어 처리(NLP) 기반의 딥러닝 모델로 나뉜다.


전통적인 머신러닝 모델로는 로지스틱 회귀(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트 벡터 머신(SVM) 등이 있다. 이 모델들은 특정 단어의 빈도, 문장의 길이, 감성 분석 등 다양한 통계적 특징을 이용해 가짜 뉴스를 분류한다. 비교적 적은 연산양으로도 동작하기 때문에 빠른 탐지가 가능하지만, 문장의 문맥을 깊이 이해하지 못한다는 한계가 있다.


보다 정교한 분석이 필요하다면 딥러닝 기반 모델을 활용해야 한다. 대표적인 모델로는 BERT, RoBERTa, XLNet 등이 있다. 이러한 모델들은 문장의 문맥을 고려하여 의미를 분석할 수 있기 때문에, 가짜 뉴스와 사실 보도의 미묘한 차이를 구별하는 데 유리하다. 예를 들어, “백신이 100% 효과가 없다”라는 문장은 사실일 수도 있고, 허위 정보일 수도 있다. 전통적인 머신러닝 모델은 단어만 보고 단순한 패턴을 분석하기 때문에 이 차이를 구별하지 못할 가능성이 크다. 반면, BERT 같은 모델은 문장 전체의 맥락을 이해하여 보다 정확한 판단을 내릴 수 있다.


어떠한 모델을 골라 훈련시킬 것인지도 꽤 중요한 결정이 될 것이다.


3. AI 훈련시키기


이제 AI에게 본격적으로 가짜 뉴스 감별 능력을 키워야 한다. 모델이 학습하는 과정은 다음과 같다. 학습을 위해 이전에 마련해 둔 데이터를 80%는 훈련용, 20%는 테스트용으로 나누어야 한다. AI는 훈련 데이터를 보면서 “이런 패턴이면 가짜 뉴스일 확률이 높아!”라는 식으로 학습한다. 이후 테스트 데이터로 AI가 얼마나 정확하게 판단하는지 평가하는 과정이 필요하다. AI가 훈련 데이터에서만 높은 정확도를 보이고 새로운 데이터에서는 성능이 떨어지는 과적합(overfitting) 문제를 방지하려면, 다양한 유형의 데이터를 학습시키고 정기적으로 평가하는 과정이 필요하다. (이 과정은 많은 자원과 시간이 들어갈 수밖에 없다)


4. AI를 세상으로 내보낸다


디스코드 플랫폼과 같이 API나 봇을 쉽게 연결해 배포할 수 있는 플랫폼을 찾아 한번 테스트해 볼 수 있다. 가짜뉴스 콘텐츠를 누가 올리면 판별하는 서비스를 만들 수도 있을 것이다.


5. 모니터링 및 업데이트


마지막으로, 모니터링과 업데이트는 필수적이다. AI가 모든 가짜 뉴스를 100% 잡아낼 수는 없다. 그래서 지속적인 개선이 필요하다. AI가 높은 정확도를 보인다고 하더라도, 중요한 것은 어떤 뉴스에서 오류가 발생하는가이다. 예를 들어, AI가 특정 유형의 뉴스에서는 거의 완벽한 성능을 보이지만, 특정 사회적 이슈에서는 자주 틀리는 경향이 있다면 이는 신뢰할 수 없는 모델이 된다.

또한, AI의 결과를 100% 신뢰해서는 안 된다. AI는 통계적 패턴을 분석하는 도구일 뿐이며, 최종적인 판단은 인간이 내려야 한다. 따라서 AI가 탐지한 뉴스에 대한 팩트체커들의 검토 과정이 필수적이다 (Human In the Loop, HITL). AI는 인간을 대체하는 것이 아니라, 인간의 판단을 보조하는 역할을 해야 한다.


더욱 중요해진 시민사회와 정부의 역할


AI가 가짜 뉴스를 탐지하는 기술이 발전하는 만큼, 이를 효과적으로 활용하고 감시하는 시민사회와 정부의 역할도 더욱 중요해지고 있다. AI 모델은 단순히 기술의 문제가 아니라, 사회적 신뢰와 민주주의의 근간을 건드리는 요소이기 때문이다. 시민사회는 AI가 공정하게 작동하고 있는지를 감시하는 역할을 해야 한다. AI 모델이 특정 정치적 성향을 띠지는 않는지, 표현의 자유를 제한하는 방향으로 작동하지 않는지를 지속적으로 검토해야 한다. 정부 역시 AI 기반 가짜 뉴스 식별 시스템이 공정하고 투명하게 운영되도록 규제와 감독을 강화해야 한다.


기술은 독립적으로 작동하는 것이 아니라, 그것을 사용하는 사람들과 함께 발전해 나간다. AI가 사회적 신뢰를 받기 위해서는, 기술 개발자뿐만 아니라 시민사회, 언론, 정부가 함께 감시하고 논의하는 과정이 반드시 필요하다.




우리가 감시해야 할 것은 가짜 뉴스가 아니라, AI일지도 모른다


나는 엔지니어가 아니다. 하지만 AI가 사회에 미칠 영향을 고민하고, 그 과정에서 발생하는 리스크를 최소화하는 것이 내가 하는 일이다. 가짜 뉴스를 탐지하는 AI를 개발하는 것이 중요한 만큼, 그 AI가 새로운 문제를 일으키지는 않는지 감시하는 것도 중요하다. 기술이 올바른 방향으로 작동하려면, 단순히 AI를 만드는 것에서 끝나는 것이 아니라, 그 과정에서 발생할 수 있는 위험을 통제하는 것이 필수적이다.


우리는 끊임없이 그 한계를 점검해야 한다.

keyword
작가의 이전글가짜뉴스에 백기를 든 메타(Meta)