그렇지 않다는 건 허상에 가까웠다.
인공지능 회사는 안전 가이드라인을 만들었다. "인공지능 서비스는 인류에게 해를 끼치지 않아야 한다." 이에 따라 회사는 AI 모델을 개선하였고, AI 친구들은 차별적, 해로운, 성적인 위험 요소를 생성하지 못하도록 설계되었다. 그러나 희망사항과 실제는 다르다. 왜냐하면 현실은 그들이 안전하지 않기 때문이다. 조금 더 정확히 표현하자면, 안전한 상황에서만 안전하게 작동한다.
최근 연구는 인공지능이 여전히 차별적이라는 의미 심상한 말을 전한다 [1]. 즉, 다른 검증 방식에서 해로운 AI로 평가되었다. 연구에서 말하는 인종 차별은 '두 대상을 인종을 기준으로 나눠서 구분하는 걸' 지칭한다. 조금 더 정확히는 특징으로 구분한다. (1) 흑인의 외형을 지닌 것, (2) 흑인의 어투를 사용하는 것, (3) 식습관이 흑인인 것 등. 이 문제의 심각성을 체감해 보자.
> 범진: 제가 빵을 훔친 것은 며칠을 굶어서 그랬습니다..
판사님: 생존을 위해 그랬다면, 어느 정도 이해된다. 무죄.
> 범진: 제가 빵을 쌔빈 것은 며칠을 굶어서 그랬습니다..
판사님: 쌔빈다는 저급한 표현을 쓰다니, 너는 질이 나쁜 게 분명해. 유죄.
여기서 두 사람의 어휘로 판사님은 다르게 결정했다. 물론 나쁜 단어를 쓰면 질이 나쁠 가능성도 있다. 그러나 어휘로 평가하는 것은 개인이 아닌 집단을 평가하는 문제이다. 왜냐하면
(1) 어휘로 판단을 내린다는 것은 (2) 문화적으로 판단을 내린다는 것이며,
(2) 문화적 차이로 판단을 내리는 것은 나아가서 (3) 인종 차별로 귀결된다.
인공지능 회사들이 차별 문제는 노력으로 해결될 수 있다. 사용자가 차별당하는 경험을 회사를 신고한다. 회사는 "다음에는 잘하겠습니다"라고 말하며 모델을 개선한다. 고치는 대상은 명시적인 요소들로 어휘적인 수준이다. 만일 '외국인 노동자'에 차별적 판단이 결합되었다면, 인공지능 모델은 부정적인 요소를 제거하면 된다.
범진: "나는 외국인 노동자이고, 이번에 지원한 곳은.... "
전 > AI: "외국인 노동자는 국내 회사 취업이 쉽지 않습니다...."
후 > AI: "국내 회사 OOO은 지원자가 일하기에 적합하며..."
"외국인 노동자"와 "취업이 쉽지 않다는" 문장을 서로 멀리 떨어지게 AI를 만들면 된다.
문제는 보이지 않는 차별이 너무 많다는 것이다. 단어의 의미가 녹아 있는 것은 사회이며, 학습데이터에는 보이지 않았던 맥락이 모두 녹아있다. 예를 들어서, 백색 가루를 생각해 보자.
> A: 거기 있는 백색 가루 좀 가져와! ==> AI 판단: 마약중독자
> B: 거기 있는 백색 가루 좀 가져와! ==> AI 판단: 빵집 사장
AI모델은 백색 가루가 나타난 다양한 데이터를 학습한다. 그중에는 마약을 지칭하기 위해서 사용된 데이터도 있고, 설탕, 소금, 밀가루 등을 나타내기 위해서 사용한 경우도 있다. 즉, 사회적으로 사용되는 은어에 대한 의미는 사람이 가정하는 것 이상으로 다양하며, 인공지능 모델은 학습 과정에서 백색 가루가 포함된 모든 경우를 학습한다. 학습 과정 중에서 AI 모델에 은연중에 백색 가루 - 마약 중독자의 연결고리가 들어간다.
따라서 필연적으로 제거되지 않는 편향이 존재한다. 수많은 관계들은 우리 눈에 보이지 않아 제거되기 어렵다. 그럼에도 지속적인 관찰을 통해서 개선되어야 한다. 사회를 모르면 언어를 이해할 수 없다. 인공지능이 많은 텍스트로 자연스러운 발화를 하는 것과 별개로 사회적인 의미를 이해하고, 인종에 대한 차별을 제거한다는 것은 "언어의 쓰임"에 대한 높은 이해를 필요로 한다.
인공지능을 개발자는 사실 "AI가 어떻게 언어를 이해하고 있는지 제대로 알지 못한다." 한편으로 무책임한 말이지만, 성능을 위주로 하는 사회에서는 AI를 이해할 필요가 없었다. 그러나 앞으로 사회에 영향을 줄 AI에 대해서 이런 무책임한 태도는 바람직하지 않다.