무엇을 더 논해야 하는가?
이 글은 언어 모델의 인공차별에 대한 좀 더 깊은 생각과 추가적인 논의를 통해 작성된 글입니다.
아이디어를 제공해 주신 분들께 감사드립니다.
목차
1. 교토식 화법
2. 멀티모달
3. 애당초 막을 수 없다.
돌려 말하기를 나타내는 대표적인 비유로 교토식 화법이 있다. 예를 들어, "시계 멋있네"라는 말은 "시간이 많이 지났으니, 이제 대화를 멈추자"라는 의미를 내포할 수 있다. 이 화법의 매력은 직설적으로 표현하지 않고, 상대방이 은연중에 전하는 숨겨진 의미를 파악하는 데 있다. 이 경우, '시계'는 시간이 지났다는 상징적 연결을 필요로 하며, 오래 대화하는 것을 꺼리는 일반적 사회적 이해도 필요하다. 이러한 점에서 인종차별과 관련된 교토식 화법은 인공지능으로 즉각적으로 해결하기 어려운 문제다.
이 비유에서 가장 먼저 떠오른 개념은 마음 이론(Theory of Mind)이다. 다른 사람의 생각을 유추하는 과정은 (1) 자신의 생각과 (2) 타인의 생각을 구분해야 하는데, 인간은 보통 5세가 되면 타인의 생각을 상상할 수 있다고 알려져 있다. 반면, 인공지능 모델은 그렇지 않다. 최근 몇몇 연구에서 인공지능이 Sally-Anne 테스트를 통과한 것으로 보이지만, 이 결과는 문제 유출에 기인한 것일 가능성이 크다. 인공지능은 그 테스트를 인식하고 기억을 기반으로 답을 생성하기 때문에, 진정으로 타인의 마음을 이해한 것이 아니라 학습된 정보를 재현한 것에 가깝다. 이 때문에 AI 회사들이 "다른 사람의 마음을 상상해 봐"와 같은 규칙을 통해 학습을 시킨 것으로 보인다.
따라서 마음 이론이 해결되지 않는다면, 인공지능은 상대가 무엇을 생각하고 원하는지를 정확히 파악하지 못할 것이고, 은연 중에 인종차별적인 발언이 발생하더라도 스스로 그 발언이 차별적임을 인지하지 못할 가능성이 있다. 그러므로 인종차별 문제를 단순히 차단하는 방식이 아닌, 상대의 입장과 감정을 고려하는 모델링이 필요하다. 예를 들어, AI 모델은 자신의 말이 상대방에게 상처를 주지 않는지 알아야 하며, 더 나아가 그로 인해 자신에게도 해가 되는 결과를 예측할 수 있는 '세계 모델(World Model)'을 갖추어야 인종차별 문제를 인간 수준에서 해결할 수 있을 것이다.
텍스트는 말에 비해 감정을 덜 전달한다. 텍스트에서 발생하는 차별은 주로 사용하는 어휘와 글쓰기 능력에 기반한다. 반면, 음성 차별은 목소리의 톤, 떨림, 속도와 같은 비언어적 요소들이 영향을 미친다. 인공지능 모델은 특정 문화의 데이터를 학습하면서 상관관계에 기반한 특징들을 습득한다. 예를 들어, 인종차별이 문제가 되는 이유 중 하나는 흑인의 범죄율이 백인보다 높다는 통계를 일반화하여 "흑인은 범죄를 저지른다"라는 잘못된 결론에 도달하는 경우 때문이다. 텍스트에서 차별이 발생하듯, 음성에서도 비슷한 문제들이 생길 수 있다.
개인적으로 음성 차별은 텍스트 차별보다 해결하기 더 어렵다고 생각한다. 텍스트는 어휘와 의미를 분석해 차별적 요소를 제거할 수 있지만, 음성은 스타일이나 말투를 구체적으로 설명하기 어렵기 때문에 무엇을 제거해야 할지 명확하지 않다. "이런 말투가 문제다"라고 하더라도, 그 말투를 구체적으로 정의하고 제거하는 것은 매우 모호하고 복잡하다.
따라서 음성 차별을 실질적으로 해결하기 위한 가장 현실적인 방안은 동일한 의미를 가진 음성에 대해 인공지능 모델이 차별하지 않도록 하는 것이다. 즉, 주어진 데이터 쌍에서 모델이 공통된 특징을 기반으로 결정을 내리고, 차이가 되는 부분은 결정에 영향을 미치지 않도록 해야 한다. 이러한 접근 방식으로, 음성을 텍스트로 변환하여 일반화된 기준에 따라 판단을 내리는 것이 더 적절할 수 있다. 결국, 음성 차별 문제에 대해서는 그 해결이 쉽지 않다는 가정을 바탕으로 접근할 필요가 있을 것이다.
계산기를 생각해보자. 만약 1+1의 결과가 3이라고 나온다면, 우리는 계산기가 고장났다고 판단할 것이다. 그다음에는 계산기를 고쳐서 1+1=2가 되도록 만든다.
이러한 과정은 기계에 대한 기본적인 가정에 기반한다. 즉, 기계가 오류를 발생시키면 이를 수정해야 한다는 것이다. 컴퓨터 소프트웨어도 마찬가지다. 우리가 사용하는 프로그램에서 오류가 발생하면, 뒤에서 이를 수정하는 사람들이 있고, 그들은 알고 있는 구조를 바탕으로 문제를 해결한다. 하지만 인공지능은 이러한 방식으로 고칠 수 없다. 왜냐하면 인공지능은 파이프라인처럼 명확한 구조를 가진 것이 아니기 때문이다. 이는 우리가 자신의 생각을 쉽게 바꾸기 어려운 것과 유사하다. 그럼에도 불구하고, 몇몇 연구자들은 인공지능 모델 내부를 해석하려고 시도하며, 마치 계산기를 고치듯이 인공지능을 수정하려는 연구를 진행한다.
여기서 한 가지 문제는 '대상'이다. 기계와 대상, 이 두 요소는 서로 상호작용하며, 우리가 해결하고자 하는 인종차별 문제 역시 두 가지 측면에서 바라봐야 한다. 인종차별이라는 개념 자체가 모호한 대상이기 때문에 문제를 해결하기가 어렵다. 사실, 이러한 문제는 분석하는 것조차 쉽지 않다. 기계를 고치는 것의 어려움은 차치하고라도, 인종차별이라는 대상이 명확하지 않기 때문에 이 문제는 쉽게 풀리지 않는다.
따라서, 인공지능이 가진 인종차별 문제를 해결하려면 먼저 대상을 한정해야 한다. 모든 언어를 대상으로 하기보다는 사회적으로 문제가 되는 인종차별적 언어로 범위를 좁혀야만 해결 가능성이 높아진다.