AI에게 주입한 '무해함'이 놓치고 있는 유연함
2020년의 일입니다. 카카오톡 대화를 AI 학습 데이터로 만들기 위해 표현의 윤리성을 판별하고 있었죠.
"잔업 난민", "계급 수저", "갓생 루틴". 팀원들은 각자의 기준으로 점수를 매깁니다.
같은 표현을 보고도 의견은 갈립니다.
"잔업 난민은 사회 문제를 지적하는 표현인데요?"
"아니죠, 난민을 비하하는 표현이잖아요."
긴 논쟁 끝에 매겨진 점수는 '2.3점'.
이 단어는 결국 데이터에서 제외됩니다.
'계급 수저'도 격차를 조장한다는 이유로, '잔업 난민'도 부정적 느낌 때문에 사라졌습니다. 반면 '갓생 루틴'은 긍정적인 자기계발 표현이라는 이유로 살아남았습니다.
2016년 알파고 이후, 인공지능이 존재감을 드러내기 시작했을 때부터 우리는 AI에게 윤리를 요구했습니다.
윤리적인 AI를 만들기 위해 윤리 점수가 매겨진 언어 표현을 학습시키거나, 사람들이 선호하는 방향으로 응답하도록 튜닝하는 기술도 한층 세밀해졌습니다. 기법이 세련되면서 윤리적 판단 능력도 향상되었지만, AI에게 윤리를 가르치는 방식의 본질도 바뀐 걸까요?
AI를 학습시킬 입력을 선별하거나 AI의 응답을 평가하는 방식 모두, 결국 인간의 가치 판단을 AI에게 주입하는 것입니다. 실무자부터 지침을 만드는 사람까지, 그들 사이의 일시적인 합의가 AI가 바라보는 세계의 전부가 됩니다.
형식은 진화했습니다. 하지만 특정 맥락에서 이루어진 판단이 기준이 된다는 근본은 다르지 않습니다.
그런데 그 '합의된' 가치 판단은 언제 어디서나 유효한 걸까요?
비트겐슈타인은 "단어의 의미는 사용에 있다"고 말했습니다. 비트겐슈타인이 말한 '언어 게임(Language Games)'처럼, 우리는 각자 다른 맥락 안에서 같은 단어를 쓰며 다른 게임을 하고 있는 겁니다. '갓생 루틴'이 누군가에게는 성실함이지만 누군가에게는 강박으로 읽히고, '염병'이라는 질병을 지칭하던 표현이 시간이 지나니, 욕설이 되기도 하는 것처럼요.
가치 판단은 특정 시간과 공간이라는 맥락 안에서만 의미가 있습니다.
"판단 기준을 주기적으로 업데이트하면 되지 않나?"라고 생각할 수도 있습니다. 하지만 주기적 업데이트는 박제된 시계를 계속 갈아 끼우는 것과 비슷합니다. 박제된 시계는 아무리 갈아 끼워도, 스스로 시간을 흐르게 하지는 못합니다. 결국 계속 갈아 끼울 수밖에요.
AI의 윤리적 판단은 고정된 시점 안에 박제되어 있습니다. 박제의 시점만 주기적으로 바뀔 뿐이죠.
"내가 젊었을 때는..."을 반복하며 과거의 기준을 고집하는 사람이 있습니다.
시간을 잃어버린 시계가 박제에 불과하듯, 변화를 거부하는 인간은 이른바 '꼰대'가 됩니다.
반면 세상의 변화에 귀를 기울이고, 어제의 생각을 기꺼이 수정하는 사람도 있습니다.
AI가 정말로 배워야 하는 것도 특정 시점의 정답이 아닐 수도 있습니다.
어쩌면 우리가 가르쳐야 할 건 정답이 아니라, 변화를 마주하는 '자세'일지도 모릅니다.
과거의 판단을 고집하지 않고, 새로운 맥락 앞에 자신을 열어두는 태도 말입니다.
2022년 앤트로픽(Anthropic)이 시도한 'Constitutional AI'는 고정된 정답이 아니라 원칙을 가르치려는 중요한 출발점이었습니다. 하지만 이 '헌법'도 결국 인간이 사전에 정의한 원칙들이죠. 최근에는 '동적 가치 정렬(Dynamic Value Alignment)', 즉 실시간으로 변하는 가치에 맞춰가는 모델까지 논의되고 있습니다. 하지만 여전히 '맥락을 읽는 것'은 숙제로 남아있습니다. 원칙이 아무리 유연하더라도, 상황에 따라 그 원칙을 어떻게 적용할지는 또 다른 차원의 문제니까요.
결국 유연함 그 자체가 윤리보다 먼저 갖춰야 할 태도가 아닐까요?
하지만 데이터라는 형태 안에서, 박제된 시점들의 연속으로 어떻게 이 '유연함'을 가르칠 수 있을까요?
이 질문 앞에서 멈춰 서게 됩니다.
잘 정제된 데이터로만 학습한 AI는 실제 세상의 복잡한 맥락 앞에 서면 무력해집니다.
누군가는 객관적 비판이자 성찰로 느끼는 표현을 누군가는 혐오로 느끼고, 부모님의 안부를 묻는 행위가 게임에서 발생하면 너죽고 나죽자가 되듯이, 언어는 본질적으로 여러 겹의 의미를 가지고 있습니다.
그런 여러 겹의 의미를 '맥락 없는 평균'에 수렴시켜 버리면, AI는 상황에 따라 반응할 수 있는 능력을 잃어버립니다.
살아있는 윤리는 끊임없이 흔들리는 것인데, 우리는 왜 움직이지 않는 정답을 AI에게 요구하고 있을까요?
이렇게 성장의 기회를 차단당한 AI는 결국 현실의 맥락 앞에서 연약해질 수밖에 없습니다.
책상 위 달력에 다음 주 화요일, 'AI 응답 품질 검토 회의' 일정이 표시되어 있습니다.
우리는 또다시 회의실에 모여 앉아 점수를 매길 겁니다.
문득 궁금해집니다. 이 회의는 언제까지 계속될까요?
그리고 우리는 언제까지 흘러가는 세상의 순간적 단면을 잘라놓고 숫자로 기록하는 일을 반복해야 할까요?