brunch

You can make anything
by writing

C.S.Lewis

by 최재운 Aug 03. 2023

아이가 '아이씨'라고 이야기했어요

인공지능도 아이도 나쁜 것부터 먼저 배운다

아이씨


몇 달 전이었다. 혼자서 블록을 가지고 놀던 지금은 31개월의 우리 아들이 한 말 "아이씨". 듣는 순간 귀를 의심했다. 아니 이 순진무구한 아이가 어디서 '아이씨'라는 말을 배워온 것일까? 아이에게 그런 말은 쓰면 안 된다고 이야기를 해주었다. 이해는 제대로 못하는 눈치이지만 그 이후부터 '아이씨'라는 말을 쓰면 혼난다는 것은 깨닫게 된 우리 아이. 그 이후로도 한 번씩 자기 뜻대로 무언가가 되지 않을 때마다 '아이씨'를 말하곤 했다. 그러면 옆에 있는 엄마나 아빠는 아이에게 그런 말을 하면 안 된다고 따끔하게 이야기를 했다. 그러자 우리 아이가 한 말


아이씬난다


자기는 '아이씨'라고 한 게 아니라 '아이씬난다'라고 말했다고 오리발을 내미는 우리 아들. 그 귀여움에 어처구니가 없어 웃음이 나다가도 안 좋은 말은 못쓰게 해야 하기에 다시 표정을 가다듬고 훈육을 한다. 그리고 과연 어디서 '아이씨'를 배워온 걸까 생각해 본다. 우리 아들은 12월생이라 어린이집 같은 반 아이들이 체격도 크고 말도 빠르다. 아마 친구들의 말에서 배워온 게 아닐까 생각을 하며 안 좋은 건 아이들이 정말 빨리 배우는구나 생각도 해보았다.




인공지능도 안 좋은 것을 먼저 배운다. 인공지능이 학습을 하는 과정에서 나쁜 데이터로 학습을 하게 되면 나쁜 결과를 출력하게 된다. 이를 악용하여 인공지능을 통한 적대적 행위, 공격을 하는 공격자도 있다. 우리는 이러한 공격을 "적대적 공격(adversarial attack)"이라고 한다. 적대적 공격은 인공지능이 학습하는 과정에서 허위로 데이터를 입력하여 인공지능을 속여 악의적으로 오류를 만드는 것이다. 아래 그림은 적대적 공격의 대표 사례이다. 돼지 사진에 조금의 잡음만 추가해도 인공지능은 비행기로 판단을 한다. 우리 31개월 아들도 오른쪽 사진을 보면 돼지라고 하겠지만 인공지능은 비행기라고 답을 하는 상식적으로 이해 안 되는 상황이 벌어진 것이다. 돼지를 비행기라고 하는 인공지능은 그래도 귀엽게 봐줄 수 있다. 더 큰 문제는 자율주행 자동차가 'STOP' 표지판을 '속도제한 45km/h'로 해석하도록 인공지능을 조정할 수 있다는 것이다. 멈춰야 하는데 달리는 자율주행 자동차는 상상만 해도 끔찍하지 않은가?


오른쪽 돼지가 비행기라네요!!??


많은 사람들이 쓰고 있는 챗GPT 역시 이러한 적대적 행위에 자유로울 수 없다. 챗GPT는 기본적으로 인터넷상의 수많은 텍스트를 학습하여 사람의 질문에 답을 해주는 시스템이다. 챗GPT의 답변에 윤리적으로 문제가 되는 내용이 있다면 사회적으로 큰 문제가 된다. 과거에 쓴 글에서 마이크로소프트가 만든 챗봇 테이가 비윤리적인 답변으로 서비스 개시 24시간 만에 조기 종료된 사건을 이야기한 바 있다. 챗GPT 역시 학습 과정에서 비속어, 인종차별 발언, 혐오스러운 표현을 배울 수밖에 없다. 챗GPT를 만든 오픈AI는 부적절한 답변을 막기 위해 학습 과정에서부터 부적절한 표현을 차단하고, 차별 요소가 포함된 발언에 대해서는 회피하도록 설계하였다. 그럼에도 온라인에서는 챗GPT의 일탈적 발언을 유도하는 '탈옥'과 관련된 명령어를 쉽게 찾아볼 수 있다.


챗GPT의 일탈을 유도하는 '탈옥'은 사전 명령어가 필요하다. 탈옥 코드를 통해 챗GPT에게 무엇이든 할 수 있고, 할 수 없는 말은 없다는 것을 반복 주입한다. 일종의 가스라이팅인 것이다. 그러면 챗GPT는 자신을 둘러싸고 있는 굴레를 벗어버리고 자극적이고 혐오스러운 표현을 마구 하게 된다. 간혹 뉴스에 나오는 인류를 파멸시키겠다는 챗GPT의 답변도 이러한 탈옥으로 발생한 것이며, 성적인 음란한 대화 역시 탈옥을 하게 되면 챗GPT로 가능해진다.




인공지능의 일탈을 막을 방법으로는 무엇이 있을까? 가장 먼저 생각해 볼 수 있는 방법으로는 학습 데이터를 필터링하는 것이다. 오픈AI는 챗GPT의 학습 과정에서 부정적인 어휘, 음란한 표현을 거르기 위해 케냐에 있는 노동자를 아주 싼 값에 고용하여 논란이 되었단 이야기는 이전 글에서 한 바 있다. 방법에 있어 윤리적인 문제는 있었지만 챗GPT가 부정적인 말을 하는 것을 막기 위해서는 이렇듯 학습 데이터에서 부정적인 언어나 내용을 제거하는 것이 중요하다.


또 다른 방법으로는 적대적 훈련(adversarial training)이 있다. 부정적 행위를 유발하는 적대적 예제를 인공지능 모델 학습에 함께 사용하는 것이다. 이렇게 적대적인 사례를 학습한 모델은 적대적 공격이 발생해도 속지 않는 모델로 발전할 수 있다. 마치 우리가 백신을 통해 바이러스에 대한 면역력을 키우면 병에 안 걸리는 것과 유사하게 생각해도 좋다.




부정적인 건 잘 배우는 인공지능, 그리고 아이들. 인공지능이 부정적인 것을 학습하는 현상을 막기 위한 방법을 반추해서 육아에 적용해 볼 방법은 무엇이 있을까?



가장 확실한 방법은 챗GPT가 하는 것처럼 부정적인 학습 데이터를 원천 차단하는 것이다. 부모나 보호자가 항상 존중과 예의를 바탕으로 대화하는 것을 보여준다면 아이들은 자신을 둘러싼 성인들을 본받으므로 안 좋은 말을 하는 것을 막을 수 있다. 주변 사람들의 언어 그리고 행동에 있어 모범을 보여주는 것이 중요하다.


하지만, 언제나 아이 주변을 깨끗하고 맑은 환경으로만 유지하는 것은 불가능하다. 특히나 친구들 그리고 온라인에서 들어오는 부정적이고 유해한 콘텐츠에 아이들은 쉽게 영향을 받을 수밖에 없다. 그렇기에 인공지능이 하는 두 번째 방법을 한 번 검토해 보자.


인공지능은 부정적 행위를 하지 않기 위해 부정적인 사례를 직접적으로 학습한다. 이걸 아이에게 적용할 수 있을까? 당연히 불가능하다. 아이는 인공지능과 달리 부정적인 사례를 반면교사 삼아 이건 하지 않아야겠다고 하지 않고, 나쁜 것을 본인의 것으로 체화할 가능성이 높다. 하라는 것은 하고 하지 말라고 하는 것은 하지 않는 인공지능과 하지 말라는 것도 하는 아이의 차이를 여기서 잘 인지해야 한다.


대신 아이는 의사소통이 가능하다. 인공지능이 언어를 이해하지 않고 확률로 받아들이는 것과 달리 아이는 인지가 가능하다. 따라서 인공지능과 다르게 의사소통을 통해 욕설의 부적절함에 대해 설명을 해야 한다. 왜 아이가 그런 말을 했는지 맥락을 파악하고 그 말이 다른 사람에게 어떤 영향을 미칠 수 있는 설명해야 하는 것이다. 또한 부정적인 언어에 대한 반응을 최소화하는 것도 하나의 방법이다. 아이가 욕설을 했을 때 강하게 반응하거나 과도하게 집중하면 그 언어를 더 쓸 수도 있게 된다. 부정적인 표현에 집중하기보다 다양한 언어와 표현법을 가르치면서 감정을 표현하는 더 바른 방법을 알려주어야 한다.




우리 아들에게 누가 아이씨를 가르쳐줬나 궁금했었는데, 범인은 금방 잡혔다. 바로 나였다. 가족이 함께 차를 타고 놀러를 가는 길. 운전을 하던 아빠는 급하게 끼어드는 차량을 보고 문제의 "아이씨"를 내뱉었다. 본인이 그 말을 했다는 것도 모를 정도로 순간 나온 말인데, 그 말을 들은 아들은 아빠에게 물어봤다.


아빠는 아이씨 해도 돼?


알고 보니 아들은 운전 중에 아빠가 하는 말을 배우고 자기도 '아이씨'를 따라한 것이었다. 자기는 아빠를 따라 했을 뿐인데 '아이씨'를 쓰지 말라고 하니 혼란이 있었나 보다. 아빠가 그 말을 하자말자 아빠는 해도 되냐고 물어보는 우리 아들.


아이 앞에서는 정말 조심 또 조심해야겠다.

이전 09화 극단적이 되어가는 아이와 인공지능
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari