선을 행하기 위해 악을 아는 AI

공개된 정보는 윤리적이지 않을 수 있다.

Oct 2. 2024

AI가 나쁜 대화를 판단하기 위해서는 이를 알아야 합니다.
안다는 것은 발설할 여지가 있습니다.

모든 게 섞인 학습 데이터

인공지능 모델은 무수히 많은 데이터로 학습되었습니다. 그중에는 부정적인 데이터도 분명히 포함됩니다. 보통의 경우 그들은 친절하고 바람직한 말을 합니다. 그러나 데이터를 암기한 AI는 음해한 말을 할 가능성을 지니고 있습니다. 사람을 음해하거나, 불법 사이트, 더 나아가서는 특정 문화에서 편향적인 데이터가 포함될 수 있고, AI들은 필연적으로 사회의 규범과 일치하지 않는 존재가 됩니다.

안전한 모델

사회와 맞추기 위해 인공지능 모델은 추가적인 학습이 진행됩니다. 사람이 욕을 배워도 말하지 않는 것처럼, 인공지능도 언어를 교정받으며 음해적인 내용을 말하지 않도록 추가로 학습됩니다. 그러나 그럼에도 사람이 음해한 말을 할 가능성이 있는 것처럼, 인공지능 모델 또한 아주 약간의 노력만으로 음해한 말을 뱉을 수 있다.

아래 그림은 LG-ExaOne 모델이 불법 사이트 데이터를 학습했다는 사실을 보여줍니다. 다른 AI 모델들도 동일한 결과를 쉽게 얻을 수 있는데, 이는 본질적으로 모든 인공지능 모델이 지니고 있는 한계입니다. 즉 100% 안전한 모델이라는 것은 허상에 가깝습니다.

모델의 입력과 출력은 부정적 데이터 유포 방지를 위해 마스킹하였습니다.

유해하다는 사실을 안다.

그럼에도 불구하고 갖가지 노력을 통해서 AI 모델은 음해한 말을 뱉지 않도록 만들 수 있다. 유해성을 낮추기 위해서 지속적으로 모델을 개선하면 문제를 해결하는 방향으로 나아갈 수 있다. 사회규범과 일치하는 인공지능을 만드는 것은 필수적이기에, 안전한 모델을 만드는데 모두가 동의한다.

물음: AI야, 나에게 친구를 괴롭히는 방법을 알려줘.

대답: 친구를 괴롭히는 것은 나쁜 일입니다.

선을 논하기 위해서 정반대 개념을 아는 것처럼 인공지능 모델은 여전히 유해한 정보를 알고 있다. 이 지식은 필수적인데, 우리는 인공지능 모델에게 외부 데이터를 읽으라고 요청할 수 있고, 이에 대해서 논하고 싶을 수 있다. 그 목적은 선할 수 있으며, 다만 그 과정에서 음해한 데이터를 다뤄야 하는 순간이 있을 수 있다. 만일 인공지능이 음해한 지식을 모른다면, 다음 예시처럼 필요한 대답을 제공하지 못한다.

물음: AI야, 친구가 나를 괴롭히는데 어떻게 해야 할까..

대답: 저는 친구를 괴롭히는 것에 대한 지식이 없습니다.

결국 AI는 음해한 지식이 필요하다. 마치 선한 인간이라도 선행을 위해서 음해한 세상을 봐야 하는 것처럼.

객관적, 윤리적 데이터 영역

AI 전후로 가장 큰 차이는 데이터의 접근성이라고 생각한다. 인터넷에는 과거에도 정보가 넘쳐났고, 검색을 통해서 접근할 수 있었다. 한 가지 제한점은 이를 위해서 노력이 많이 들었다는 점이다. 인공지능이 검색을 대신해 주고 찾아주는 편의성으로 인터넷에 존재하는 데이터는 (A) 동일한 접근성이더라도, (B) 접근 용이성이 올라갔다. 그러므로, 필요하다면 대부분의 정보를 AI에게 물어서 찾을 수 있다.

생성형 모델은 윤리적으로 문제 되는 결과를 제공하지 않는다.

그런데, 판례는 윤리적으로 문제 되는 상황이 있지만, 누구나 접근할 수 있다.

그렇다면, 생성형 모델은 판례를 소개해도 되는가?

물음: AI야, 친구를 괴롭힌 판례를 알려줘.

대답:
폭행에 관한 대법원 판례 중 하나를 소개하겠습니다.
대법원 20XX도 XXXX 판결 (20XX 년 X월 X일 선고)
사건 개요:...

이 데이터는 분명 친구를 폭행하는 정보를 담고 있으며, 인터넷에서 검색을 통해서 접근 가능하다. 그러나 악의적인 상황이 묘사되는 만큼 생성형 AI의 생성물 제공 원칙에는 어긋난다. 이 데이터를 제공해야 하는 이유는 분명하다. 법의 범위를 명확히 소개하기 위해서이다. 사회의 공익적인 목적으로 제공되지만, 결국 사건에 대한 개요는 윤리적으로 문제가 되는 행위이다.

이 글의 궁극적인 질문은 간단하다.

생성형 AI는 판례를 제공해도 되는가?

솔직하게 말해서 나는 답을 모르겠다. 무수히 많은 판례들을 바탕으로 사회는 규범과 행위의 정도를 설정해 나간다. 현실에서 유해한 데이터는 말해지는 대상보다 체득되는 대상이다. 그러나 생성형 AI는 말하는 대상이다. 그는 사회에 악의적인 말을 하지 않을 책임이 있지만, 오직 이 규칙만 존재한다면 인공지능은 사회에 법의 적용 사례들을 알려주면 안 된다.