AI는 잘할 수 있는 것도 많지만 여전히 한계도 있다. AI로 이런 것도 할 수 있고 저런 것도 할 수 있다는 메시지가 넘쳐나지만 개중에는 AI로 하기 힘든데, 할 수 있다고 부풀리는 경우들도 있다.
저넬 셰인이 쓴 좀 이상하지만 재미있는 녀석들에 따르면 AI로 이런 것도 할 수 있고 저런 것도 할 수 있다는 메시지를 평가할 때 던지면 좋은 몇 가지 질문들이 있다.
우선은 문제가 얼마나 광범위한가? 이다.
AI는 아주 좁고 정확하게 정의된 문제를 잘 해결한다. 체스나 바둑을 두는 것은 AI가 해결하기에 충분히 좁은 과제다. 특정한 종류의 이미지를 인식하는 것, 그러니까 사진에 인간의 얼굴이 있는지 없는지를 식별하거나 건강한 세포와 질병을 구분하는 것도 아마 AI가 해낼 만한 일일 것이다.
도시의 거리나 인간의 대화에서 벌어지는 그 모든 예측 불가능한 상황에 대처하는 것은 아마도 AI가 도달 가능한 범위를 넘어설 것이다. AI가 시도한다면 많은 경우에 성공할 수 있을지 몰라도 언제나 결함이 있을 것이다.
물론 그 경계에 있는 문제들도 있다. 의료용 이미지를 꽤나 잘 분류하는 AI도 정작 기린 사진을 보면 당황할 것이다. 인간이라고 속일 수 있는 AI 챗봇은 논리적이지 못한 결론을 내리거나 대다수 화제를 제대로 처리하지 못할 경우에 대비해 핑겟거리까지 준비해 둔다.
다음은 훈련용 데이터는 어디에서 얻었는가? 다.
종종 자신이 직접 써놓고는 AI가 작성한 이야기라고 자랑하는 사람들이 있다. 여러분이 2018년 트위터에서 유행했던 농담을 기억할지 모르겠다. 이것은 식당 체인점 올리브 가든 광고를 수천 시간 시청한 후 새로운 광고 대본을 생성하게 된 봇에 관한 농담이었다. 이 농담의 작자가 인간이라는 한 가지 힌트는 AI가 학습한 출처에 대한 설명과 AI가 만들어낸 결과물이 서로 일치하지 않는다는 점이다.
AI에게 영상을 학습하라고 보여줬다면 AI의 아웃풋은 영상이 될 것이다. 해당 AI가 지문이 들어간 무대 대본을 만들 수는 없다. 또 다른 AI나 인간이 있어서 영상이 다시 대본으로 바꿔주는 게 아닌 이상 해당 AI에게 모방해야 할 사례들이나 극대화해야 할 적합도 함수가 있었는가? 그렇지 않다면 당신이 무엇을 보고 있든 아마도 AI가 만든 것을 아닐 것이다.
해당 문제가 높은 기억력을 요구하는가? 도 있다.
AI는 한꺼번에 많은 것을 기억할 필요가 없을 때 가장 잘 작동한다는 점을 기억할 것이다. 많은 사람들이 이 문제를 개선하기 계속해서 노력하는 중이지만 지금으로서 기억의 부재는 그 결과물이 AI가 개입했다는 한 가지 신호다. AI가 작성한 이야기는 두서 없고 앞서 나온 플롯을 이어가는 걸 잊어 버리고 심지어 가끔은 문장을 끝내는 것도 잊어버릴 것이다.
복잡한 비디오 게임을 하는 AI들은 장기 전략을 세우는데 애를 먹는다. 대화를 멈췄던 AI는 앞서 내가 준 정보를 잊어버릴 것이다. 앞에서 이야기한 농담을 다시 언급할 수 있는 AI, 일관된 캐릭터를 유지할 수 있는 AI, 방에 있는 물체가 무엇이었는지 기억할 수 있는 AI는 적어도 그 편집 과정에서 인간의 도움을 많이 받았을 것이다.
인간의 편견을 모방만 하고 있는가? 라는 관점에서 볼 필요도 있다.
사람들이 정말로 어떤 AI를 사용해 문제를 해결한다고 해도 그 AI를 만든 프로그래머가 주장하는 것 만큼 많은 일을 한 것은 아닐 수도 있다. 예를 들어 어느 회사가 입사 지원자의 소셜 미디어를 뒤져서 신뢰할 수 있는 사람인지 아닌지를 판단해 주는 새로운 AI를 개발했다고 주장한다면 즉시 머릿속에 빨간불을 켜야 한다.
그런 작업에는 인간 수준의 언어 능력과 문화 코드나 농담, 비아냥거림, 최근 사건에 대한 언급, 문화적 감수성 등을 처리할 수 있는 능력이 필요하다. 다시 말해 그런 일은 범용 AI나 할 수 있는 과제다. 그런데도 해당 AI가 입사 지원자 각각의 점수를 계속 알려준다면 그 AI는 대체 무엇에 기초해서 그런 결정을 내린 걸까?
입사 지원자를 걸러주는 AI에도 비슷한 문제가 있을지 모른다. 여성 지원자들에게 패널티를 주는 법을 학습했던 아마존의 이력서 검토 AI처럼 말이다. AI를 이용해 이용자 검토 서비스를 제공하는 기업들은 AI의 도입 이후에 채용의 다양성이 월등히 높아진 고객사들을 언급한다. 그러나 면밀한 테스트 없이 그 이유가 무엇인지 알기 어렵다.
채용의 다양성은 AI를 이용한 지원자 검토기가 지원자를 단순히 무작위로 추천하더라도 높아질 수 있다. 그 무작위 추천 내용이 전형적인 기업 채용의 인종 및 젠도 편견보다 훌륭하기만 하다면 말이다. AI가 영상을 보고 있는데 지원자의 얼굴에 흉터가 있거나 부분 마비가 있다면 혹은 표정이 서구인이나 비장애인과 다른 사람이라면 AI는 어떻게 반응할까?