기술이 널리고 깔렸는데 왜 나만 안(못) 쓰는 것 같지?
AI가 MS 오피스 도구들, 그러니까 엑셀이나 파워포인트처럼 쓰일 날이 곧 올 거라고들 말한다. 정확한 표현을 하자면 인공지능 기술 기반의 툴 또는 서비스를 그만큼 자유롭게 쓴다는 얘기다. 사실 우리는 이미 너무나도 이러한 기술 서비스를 잘 활용하고 있다. 스스로 찍은 얼굴 사진에 토끼 귀도 씌우고(얼굴 인식 기술), 구글 이메일을 쓸 때 자동으로 완성되는 문구에 대해 tab을 눌러 문장을 끝마치며(자연어처리 기술), 인터넷 쇼핑몰에서 옷을 고를 때에도 알고리즘 추천 상품들을 무심코 눌러보기도 한다(각종 추천 관련 알고리즘 기술). 심지어 몇몇 사람들은 마이데이터까지 활용해 소비패턴과 향후 그려질 지출 그래프까지 미리 확인하기도 한다. 그러니까, AI 기술(기계학습 전반을 다 아우르는 개념이라고 치자)은 우리 삶 곳곳에 녹아있고, 우리는 그것을 뚜렷하게 만지고 있지는 않지만 암묵적으로 다들 잘 쓰고 있다.
그런데, AI라고 하면 여전히 로봇이랑 악수라도 하고 코드 열 줄이라도 짤 줄 알아야 "인공지능 좀 안다" 싶은 분위기가 팽배하다. AI 리터러시라고 해서 그 문해력을 확보했다고 말하려면 어쩐지 ReLU 함수 같은 복잡한 수식에 대해서 장황하게 풀어놓아야 할 것만 같다. 그러니 AI에 대한 벽은 이만큼이나 높아만 가고, 관련 대중 강연은 죄다 라이트한 수준이라 여겨지며, 그리하여 AI란 도무지 무엇인가답답해 하는 사람이 졍말 많다. AI를 공부하고 싶다, 알고 싶다며 책이나 강의를 추천해달라는 이들에게 나는 "프로젝트를 해 봐야 확 늘고 잘 알게 된다"고 말해왔지만, 사실 직장 다니랴 육아하랴 바빠 죽겠는 와중에, 정교하게 꾸려진 데모만 몇 번 따라해보는 것으로는 영 성에 차질 않는다고들 한다. (첨언: 이와중에 (뒤늦게) 찾은 넘블(https://www.numble.it/) 이라는 서비스 모델, 흥미롭다. 사이드프로젝트를 할 사람들을 모으고, 함께 문제를 풀어가는 플랫폼인데 이런 곳에 적극 참여해서 공부하는 것도 아주 많이 도움이 될 듯!)
그래서 요즘 내가 주장하는 것은, 내 주변의 AI 기술 찾기를 해보라는 것이다. 일단 다들 AI가 움직이는 원리에 대해선 대략 안다. 많은 양의 데이터가 있고, 그것을 나름의 수학적 방식을 활용해 학습한 알고리즘이, 그 데이터에서 배운 내용을 토대로 판단을 한다는 것이다. 그러면 세 가지 갈래에서 생각을 확장해볼 수 있다. 먼저 데이터. 데이터는 어떻게 형성되고 모이는 지에 대해 생각해 볼 수 있다. 가령 내가 휴대폰 전원을 하릴없이 껐다, 켰다 하는 것도 데이터로 남는다(나중에 스크린타임이나 수면시간 측정 같은 앱을 확인해 보시라). 검색어가 쿠키/캐시데이터로 남아 다음 검색 내용이나 향후 여타 서비스에서 활용될 수 있도록 데이터로 쌓인 다는 점도 많이 들어보았을 것이다(최근에는 개인정보보호법 등에서 이러한 정보의 무단 수집을 막고 있다). 내가 주로 활용하는 뷰티 앱 필터에 대한 선호도 또한 '유저가 좋아하는 앱'이라는 통계에 반영되도록 모일 수 있다. 스팸 전화를 받았다가 끊은 것(이를테면 ㅎㄱㅇ 선거운동 전화랄지), 만보기처럼 활용하는 스마트워치에 쌓인 내 걸음 수, 인터넷 쇼핑 결제 내역 모두 알고리즘을 위한 먹잇감이 된다. 자, 이 정도 되니 어디에라도 흔적이 남기만 하면, AI가 학습할 수 있는 것이 정말 무궁무진한 것 같다! 현대사회에서 카드도 휴대폰도 안 쓰고 사는 게 그리 쉬운 일은 아니니 말이다. 설령 그렇다 해도, cctv가 곳곳에 깔렸고, 이제는 QR코드 인증 없이 돌아다니는 것도 어려우니 나는 어디엔가 꼭 자국을 남기게 돼 있다.
그 다음은 수학적 방식. 사실 여기에서 미적분에 선형대수를 언급하는 것은 내 주변의 AI 기술 찾기를 되려 어렵게 만드는 벽이 될 수도 있다. 하지만 쉬운 법칙 몇 개만 한 번 생각해보자. 마르코프 체인이라는 게 있는데, 이건 특히 통계적으로 무언가 일이 벌어질 확률 같은 것을 따질 때 주로 쓰인다. 과거에 이런 일이 선행했으면, 그 뒤에 일어날 일은 이럴 것이다 라는 걸 수학적으로 계산하는 것이다. 이는 우리의 구매 패턴이나 시청 패턴 같은 곳에서도 쓰이지만 자연어 처리에서 찰떡같이 쓰인다. '나는 밥을 먹는다'라는 말에서 [먹는다]라는 동사구를 까만 천 같은 걸로 가려두었다고 치자. 여기에 대해 '밥을' 뒤에는 70%의 사람들은 '먹는다'를 쓰고, 20%의 사람들은 '짓는다'를 쓰고, 나머지 10%의 사람들은 '버린다'라고 쓴다고 치자. 여기에 대해 알고리즘은 확률이 가장 높은 '먹는다'를 정답이라고 외치게 되는 것이다.
그러면 '짓는다'가 정답이게끔 만들려면 어떻게 해야할까? 라고 여러분은 사고를 확장할 수 있을 것이다. 그러면 문맥을 다 따져보면 될 것 아닌가. '밥을' 뒤에 '짓는다'가 주로 나오는 여러 문서들을 학습하면 충분히 가능하지 않을까? 요리책, 전래동화, 여성잡지 같은 것을 열심히 학습하고, 나아가 '나는 밥을 짓는다' 뒤에 나오는 문장이 '주걱으로 휘휘 젓는다'일 경우 '밥을' 뒤에는 '짓는다'라는 말이 더 많이 나온다는 것을 알고리즘에게 알려주는 것이다. 앗! 그런데 여기서 맹점이 있다. '밥을 짓는다'의 앞에 나오는 주어가 주로 '여성'이면, 밥을 짓는 사람은 무조건 여성이라는 식으로 편향된 결과를 가져올 수도 있다. 데이터의 성격에 따라, 선후관계나 확률에 의존적인 여러 모형들의 경우 '아차' 싶은 결론을 내릴 수 있다는 점도 깨닫게 될 것이다.
자, 마지막으로 알고리즘의 판단. 알고리즘이 "제가 내린 결론이에요"라고 말하면서 던지는 여러가지 행동들을 볼 수 있다. 포털 사이트들은 꽤나 친절하게 "네이버 알고리즘이 추천한 결과입니다"라고 위에 기록을 해둔다. 요즘은 인공지능의 설명가능성(explainable AI)을 강조하는 경향이 높아서 알고리즘이 현재 이용자에게 어떤 식으로 작동하고 있는지, 협업을 하기 위해선 AI의 판단 근거를 제시한다던지 하는 식의 설명을최대한 내어 놓는 편이다. 그러나, 위에서도 말한 것처럼 티나지 않게 우리도 모르는 사이 내주변을 잠식한 AI의 활동 결과도 꽤 많은 편이다. 그러니 뭔가 의심스런 사례 - 이를테면 인스타그램에서 내보내는 광고 - 가 보이면 이게 어떤 데이터를 학습했을지, 어떤 선후관계나 패턴을 학습했을지 한 번쯤 고민해보는 것이 좋다. 퀴즈를 풀듯, 거꾸로 거슬러 올라가보는 것이다.
숨은 그림을 찾듯, 숨은 AI를 찾다보면 우리는 어느새 AI를 잘 써먹는 사람이 돼 있을 수 있다. 넷플릭스 알고리즘의 학습 패턴을 호다닥 익힌 사람들이, 19세 미만 관람불가 콘텐츠를 본 뒤에 얼른 '시청기록 삭제하기'를 누르거나, 유튜브의 추천 알고리즘에게 혼선을 가져다주기 위해 콘텐츠를 마구 섞어 보거나 하는 적극적인 이용을 하듯 말이다. 차츰차츰 구글 스프레드시트에서 자연어 분석을 하는 방법을 보면, 아, 이런 기반으로 구글이 데이터를 수집해 명사만 골라 수를 세어주는 알고리즘을 만들었겠구나, 싶은 이해가 가능해질 것이다. 원리는 어려울 수 있지만, 사용례만 봐도 우리는 AI를 꽤 잘 알고 있으니 말이다.