Data is all you have
플랫폼(Platform), 데이터(Data), 인공지능(Artificial Intelligence)
디지털 시대에 당신이 가진 것은?
"나는 처세술 대신 데이터 분석을 택했다." 中
안녕하세요. "나는 처세술 대신 데이터 분석을 택했다."의 저자 정경문입니다.
어제문자 한 통을 받았습니다. 바로 아래와 챗GPT에 관한 최신 금융사기 발생 알림이었요.
전 세계가 챗GPT, 인공지능(AI)으로 얼마나 뜨거우면 이런 피싱까지 등장했을까요?
도대체 챗GPT가 무엇인데 이토록 인류가 열광하는 것일까요. 우선 챗GPT로 대표되는 인공지능(AI)이 우리에게 어떤 느낌으로 다가올까에 대해 이야기해 볼게요. 사람들이 가장 많이 하는 이야기는 바로 "인공지능은 인간을 대체할 수 있는가?"입니다. 보다 구체적으로 "나를 대체할 수 있는가?" 이죠. 이것은 궁금증, 호기심을 넘어 두려움으로 작용합니다.
두려움
인류 진화상 느끼게 된 최초의 감정
혹시, 뇌에서 공포 그러니까 두려움을 느끼는 부위가 어딘 줄 아시나요?
바로 여기 편도체(AMYGDALA, 아미그달라) 주변이에요. 진화 심리학에서는 이곳을 '파충류의 뇌'라고 해서 가장 원시적인 영역을 말해요. 태초부터 인간이 공포를 느끼는 것은 '생존'을 위해서였잖아요. 다시 말해 공포는 인류가 가장 먼저 느낀 감정이며, 가장 원초적인 감정이라는 것을 의미합니다.
인간은 인공지능에 대해 생존을 위협받는다는 두려움이 생긴 것입니다.
혹시 "스카이 캐슬(2018, JTBC)"이라는 드라마 기억나세요?
몇 년 동안 가장 재밌게 본 드라마를 손에 꼽는다면 꼭 들어갈 드라마죠. 그 드라마에서 차민혁이라는 로스쿨 교수 아빠가 아끼는 물건 '피라미드'가 인상 깊었어요.
앞서 말씀드린 것처럼 인공지능을 보면서 우리의 뇌리에 스치는 첫 번째 생각은 이거예요. 인간이 인공지능에게 지배당하는 거 아니야?
인간은 피라미드 꼭대기에 있을 수 있을까?
지피지기면 백전백승이라는 말처럼, "인공지능에 대한 이해 없이는 인공지능을 이길 수 없다."는 동의하시죠? 그러면 인공지능에 대한 이해를 아주 조금 깊게 해 보기로 합니다. 어렵게 안 할게요! 약속해요.
우선 인공지능 이 친구를 알려면, 크게 3가지를 이해해야 해요. 데이터(Data), 알고리즘(Algorithm), 그리고 미세조정(Fine Tunning)입니다.
좋든 싫든 우리 부모님도 공부, 우리도 부모가 된 다음부터 공부타령이니, 공부에 비유해 볼까요?
뭐든지 다 아는 똑똑한 챗 GPT의 비밀은
3가지입니다. 저는 이 3가지를 아까 스카이 캐슬에서 나온 피라미드에 대입해서 설명해 볼까 해요.
첫 번째는 데이터예요. 챗GPT는 뭘로 공부했을까요? 에 대한 이야기를 해볼게요.
인공지능의 피라미드 가장 아래는 데이터가 있습니다. 과거에는 엑셀과 같이 표 형태로 된 데이터만을 데이터라고 했습니다. 하지만 이제는 인터넷상의 글과 그림, 사진, 영상, 논문과 책 등 방대한 데이터가 되었어요.
인터넷과 모바일로 가속화된 데이터의 방대한 양과 다양성이 인공지능에게 그대로 전달된 것이죠.
사람이 무언가를 처음 배울 때 멀티 모달리티를 이용해요. 예를 들어 아이에게 이유식을 먹인다고 가정해 볼게요. 숟가락(시각), 맘마(청각), 냄새(후각), 따뜻함(촉각), 고소함(미각)을 통해 맘마를 인식하거든요.
인공지능이 어려웠던 이유가 과거에는 이것이 글로만 되었는데, 사람처럼 인공지능도 텍스트뿐만 아니라 시각, 청각 등을 이용할 수 있게 되었죠. (CNN, RNN 등 몇 가지 논문 덕에) 이런 것을 멀티 모달이라고 해요. 정확히는 멀티 모달리티(Multi Modality)인데요, 여기서 멀티(Multi)는 '다양한'이라는 말이니까 쉽고, 모달리티(Modality)만 알면 되겠네요. 모달리티는 '형태'라는 뜻이에요. 그러니까 이미지, 언어, 소리 등의 다양한 형태의 데이터를 학습했다 말입니다.
그러면 이런 공부 자료들을 도대체 어떻게 공부한 걸까요?
두 번째는 공부방법이에요. 옆집에는 어떻게 공부했더니 그렇게 똑똑해졌데?
알고리즘이라는 개념을 이해하면 좋아요. 알고리즘은 어떤 문제를 푸는 절차인데요. 데이터를 입력했을 때 어떤 값을 출력하는지를 정의해 놓은 복잡한 수학적 과학적 절차 정도로 이해해 주시면 좋을 것 같아요.
이 절차들은 매우 복잡해서 컴퓨터에게 계산을 시키는데요. 이 절차 둘 중에 가장 챗GPT가 나오도록 만든 역사적인 연구가 여기 있어요.
우리가 시험을 보면 책을 보고 공부하잖아요. 데이터를 머리에 넣는 거죠. 이처럼 수많은 데이터들을 인공지능이 학습을 하는데요. 외울 수도 있고, 계산할 수도 있어요. 때로는 답지를 보고 문제를 공부하기도 하지만(지도 학습, Supervised Learning) 그냥 어떤 문제들이 나오는지 유형을 파악하기 위해서 문제를 쭉 훑어보기(Unsupervised Learning)도 해요.
1) 트랜스포머(Transformer)
네, 여러분들이 생각하시는 그 영화 아닙니다. 마이클 베이 감독의 트랜스 포머 옵티머스 프라임 이런 거 아니고요. 구글이 발표한 인공지능이 언어를 처리하는 절차에 관한 알고리즘입니다.
인공지능이 세상에 처음 등장하고 나서부터 다양한 논문들이 쏟아져 나왔어요.
그중에 인간의 언어(자연어라고 합니다.)를 학습하는 방법에 관해 나온 중요한 알고리즘 논문이 바로 트랜스포머(Transformer, 2017 google)입니다.
나 짜장면 먹고 싶어. 그럼 우리 ㅁㅁㅁ 갈까? 에서
난 짜장면, 그럼 난 매운 게 좋으니까 ㅁㅁ
논문의 제목은 Attention is all you need인데요. 쿼리(Q), 키(K), 값(Value) 3가지 값을 계산해서 다른 단어와의 관계를 계산하는 방식이에요. 쉽게 말해서 뒤에 오는 단어를 찾는 거예요.(이건 좀 복잡하니 잊으셔도 돼요)
짜장_과 짬_
이런 방식으로 방대한 양의 데이터를 학습하면 어떤 단어 또는 단어들 다음에 올 단어를 예측할 할 수 있어요.
예를 들면 짜장면 뒤에 올 단어는 "짜장_"에서 짜장 뒤에는 '면'이라는 글자가 올 확률은 60%, 밥이 올 확률은 40%, 이런 식이죠. 그리고 '짬' 뒤에는 '뽕'이라는 단어가 오는 거죠.
2) 자율학습(Self-supervised Learning)
근데 앞서 짜장_, 짬_ 말고도 다양한 메뉴판도 있고, 대화형식에서 "사장님 여기 짜장면 2개, 짬뽕 2개, 짜장밥 1개 주세요." 등을 학습하다 보면 짜장 뒤에 글자를 알려주지 않아도 계속 학습해 나갈 수 있습니다. 이것을 정답이 없이 학습한다고 해서 자기 지도 학습 또는 자율 학습이라고 표현하는 거죠.
결국 스스로 학습법을 터득한 챗GPT 너는 엄친아 맞는구나~!
난 답안지 보고 풀었는데, 확실히 나보다 나은 이유가 다 있었구나.
마지막 세 번째는 벼락치기예요.
평상시에 공부를 해서 사전지식을 쭈욱 쌓아놓았잖아요. 근데 시험문제에 익숙해지려면 시험 전에 문제를 많이 풀어봐야 해요. 그리고 각 분야 최고의 과외선생님들이 지도를 해주는 거예요. 얘는 이래서 정답이고, 얘는 네가 왜 틀렸고, 어느 부분이 틀렸다고 말이죠.
이렇게 풀었더니 90점이고 이렇게 풀었더니 91점이다. 다시 아까 했던 답에서 이 문장을 이 단어를 바꿨더니 95점이다. 이렇게 계속 점수를 높일 때마다 용돈을 더 주는 거예요. 현실적으로 사춘기 아이가 이렇게 따라와 주면 얼마나 좋을까요?
각 분야의 전문가들이 다시 한번 인공지능의 대답을 고쳐주고 정답지를 만들어줘서 공부하게 합니다.
그리고 최종 정답을 맞히면 보상을 주고, 이상한 답을 내면 감점을 해서 스스로 점수가 높도록 게임을 계속해나가다 보면 똑똑한 인공지능이 되는 원리입니다.
관리해 주는 선생님도, 문제집도 저와는 많이 다르네요. 그러니까 그렇게 공부를 잘하지! 나도 그 정도 집안에서 태어났으면! (더 놀고먹었을지 몰라...)
첫 번째 질문에 대한 답변은 가장 처음 말씀드린 디지털 시대의 세 가지 생산요소로 돌아가 끝마칠까 합니다.
20세기에는 토지, 자본, 노동이 3대 생산 요소였습니다. 농업에서는 농작물을 재배할 수 있는 토지가 필요했고, 그 위에 자본을 들여 씨를 뿌리고 노동력을 투입해서 재배하고 수확했습니다. 또 제조업도 마찬가지이죠. 공장과 생산설비를 지을 토지가 필요하고, 공사비와 재료비 등이 필요합니다. 그리고 그 공장에서 일할 근로자가 필요해요.
하지만 오늘날에는 이야기가 좀 달라졌습니다. 구글과 마이크로소프트가 인공지능을 앞세워 얻고자 하는 것은 무엇일까요? 그것은 바로 플랫폼, 데이터, 인공지능입니다.
플랫폼(Platform), 데이터(Data), 인공지능(Artificial Intelligence)
구글과 마이크로소프트가 플랫폼의 지위를 유지하고자 하는 이유는 다음과 같습니다.
1. 기업의 서비스를 많은 사람들이 사용한다.
2. 데이터가 많아진다.
3. 인공지능의 학습 양이 많아진다.
4. 인공지능이 더 똑똑해진다.
→ 다시 1. 더 많은 사람들이 사용한다.
이렇게 보니 피라미드가 아니라 둥근 데이터의 선순환이 생겼네요.
세상이 왜 피라미드야.
지구는 둥근데 왜 피라미드냐고!
혹시 오늘도 은행마다, 카드사마다 문자로 유혹하는 마이데이터 커피쿠폰을 다시 생각해 보게 됩니다.
다음질문에서는 데이터가 얼마나 중요한지 그리고 인공지능이 어떤 일을 얼마나 대체할 수 있을지에 대한 답해보는 시간을 갖도록 하겠습니다.
4월 출연예정인 전문가 인터뷰 채널의 원고의 일부입니다. 감사합니다.