brunch

You can make anything
by writing

C.S.Lewis

by 낭만공돌이 Nov 25. 2022

AI가 잘하는 일, AI가 못하는 일

Generative AI가 뜨는 이유

 결과에 대한 인자를 역으로 추정하는 Back Propagation 알고리즘이 한 단계 점프하면서 딥러닝 기반 AI 분야는 지난 10년간 빅뱅이라 불릴 만큼 많은 발전이 일어났다. 많은 제품들이 상용화되었고 학계에서도 새로운 논문이 쏟아졌다. 한 편으로는 쉽게 기대했던 일들이 아직도 답보 상태이거나 막다른 길을 만난 경우도 있다.


 AI는 어떤 일을 잘 해낼까? AI가 일을 잘 해낸다는 것은 실용적 관점에서 사람을 고용하는 것보다 적은 비용으로 목적을 더 잘 달성해내는 대리인(agent) 인가로 생각해볼 수 있을 것이다. 10년간의 시도를 종합해보면 AI가 잘하는 일은 네 가지 관점에서 정리해볼 수 있다.


1. 결과 값(Output)이 그리드(Grid)에 잘 대응되는 형태인가?

 그리드는 공간적으로는 채울 수 있는 빈칸들을 의미한다. 이미지 파일은 애초에 가로 N 칸과 세로 M 칸 그리고 각 칸마다 색깔 정보를 저장해둔 파일이기 때문에 대표적으로 그리드에 잘 대응되는 결과 값이다. 물론 텍스트 데이터도 그리드의 각 칸에 글자를 채우는 것으로 생각해볼 수 있다. 하지만 이미지는 이웃 칸들 간 수치적 상관관계가 높아 세밀한 맥락을 가지고 있고, 텍스트는 비교적 수치적 상관관계가 떨어져 투박한 맥락을 가진다. 그래서 이미지 형태의 결과 값이 그리드에 더 잘 대응된다 판단할 수 있다. 

 예를 들어 분홍색으로 칠해진 칸의 바로 옆 칸은 조금 더 밝거나 조금 더 어두운 분홍색일 가능성이 제일 크다. 조금 더 밝은 분홍색과 조금 더 어두운 분홍색도 원래 분홍색과 아주 가까운 색상 수치(RGB)를 가진다. 하지만 텍스트는 '각'이라는 글자가 '간'이라는 글자와 가까운 수치를 가지더라도 각 옆에 간이 나올 확률은 그렇게 높지 않다. 그래서 AI는 텍스트를 이해하여 번역하는 것보다는 저화질 영상을 고화질로 개선하여 보여주는 업스케일링(Upscaling)이나 흑백 영상을 채색하는 것을 더 잘한다.

 시간적으로는 동기적(synchronous)인 것은 비동기적(asynchronous)인 것에 비해 그리드에 더 잘 대응될 가능성이 크다. 대표적으로 야구는 동기적인 스포츠라서 그리드에 대응되는 데이터를 뽑아내기 좋다. 각 타석에서 일어난 정보는 그다음 타석에서 일어나는 정보와 맥락적으로 연속적이다. 그에 비해 축구는 결과와 무관한 너무 많은 상태를 가지므로 데이터를 추출하여 맥락을 가진 그리드에 대응시키기 더 어렵다. 그래서 교체 시점과 선수를 고르는 역할을 맡은 AI는 축구 경기보다 야구 경기에서 더 잘 해낼 가능성이 크다.


2. 입력 값(Input) 데이터가 얼마나 종적인가?

 AI는 상황을 파악하는데 필요한 요소는 적고 상황은 많이 반복될수록, 즉 데이터가 종적일수록 잘 처리해낸다. 아예 AI가 예시 상황을 반복적으로 만들어 입력값을 스스로 창출하면서 자신을 강화해가는 학습을 할 수 있으면 더욱 잘한다.

 예를 들어 바둑이나 체스 혹은 스타크래프트 같은 게임의 경우 조작의 범위는 정해져 있지만 스스로 양쪽을 플레이하면서 무한히 많은 경기를 시뮬레이션해볼 수 있기 때문에 AI가 아주 잘할 수 있는 일이다. 주식과 부동산 가격은 두 가지 모두 영향을 미치는 요소가 거의 무한하지만 그럼에도 주식은 시간에 따른 거래 수에서 부동산을 압도하고, 반대로 부동산은 모든 거래대상 부동산이 다 조금씩 다르다는 면에서 주식보다 파악해야 할 요소가 많으므로 부동산보다는 주식 트레이드에서 AI가 더 좋은 성과를 낼 가능성이 높다.

   

3. 결과 값(Output)은 얼마나 정확해야 하는가?

 인공신경망을 바탕으로 한 AI는 특정한 사례에서는 매우 잘 작동하지만 예외적 상황에서는 아예 이상하게 작동하는 과적합(Overfitting) 문제를 필연적으로 일으킨다.

 모든 결과가 반드시 정확해야 하는 분야에서 AI를 활용하는 경우 테스트 상 정확도를 지나치게 높이다가 과적합이 일어나 치명적인 실수를 할 수 있다. 그렇다고 과적합 문제를 피하기 위해 테스트 상 정확도를 낮추면 쓸모가 없어지는 문제에 직면한다. 대표적인 분야 생명과 안전이 걸린 자율주행이나, 오진에 큰 책임이 따르는 의료진단 같은 분야이다.

 반면 요구하는 정확도가 조금 더 낮은 영역으로 가면 AI 활용도는 높아진다. 예를 들어 이메일 스팸 필터는 스팸인지 아닌지 95% 확률로만 맞추어도 사람을 고용하는 것에 비해 효율적인 방법으로 사용자 경험을 개선할 수 있다.

 아예 결과 값의 척도가 주관적인 경우도 있는데 이 경우에는 AI의 활용도가 더욱 커진다. 예를 들어 로봇 팔이 정확한 곳을 짚도록 하기 위해 AI를 사용하는 것은 별다른 이득이 없을지 모르지만, 자연스럽게 움직이는 것처럼 보이게 하는 데에는 AI가 적합할 수 있다. 혹은 그림을 그려내거나 창작을 하는 데에도 결과 값에 대한 평가가 주관적이므로 활용도가 높을 수 있다.


 4. 사람의 피드백(human-in-the-loop)을 지속적으로 반영할 수 있는 구조인가?

 로그인할 때 봇인지 확인하기 위해 이미지를 보고 글자를 입력해야 하는 시스템을 본 적이 있을 것이다. 이런 시스템을 운영하던 회사 중 하나는 보안 확인을 위한 이미지 옆에다가 자신들이 스캔한 문자 이미지를 더해서, 사람들이 입력하는 글자를 통해 스캔된 문자가 어떤 글자인지 파악한 유명한 일화가 있다.

 비슷하게 사용자가 자신도 모르게 AI에 주는 피드백을 수집하고 반영하여 AI의 성능을 개선할 수 있다. OpenAI 사에서 개발한 DALL-E는 텍스트를 입력하면 이미지를 생성해주는 AI이다. 사용자들은 버튼만 누르면 간단하게 마음에 드는 이미지를 다운로드하거나 바리에이션을 만들 수 있고, 마음에 들지 않는 이미지는 삭제할 수 있다. 이런 사용자 활동은 그 자체로 AI에게 피드백을 제공해주어 사람이 느끼기에 더 자연스럽고 좋은 이미지를 생성할 수 있는 근거 데이터를 제공해준다. 그렇게 DALL-E 가 인기를 끌수록 DALL-E는 더 좋은 이미지를 만들어낼 가능성이 크다. 최근 버전이 쭉쭉 올라가고 있는 이유일 것이라 추정한다.




 Generative AI 분야가 크게 주목받고 있다. 상용화된 Generative AI 서비스들은 결과 값이 대체로 그리드에 잘 대응되고, 평가기준이 주관적이라 완전한 정확도를 요구하지 않으며, 사용자가 늘수록 더 많은 피드백 데이터를 끌어낼 수 있다. 따라서 매우 좋은 출발을 하고 있고 좋은 입력 값만 확보한다면 큰 활용도를 기대해 볼 수 있을 것이다.



* 이 글을 작성하는데 도움을 주신 조원익 박사님, 전호웅 원우님께 감사 말씀드립니다.

작가의 이전글 대표의 멘탈관리법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari