brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Apr 19. 2022

06 데이터 분석보다는 활용

알파고 VS. 이세돌


2016년 3월, 대한민국 뿐만 아니라 세계를 떠들썩하게 만든 대결이 있었습니다. 바로 구글이 만든 인공지능 알파고(딥마인드)와 이세돌의 바둑대결입니다. 알파고는 고성능 컴퓨터 1200대 이상으로 만들어진 슈퍼 컴퓨터입니다. 그리고 머신러닝이라는 방법을 통해 바둑의 기보(바둑돌을 내려놓는 순서의 기록)를 학습한 인공지능이 들어가 있습니다.


바둑의 모든 경우의 수는 가로 19줄 X 로 19줄 = 361개 이고 경우의 수를 계산하면 2 X 10^170(제곱)으로 어마어마하게 큰 수입니다. 제 아무리 알파고라고 해도 이 경우의 수를 모두 계산하는 데는 천문학적인 시간이 걸립니다.(10^726 제곱 억년 이상)


알파고는 이러한 경우의 수를 모두 계산한 것이 아니라, 기존에 잘 알려진 대국의 데이터(기보)를 공부한 것이죠. 그리고 바둑의 고수들이 어디에 많이 놓는지, 어디에 놓았을 때 이길 확률이 얼마인지를 계산하여 최적의 수를 찾는 방식을 택했습니다. 바로 수학(통계)과 데이터 분석입니다.


바로 이때부터 였습니다. 4차 산업혁명 시대가 재조명되고 사람들은 인공지능의 존재에 대해 인식하기 시작합니다. 그리고 대한민국에는 코딩 교육의 열풍이 시작되었습니다.


출처 : http://www.ohmynews.com/NWS_Web/Event/20th/at_pg.aspx?CNTN_CD=A0002613163



# 하나. 대한민국, 코딩 교육의 열풍이 불다.


이제 동네 학원가를 지나가다 보면 어김없이 코딩 학원이 보입니다. 초등학교 교과과정부터 코딩 교육이 포함될 만큼 그 파급속도가 급격합니다. 학부모들 사이에서는 조기교육이 중요하다면서 영어 유치원에 추가로 코딩 학원까지 아이들의 스케줄에 넣고 있죠. 강습비도 주 1회에 30만 원에서 100만 원까지 하는 곳도 있습니다.


네이버 지도에서 코딩 학원을 검색하면 어렵지 않게 찾을 수 있다.


기억하실지 모르겠지만 이러한 분위기는 매우 낯익은 광경입니다.

마치 1990~2000년대 글로벌화다 뭐다 해서 영어를 대하는 우리의 태도가 생각납니다. 많은 가족들이 영어를 배우기 위해 해외로 유학을 떠났고 그 바람에 "기러기 아빠"라는 신조어가 생겨날 정도였으니까요. 한창 유행을 하던 영어는 이제 어느 정도 거품이 걷혔습니다.


그런데 잘 생각해보면 영어만 잘한다고 되는 것은 없었던 것 같습니다. 영어는 나의 재능을 표현하는 수단(언어) 일 뿐이지 그 이상은 아니었습니다. 예를 들어 내가 미술을 잘한다면 나의 그림을 영어로 표현할 수 있어야 세계적인 무대에 설 수 있다는 것이고, 명확한 사업 아이템이 있어야 영어로 비즈니스를 할 것이었습니다.

중요한 것은 빨대가 아니라 컵 안에 든 음료였습니다.


우리가 코딩 교육을 대하는 자세에서 핵심을 놓치고 있지는 않나 다시 한번 생각해 볼 문제입니다. 몇 해 , SBS 스페셜에서 우리나라 코딩 교육에 대해 아주 기막힌 영상을 제작했습니다.  이 영상은 사실 '샌드위치 코딩'이라는 미국 프로그래머 아빠의 영상을 리메이크한 것입니다. 어린 자녀의 컴퓨터 코딩 교육을 염두에 두고 계시다면 본 영상을 적극 추천드립니다.

https://youtu.be/DGhKIB6 DpSM

출처 : [SBS 스페셜] “내 아이가 살아갈 로봇 세상” 세 아들의 코딩 교육


영상에서 볼 수 있듯이, 컴퓨터는 미리 여진 논리 흐름에 따라 들어온 입력(데이터)을 처리합니다. 우리가 봤을 때 바보 같은 행동, 또는 의도하지 않은 행동을 할 수 있는 것은 컴퓨터에게 정확히 일을 시키지 못한 우리의 잘못이 큽니다. "정확히 일을 시킨다"는 "내가 풀고자 하는 문제의 목표가 명확하다"는 것을 의미합니다.


그리고 컴퓨터에게 무엇(입력 데이터)을 주어야 하는지를 알고 있어야 합니다. 컴퓨터는 스스로 데이터를 걸러 듣거나 유추할 수는 없습니다. 그런 의미에서 지난 시간에 배운 Garbage In Garbage Out의 의미가 적용됩니다.



# 둘. 과거에는 데이터 분석 툴이 없었나?

R과   파이썬 넌 누구니? R 파이썬에   대한 과도한 집착


제가 어릴 적에는 퍼스널 컴퓨터(PC)가 처음 나왔습니다. 그리고 지금의 코딩 학원처럼 동네마다 컴퓨터 학원이 하나둘씩 생겨나기 시작했습니다. 그리고 Basic Dos라는 운영체제를 통해 컴퓨터에게 순서대로 일을 시키는 프로그래밍의 기초를 배웠던 기억이 납니다.


프로그래밍 언어는 PC가 개발되고 역사와 함께 계속 진화하고 바뀌어 왔습니다.

1950년대 포트란이라는 언어에서부터 1970년대 C언어와 파스칼, 그리고 1980년대 C++ 이 등장했습니다. 그리고 오늘날에는 파이썬(Python), 자바(Java), 씨샵(C#)이 한 시대를 아우르고 있습니다.


4차 산업혁명이 화두로 떠오르면서 기업에서는 가장 먼저 했던 것이 있습니다. 바로 너도 나도 "데이터 분석 방법론"을 교육시키는 것이었습니다. 기업 강연, 대학교, 대학원, 협회와 정부에서까지 그야말로 교육이 풍년이었습니다. 그리고 그 방법론과 함께 분석 툴에 대한 실습이 있었습니다.


2015년부터 "R"  데이터 분석 툴부터 시작해서 요즘은 "Python"이 대세입니다.

프로그래밍 언어 사용 순위를 분석한 결과, 2019년부터 python이 월등히 1위를 차지하고 있습니다.

그에 반해 R은 그 점유율이 2019년 4%에서 2022년에는 10위 밖으로 밀려났습니다.

실제 데이터 분석 업계에서도 그 확장성 때문에 R보다는 python을 사용하는 분석가들이 대부분입니다.

TIOBE Index for April 2022


앞서 제가 프로그래밍 "언어"라고 했습니다. Language(언어) 그러니까  영어, 한국어, 중국어와 같이 데이터 분석 프로그래밍 언어 또한 "언어"입니다. 그래서 우리가 2000년대 영어를 대하던 그 사교육의 상황과 정확히 일치합니다. 영어가 글로벌화를 위해 우리의 훌륭한 문화와 제품을 세계에 알릴 수단(Method)과 툴(Tool)로서의 언어였다면, 마찬가지로 R과 Python 또한 우리 콘텐츠와 서비스를 효과적으로 만들어줄 수단과 툴로서의 언어입니다.


과거에도 데이터 분석을 위한 언어는 얼마든지 있었습니다.

사람들은 통계라고 하면 관심이 없지만, 머신러닝/인공지능이라고 하면 구름처럼 모여드는 상황입니다.

심지어 현업에서는 간단한 선형 모델(Y = aX +b 형태)로 풀 수 있는 문제를 반드시 "딥러닝"을 써서 풀어달라고 요구하는 고객들이 있을 정도입니다.

original comic by sandserif


 Fotran, C+과 C#을 거쳐 이제는 R이 짧은 흥망성쇠를 거치고 이제는 Python이 자리를 차지했을 뿐입니다. 그 시대의 언어는 계속해서 바뀌고 있기 때문에 지금 python이 앞으로 영원하라는 법도 없습니다.


데이터 분석 언어들을 지금 배운다 한들 그 언어가 10년 뒤 20년 뒤에도 계속 살아 있으리라는 법이 없습니다. 그래서 우리는 언어와 방법론이 아닌 "컴퓨터 관점에서 어떻게 문제를 해결할 것인가?"에 대한 논리적 사고력을 길러야 합니다.



# 셋. 데이터 안에는 답이 없다.


다시 한번 강조하지만, 정말 중요한 것은 분석 방법론과 분석 툴(프로그래밍 언어)이 아닙니다.

'방법론' 그리고 '툴'은 우리가 해결하기를 원하는 문제를 풀기 위한 "수단(Method)"에 불과합니다.


단순히 데이터를 보는 방식이나 분석 방법론과 프로 래밍 언어만 가지고는 객관적인 문제 해결에 도움이 되지 않습니다. 실제로 꼭 필요한 것은 눈앞에 있는 수단에 의존하지 않고 스스로 목적과 문제를 정의해 필요한 데이터나 분석의 문제를 얼마나 넓은 시야로 디자인할 수 있는가?입니다.


여기서 말하는 디자인이란
1. 목적과 문제를 정의하는 것
2. 문제를 풀기 위해 필요한 데이터를 설정하는 것
3. 그리고 그 데이터를 어떻게 분석해야 하는지를 생각하는 능력입니다.


무작정 데이터 분석부터 하는 것은 위험하다


다음은 실제로 현업에서 일어나는 일들입니다.

무작정 쌓은 데이터를 가지고 어떤 문제든 풀어보라고 지시하는 경우가 있습니다.


"김 과장, 우리 부서(회사)에 방대한 양의 빅데이터가 있어. 뭐가 나올지 모르지만 이것을 활용해서 성과물을 가져와봐"라고 지시하는 경우가 대부분입니다.


데이터에서 문제를 찾아보라는 식의 접근 방법입니다.

하지만 데이터가 중심이 되면 사고나 시야가 좁아질 수밖에 없습니다.

그리고 무엇보다 모든 문제를 데이터로 풀어야 하는 것도 아니고, 모두 데이터로 풀 수 있는 것은 아닙니다.


아까 팀장의 지시로 돌아가 보겠습니다. 김 과장은 팀장의 지시에 따라 데이터 A를 분석하다가 인사이트를 발견했습니다. 그래서 그것에 기초해 데이터 B를 분석했습니다. 그리고 그 결과 데이터 C가 필요해서 접근하게 됩니다. 이러한 방식은 처음부터 시작된 데이터 A의 굴레를 벗어나기 어렵습니다. 따라서 결론도 데이터 A와 관련이 있는 답이 나옵니다. 하지만 이것이 '가장 적합한 답'인지는 알 수 없습니다.


그렇다면 어떻게 문제에 접근해야 할까요? 그 답은 컴퓨터 사고력(Computational Thinking)에 있습니다.

다음 글에서는 우리가 그리고 우리 아이들이 빅데이터와 인공지능 세상 속에서 슬기롭게 살아가기 위한 컴퓨터 사고력(Computational Thinking)에 대해 알아보도록 하겠습니다.

감사합니다.


데이터 분석 툴은 말 그대로 툴(Tool; 도구) 일 뿐입니다.


매거진의 이전글 05 벚꽃이 피는 시기와 데이터
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari