빅데이터, 스몰데이터? Which one?

네가 진짜로 원하는 게 뭐야.

Dec 23. 2020

Gates says, "A number in digital form is the start of thought and action." Discuss how a number on a piece of paper is less useful. 게이츠가 말하기를 디지털 수치는 생각과 행동의 시작점이라고 한다. 그렇다면 종이에 적힌 숫자는 유용성이 덜한 건지에 대해 의견을 나눠라.

- 빌 게이츠 '비즈니스@생각의 속도'

빅데이터 전문가 양성, 뭐 데이터 과학자이니 IT 업계에 이런 호칭이 유행어처럼 불리는 때(박 씨 정권)에 빅데이터 분석의 허상에 대해서 언급하는 기사들이 많았다. 그중 대표적인 사례가 빅데이터를 사업에 활용은 했는데, 세심하지 못한 니즈(needs) 분석으로 인한 비즈니스의 실패에 대조시켜 '스몰 데이터'의 잠재성을 기사화한 글이었다.

패션업계에서 ZARA라는 의류업체는 빅데이터라기보다는 고객 한 명, 한 명의 직접적인 관찰(매장 앞의 CCTV)을 통해 길거리에서의 실제 고객의 패션을 분석하여 현재 유행하고 있는 의류 성향을 파악했다. 그러니까 보통의 의류업체처럼 앞으로 유행할 패션을 미리 예측해서 진열하기보다는 현재 유행의 흐름을 재빠르게 업데이트해서 의류 판매를 했는데 그 결과 매출액 상승으로 직결했다. 오히려 소단위의 소비자의 구매 패턴이나 직접 방문해서 제품을 사용하는 실제 사용자의 말을 듣고 바로 비즈니스에 적용하는 디테일에서 스몰 데이터의 중요성을 역설한 것이다.

앞으로 2022년까지는 빅데이터 분야의 직종의 수요가 모자랄 뿐만 아니라 고액 연봉을 준다는 데 현혹해서인지 몰라도 빅데이터(데이터 마이닝)라는 학문을 접근하는 데 생긴 지도 얼마 안 된 빅데이터 자격증의 수요도 급증했다. 이론을 알면 아예 모르는 것보다 실무에 도움은 될지언정, 중요한 것은 빅데이터를 경영의 관점에서 접근해야 공부를 해도 확실히 와 닿는다고 생각한다. 그런데 영어공부처럼 바텀업(Bottom-up) 방식으로 수리 통계학부터 빅데이터 활용기술 중 하나인 딥러닝의 어려운 수학 이론을 쥐 잡듯이 파헤치면 빅데이터 관련 전문가를 꿈꾸는 사람들의 배는 산으로 가기 마련이다.

그래서 필자는 생활 데이터, 즉 나의 주변에 있는 적은 양의 데이터 분석을 시작해서 효과적인 해결책을 얻으려고 한다. 이후에 구글의 자회사 알파벳이 만든 Keggle이라는 일반인을 대상으로 한 데이터 분석으로 실제 기업들에게 비즈니스 이익으로 연결시켜줄 수 있는 데이터 경연 대회가 있는데, 여기서 나에게 맞는 분야를 탐색할 수도 있다.

일단 데이터 전문가는 어느 분야에서건 각광받을 수 있는 직종임에는 틀림없다. 그래서 분명 한정된 분야에서 한 우물만을 파기보다는 일단 수요가 많은 도메인의 분야부터 기웃거리면서 여러 분야에서 비즈니스 도메인 지식을 축척하면 앞으로 AI(인공지능) 기술을 요구하는 IT업계에서 자신의 밥그릇 걱정은 크게 안 해도 될 거라고 예상한다.

공통적으로 아래와 같은 자가 학습 순서를 따른다.

0) 비즈니스 수익을 창출할 해당 비즈니스 도메인의 이해

1) 데이터 분석 방법론

2) 각 알고리즘의 이해

3) 데이터 수집 및 저장 능력

4) 데이터 전처리 및 모델링하는 방법

5) 시각화하는 능력

6) 분석 결과 보고서 작성 능력

7) 서버단 작업, API 작성, 분석 솔루션 UI로 나타내기

이 중 가장 분명하고 먼저 해야 할 점은 '해당 비즈니스 도메인(분야)에 대해서 빠르게 이해하고 해당 도메인이 처한 문제점 및 목표점을 파악하는 것이다. 그래야 주어진 데이터를 이해하고 분석 모델을 세우기 위한 데이터 및 알고리즘을 제시할 수 있다. 이후에야 부가적인 코딩 단계와 분석 결과를 해석할 수 있는 단계로 나아갈 수 있다(서대호, 2020).

본인은 아래와 같은 전략 목표를 위해 내가 가진 영작 문제 테스트 결과의 점수 데이터를 수집해서 영어 구사력의 문제점에 대한 해결점을 찾기로 했다.

1. 데이터 문제 해결 단계
1) 문제 정의

내가 구사하는 영어(한국에서 자란 보통 한국인)에서 문제점은 기존의 한국어식 뉘앙스를 가지고 말을 만들려는 습관이다. 영어식 사고의 원어민들이 많이 쓰는 영어 구문보다, 떠오른 생각에 대해 먼저 한국어를 생각하고 다시 영어로 만들려는 절차가 내재화되어 있기 때문에, 하고 싶은 말을 바로 영어식 뉘앙스의 구문(이것을 많이 알고 있더라도)으로 바로 내뱉지 못한다. 링글(Ringle)이라는 원어민 회화 교정 사이트를 통해 어느 한 원어민 대학생으로부터 지적받은 피드백이 바로 'Complex ideas, trying to fit a lot of your vocab in paraphrase, natural expressions.'였다.

2) 기존의 데이터에서 필요한 부분 집계

그래서 위의 문제 해결에 필요한 내가 가진 영어식 사고에 약한 패턴을 추출해야 했는데, 그 패턴에 해당하는 나의 약점을 '미국식 영작문'의 부록 편에 실린 영어 글쓰기 맞춤 문법의 다섯 가지의 문법 유형(문법의 원리 / 접속사 전치사 / to 부정사와 동명사 / 관계사 / 분사)을 학습한 뒤(올해 4월 2일부터 6월 7일), 각 파트에서 주어진 열 문제씩, 총 오십 문제를 6월 15일부터 12월 13일(6개월 간)까지 총 20회의 재평가를 가진 후 최종 점수(문제당 1점)를 수집한 것이 아래와 같다.

3) 데이터 분석에 적합한 형태로 가공 및 분석하여 해결책 유도

집계한 데이터는 전처리가 필요 없는 대표적인 정형(Structured) 수치다. 이 수치를 분석하여 해결책을 유도해야 하는데, 8월 22일(AUG-22) 테스트 기점 이후의 테스트에서 얻은 본인이 가장 자주 틀리는 문형의 틀린 점수(해당 파트 문법 쓰임새를 활용하지 못해서 틀리면 1점, 이외의 기타 영작의 실수로 틀리면 0.5점 차감)의 합계를 추출했다. 그리고 그 문형 중 점수 변화(상승폭)가 가장 적은 문형을 알 수 있도록 다음의 세 번째 표(엑셀의 스파크 라인 기능을 이용하여 적색과 녹색으로 구분하여 각 색깔의 진하기로 수치의 크기 표현)처럼 나타냈다.

20회의 테스트에서 틀린 문형의 틀린 점수의 합산을 엑셀의 스파크 라인을 통해서 나타냄. 여기서 나의 약점은 접속사/전치사 파트가 틀린 점수가 가장 많이 누적된 것을 알 수 있다.

8월 22일 이후의 테스트에서 틀린 점수를 합산한 테이블로 여기서도 직관적으로 봤을 때는 접속사/전치사 파트, 그다음이 분사 파트가 틀린 점수의 합산이 많은 것으로 보인다.

첫 번째 테이블에서 두 번째 테이블의 각 항목의 값을 뺀 수치를 나타낸 테이블로 20회의 테스트분의 각 문형에서 틀린 점수의 합산에서 마지막 9회 테스트분의 그 집계값을 뺐다.

위의 테이블에서 일단 기존의 20회의 테스트의 틀린 문형에서의 점수의 상승이 전혀 없는 값이 0이지만, 총 20회의 테스트 간에 한 번도 틀리지 않은 문형들의 점수 상승폭도 0으로 집계되었다. 즉, 점수의 상승폭이 적을수록 빨간색이 진하게 표시되며, 점수의 상승폭이 높은 문형의 칸은 녹색으로 진하게 표시되게 하였다. 첫 번째 테이블의 값들에서 두 번째 테이블의 값을 뺐을 때 마이너스 값은 보이지 않으므로, 8월 22일 시점 이후 테스트의 모든 문형에서 이전보다 맞힌 점수가 내려간 경우는 없었다. 그러므로 이전에 많이 틀린 점수의 합산에서 더 줄어든(향상된) 경우밖에 없다는 의미이며, 이것은 각 문형의 수치가 크면 클수록 이전보다 해당 문법의 쓰임이 더 적확해졌다고 해석할 수 있다.

그리고 한 가지 중요한 시사점(insight)은 앞의 두 표에서는 본인의 많이 틀리는 문법 문형이 접속사/전치사 파트와 분사 파트에 많이 분포되어 있기 때문에 이 파트가 나의 약점으로만 단순 해석할 수도 있었지만, 실제로 6개월 간의 주기적인 테스트를 통해서 점수 향상이 가장 낮은 파트는 동명사/to 부정사 파트와 분사 파트라는 것을 알 수 있다는 것이다. 그러므로 6개월간의 테스트를 통해 약점으로 지목되었던 파트는 영작의 실수가 줄어들었는데 반해 후자의 두 파트는 점수 향상이 즉, 영어적인 표현 방식으로 사고의 전환이 더디다는 사실을 도출했다.

4) 해결책을 여러 가지 방식으로 구현하기 위한 결과를 적절한 형태로 해석

점수 향상폭을 폭포 형태의 그래프로 시각화하였다. 폭이 작을수록 원어민이 많이 쓰는 영어식 사고의 구문의 영작을 하는 데 어려움을 나타낸다고 해석했다.

실제로 앞서 말한 단 한 번도 틀리지 않은 문제의 전후 향상도 수치가 0인 경우를 제외하곤 주어진 데이터에서 점수 향상도가 0점인 경우는 to 부정사 구문 용법의 영작에서 한 문형이 있었으며, 그 외에 점수 상승률(향상도)이 2점 이하(이것을 기준으로 낮게 나온 문형을 나의 약점으로 도출함.)인 문형이 7개 있었다. 그래서 총 8 문형이 본인이 해당 영문법의 구문대로 표현하기가 가장 껄끄러운 문형으로 결과(The weakness when writting English usage)를 해석했고, 이 8 문형의 실제 영작 문제는 아래와 같다.

1) 주어를 살린 분사구문

- "누군가가 코트 자락을 바람에 펄럭이며 샛길에서 걸어 나왔다."

→ Someone stepped out of the side path, her coat billowing as she walked.

2) 대등 접속사 and가 생략된 분사구문

- "버스가 급정거를 해서 그 꼬마는 자리에서 떨어질 뻔했다."

→ The bus stopped abruptly, nearly tipping the little boy out of his seat.

3) 과거분사가 이끄는 구

- "지난봄에 심은 저 나무들은 이미 씨를 맺고 있다."

→ Those trees planted last spring are bearing seeds.

4) 동명사 관용 표현

- "나는 그녀를 애써 찾지도 않았고 그녀의 모습을 그리워하지도 않았다."

→ I neither bothered looking for her nor yarned for a glimpse of her.

5) to부정사구의 결과적 용법

- "구름이 걷히더니 맑고 파란 하늘이 나타나고 있다."

→ The clouds are breaking up to reveal a clear blue sky.

6) 종속 접속사

- "네가 그것으로부터 교훈을 얻는 한 그것을 해볼 만한 가치가 있다."

→ It is worth a try as long as you learn a lesson from it.

7) 불완전 자동사의 2 형식 문장에서 시제 불일치 실수

- "위협이 끝나려면 아직 멀었기 때문에 그는 여전히 경계를 늦추지 않고 있었다."

→ He remained alert because the threat was far from being over.

8) 수여 동사를 쓴 4 형식 문장에서 전치사 오용 실수

- "어깨 통증으로 인해 그는 자신이 분명히 살아 있다는 것을 알 수 있었다."

→ The pain in his shoulders told him he was very much alive.

비즈니스 용어로 KPI(Key Performance Indicator)라는 용어는 핵심 성과 지표로 특정 비즈니스 상황에서 성공을 사용할 수 있는 지표다. KPI는 기업의 전반적인 전략 목표 및 목적과 연결되어 있고 이는 주로 비즈니스 성과 문제를 식별하고 규정 준수를 입증하는 데 사용한다(Thomas Erl, 2017). 따라서 KPI라는 전반적인 성과를 측정하기 위한 정량화가 가능한 기준점을 표시하기 위해 집계한 데이터를 통한 분석에서 실제 변화에 대한 측정값을 나타내야 진정한 데이터 분석을 시도했다고 볼 수 있다.

2. 데이터 분석 단계

집계한 수치(데이터)를 탐색하며 다양한 패턴을 발견하고(→) 가설을 세우는 단계는 탐색적 데이터 분석(데이터 마이닝)으로 나아가는 과정이며, 현상에 대한 가설을 다양한 실험으로 검정해보는 단계는 통계적 추론 혹은 확증적 데이터 분석 단계로 나아가는 과정이다. 이 과정은 관측된 현상의 원인을 제안하는 연역적 접근법이며 여기서는 가설이라고 부르는 현상의 원인 혹은 가정이 먼저 제기된다. 그 후, 데이터를 분석하여 가설을 입증 혹은 반증하고, 특정 질문에 대해서 최종적인 답을 제시한다(Thomas Erl, 2017). 그리고 우리가 관심을 갖는 현상을 예측하는 단계가 바로 기계학습을 필요로 하는 분석 단계인데, 이 세 단계가 모든 문제에 적용되는 것은 아니며, 탐색적 분석은 데이터 문제 해결의 기본이지만, 분석의 목표에 따라 통계적 추론이나 기계학습이 추가되는 것이 보통이다(김진영, 2016)

본인의 생활 데이터(아날로그 노트에 채점한 각 파트별 점수)를 엑셀 시트에 옮겨서 해당 테이블에 추출(정형 데이터라서 전처리가 불필요하여 별다른 추출 작업은 없었다. 다음 섹션에서 데이터의 흩어진 값(분산)에 해당하는 점수 향상도를 실제 데이터 분석 툴로 쓰는 파이썬 판다스(pandas)를 가지고 전체 데이터 집계를 실습해보겠다.)한 집계 데이터 세트를 기초로 하여 간단한 데이터 분석을 처음으로 시도해봤다. 데이터 분석(Data Analysis)은 사실, 관계, 패턴, 인사이트, 트렌드(trend)를 찾기 위해 데이터를 검토하는 과정이다. 데이터 분석의 전반적인 목표는 더 나은 의사 결정을 지원하는 것이다(Thomas Erl, 2017).

From 'Big Data Fundamentals Concepts, Drivers & Techniques' by Thomas Erl, Wajid Khattak, Paul Buhl

본인의 영작과 영어 구사력의 향상을 위해 직접 산정한 프로세스(특정 기점을 기준으로 점수의 향상도를 지표로 하여 이 지표가 낮으면 해당 문형의 영어적 뉘앙스에 어색하다는 가설을 세움.) 및 정보에서 생성된 데이터를 분석하였다. 그리고 앞으로의 이 영어 쓰임새의 성과에 대한 KPI(성과지표)를 얻을 수 있게 하는 게 목적이므로, 앞서 본인의 영어 구사력의 문제점을 진단해준 링글의 원어민(독립변수)의 평가(종속변수)를 재차 확인해서 이번 분석을 통해 도출한 해당 구문의 연습을 지속한 이후에 문제점의 해결에 기여가 되었는지도 확인해볼 요량이다.

비즈니스 분야로 확대하면, 처방 분석(presciptive analytics)은 다른 어떤 형태의 분석보다 더 많은 가치를 제공하며 이에 따라 전문 소프트웨어(대표적으로 Google의 Tensorflow나 Python 언어의 대표적인 라이브러리로 pytorch) 및 도구(머신러닝)뿐만 아니라 가장 고급의 기술(딥러닝, 강화 학습)도 필요로 한다. 다양한 결과가 계산되고 각 결과에 대한 최선의 조치가 제안된다. 분석의 접근 방식이 설명의 형태에서 자문의 형태(언제는 안 그래겠냐만은 입씸이 더 먹히는 시대가 도래했다.)로 바뀌면서 다양한 시나리오의 시뮬레이션을 포함할 수 있게 되었고, 아래 그림에서 볼 수 있듯이 처방 분석은 비즈니스 규칙과 많은 양의 내부 및 외부 데이터를 사용하여 결과를 시뮬레이션하거나 대시보드를 통해 쿼리를 분석하여 최상의 행동 방침을 규정한다(Thomas Erl, 2017).

진단 분석(Prescriptive Analytics)은 예측 분석(Predictive Analytics)을 토대로 한다(Thomas Erl, 2017).

참조 서적(Reference)

0) Bill Gates. (n.d.). BUSINESS @ THE SPEED OF THOUGHT (pp. 104). n.p.: PENGUIN READERS.

1) 서대호. (2020). 1년 안에 AI 빅데이터 전문가가 되는 법 (pp. 0-271). n.p.: 반니.

2) 김진영. (2016). 헬로 데이터 과학 (pp. 111-113). n.p.: 한빛미디어.

3) 시모야마 테루마사 외 2. (n.d.). 파이썬 데이터 분석 실무 테크닉 100 (pp. 4-78). n.p.: 북카라반.

4) 김진호. (n.d.). 빅데이터가 만드는 제4차 산업혁명 (pp. 1-318). n.p.: 북카라반.

5) 이종석 외 2. (n.d.). 빅데이터 비즈니스 이해와 활용 (pp. 1-289). n.p.: 위즈하임.

6) 최정숙. (2020). 미국식 영작문 수업 (pp. 149-221). n.p.: 동양북스.

7) Thomas Erl 외 2. (2017). 빅데이터 기초 개념, 동인, 기법 (pp. 0-227). n.p.: 시그마프레스.

keyword

매거진의 이전글개츠비 말고 게이츠, 당신은 누구냐?미래나 과거나 현재일 뿐이다.매거진의 다음글