객관적이면서도 간결하고 가독성 높은 그런 마법 같은 데이터를 제시해 줘
2. 정성 데이터 중심으로 다뤄놔 눈에 들어오지 않는 경우
최근 나날이 저하되는 문해력이 사회적 문제로 대두되곤 한다. 업무를 하면서 종종 신입사원들이 한자 단어를 이해 못 해 당황하는 모습을 보다 보면 실제로 주변에서 벌어지는 일이라 실감된다. 하지만 이게 과연 젊은 세대만의 문제일까? 잠시 꼰대적 발상을 내려놓고 스스로를 돌아보면 나 역시 같은 상황에 처해있지 않을까 반성이 되는 순간들이 있다.
한 번은 직원이 들고 온 십여 페이지 짜리 보고서를 받아 들고 인상을 찌푸렸던 기억이 있다. 돌이켜 보면 분명 내용은 꽤 알차고 쓸모 있던 걸로 기억하는데 내용이 너무 눈에 들어오지 않았더랬다. 이건 세대를 불문하고 벌어지는 일일 텐데, ‘긴 글 울렁증'. 문장의 간결함과 완성도를 떠나 일단 글자가 많아지면 눈에 들어오지 않는 현상이다. 요즘은 남녀노소를 불문하고 숏폼과 같은 자극적이고 수동적인 콘텐츠를 주로 소비하는 탓일까, 스스로 노력과 관심을 기울여 소비해야 하는 긴 줄글과 같은 능동적 소비형 콘텐츠는 무의식 적으로 기피하게 된다.
그런데다 시간적 여유가 많지 않은 업무시간이라는 환경을 고려해 볼 때, 긴 줄글 형태의 콘텐츠를 소비하기에는 상당히 난도가 있다. 거기에 긴 글 울렁증까지 합세하면 회사는 긴 줄글 형태의 콘텐츠를 소비하기에는 최악의 환경이라 확신한다. 그래서인지 회사 내에서 유통되는 대부분의 문서는 확실히 숫자가 가미된 정량 데이터를 선호하는 듯하다. 그래서 보통은 글자만으로 보고서를 채우기보다 구조적으로 데이터를 이해할 수 있도록 그래프나 표를 적극적으로 활용하곤 한다.
우리가 흔히 아는 데이터는 위의 예시처럼 두 가지로 구분할 수 있다.
문자로 표현할 수 있는 정성 데이터와 숫자로 표현할 수 있는 정량 데이터. 이 두 데이터는 소비하는 주체의 수용력에도 차이를 보이지만 그보다 더 중요한 차이는 바로 데이터의 신뢰도에 갭이 상당하다는 점이다.
우리가 흔히 아는 이야기 중에 우리나라의 인구 구조를 볼 때, 50년 후에는 국가의 존망을 걱정해야 할 수준이라는 것이 있다. 이를 정량, 정성 두 가지 형식으로 전달하는 차이를 한번 알아보자.
먼저, 정량지표로 현상을 기술해 보면,
우리나라는 세계 인구보다 심각한 수준으로 노령화가 되고 있다. 따라서 50년 뒤에는 노령인구와 생산 가능 인구 (15-64세)의 비중 차이가 거의 없을 것이다. 그 여파로 국가의 생산능력이 저하되어 역성장 또는 국가소멸의 단계로 접어들 수 있을 것으로 예상된다.
내용이 뭔지는 확실히 알 수 있다. 문장 자체가 간결해서 그런지 긴 글 울렁증이 도지지 않아 내용을 이해하는데 무리가 없다. 하지만 여기서 예상되는 문제는, 심각한 수준이라 표현한 이 현상이 어느 정도로 심각한 수준인지를 구체적으로 이해하기에는 한계가 있다는 점과 또한 인구정책에 위기감을 느끼지 않는 사람이라면 쉽게 반론을 제기할지도 모른다는 점이다.
A: “내 주변은 다 결혼도 하고 애도 낳는데 무슨 소리야?”
B: “야 네 지인만 애를 낳은 거지, 주변에서는 결혼도 안 하고 애를 안 낳잖아!”
A: “무슨 근거로 그런 소릴 하는 거야?”
여러분은 어떻게 반론을 이어갈 것인가? 아마도 고루한 말싸움이 개전되지 않을까 조심스럽게 예상해 본다.
반면, 정성지표로 현상을 표현한다면?
50년 기간 내, 세계의 생산가능 인구는 전체 인구 비중에서 꾸준히 60%를 차지하여 안정된 생산능력을 보이는 반면, 우리나라는 70%에서 45%까지 -25% 정도 감소가 예상된다. 이 현상이 지속될 경우 우리의 생산가능 인구는 인구 비중의 절반 이하가 되어 인당 1인 이상의 부양책임을 져야 하는 부담을 갖게 되어 역성장 또는 소멸 위기에 처할 것으로 예상된다.
이 경우에는 비교 그래프로 보여주어, 그 면적으로 차이가 어느 정도인지 규모를 짐작케 하기에도 충분하다. 아마도 저 데이터를 읽는 사람 중 상당수는 문자는 아직 판독하지도 않았는데 그래프만 보고도 내용을 이미 짐작한 사람도 있을 것이다. 인간의 인지적 특성을 감안하면 자글자글한 문자보다는 색채와 커다란 면의 대비로 이뤄진 시각적 장치가 가독성면에서도 월등히 우월하니 말이다.
더욱이 정량 데이터는 말싸움에도 유리하다. 점잖은 표현으로는 논쟁과 설득.
A: “내 주변은 다 결혼도 하고 애도 낳는데 무슨 소리야?”
B: “우리나라 현재 인구 분포랑 평균 출산율 기반해서 나온 통계청 자료인데, 네 지인이 한 열 명씩 낳았냐?”
축하합니다, 이제 싸움의 주도권은 당신에게 넘어왔습니다.
결국 회사 생활도 인간관계의 확장이라는 걸 감안하면, 말싸움에서 강력한 주도권을 발휘할 수 있다는 건 엄청난 장점이 될 수 밖에는 없다. 지금은 문명사회로 수틀리면 주먹다짐을 하던 과거와는 확연히 다르기에 여러분의 이야기가 얼마나 설득력을 가지느냐가 여러분의 영향력이 어떻게 확장되느냐로 직결되기 때문이다.
이 시점에서 평가자를 쉽게 설득할 수 있는 데이터의 형식은 뭐라고 생각해야 할까? 이런 근거 때문에라도 ChatGPT를 통한 리서치 ‘만을' 사용하는 것을 경계하는 편이다. GPT의 응답방식이 아무래도 정량 데이터에 최적화되어 있는 것도 있지만, 더욱이 정성 데이터를 뱉어낸다고 해도 그 신뢰도에서 의문이 남는 한계도 감안해야 한다. 우리가 정량 데이터를 소비할 땐 습관처럼 의식하는 것이 그 데이터의 출처다. 그래서 정량 데이터를 활용한 보고서를 보면 반드시 그래프나 표 어딘가에 데이터의 출처를 기록하는 것이 하나의 중요 원칙이다.
여기서 여러분 중에 ChatGPT가 최첨단 AI가 정밀하게 도출한 신뢰할 만한 결과라고 생각하는 친구들이 있지 않을까 하여 부연설명을 달아본다면, 앞에서 간단히 단어만 소개하고 넘어왔던 할루시네이션 Hallucination을 이해할 필요가 있다.
할루시네이션 굳이 직역을 하자면 ‘환각’이라고 할 수 있으며, 생성형 AI 분야에서 사실이 아닌 정보를 마치 사실인 것처럼 응답하는 현상을 말한다. 생성형 AI의 작동원리를 보면 다양한 빅데이터를 학습하여, 그 학습 결과를 기반해서 응답하는 식인데, 문제는 이 학습 데이터의 불안정성이 응답 결과로까지 이어진다는 점이다. 일부 불안정한 학습 데이터는 더 많은 사실의 방대한 데이터가 보정해 주는 일종의 통계적 보완이 일어나기에 일반적으로는 우려할 필요는 없지만 일부의 오차로도 해석이 뒤집어질 수 있는 정량 데이터에 있어서는 치명적인 약점으로도 작용한다. 지금은 이런 오류를 최소화하기 위한 프롬프팅 Prompting 기술이 대접받는 시대이기도 하니 더욱 신중할 수밖에 없다.
그러니 정량 데이터를 활용할 땐, 신뢰할 수 있는 소스를 확보하도록 최선을 다해야만 한다. 그리고 그것이 쓸모 있는 정교한 거짓말쟁이 ChatGPT가 아님은 확실하다.
저자 aiden의 UXUI 포트폴리오 온라인 강의