데이터 관점에서 바라본 육각형 신드롬 - 레이더 차트
육각형 인간
육각형 인간이라는 말 들어본 적 있으신가요?
육각형 인간이란?
외모, 성격, 학력, 자산, 직업, 집안을 수치화하여 6개 꼭짓점으로 이뤄진 육각형 그래프를 그렸을 때,
모든 값이 빠짐없이 끝까지 뻗어 정육각형을 이루는 사람을 말합니다.
이 단어는 축구게임 처음 등장했는데요. 축구의 기술인 슈팅과 패스 등 6가지 능력치가 가득 찬 선수를 "육각형"이라고 말하는데서 시작되었습니다. 이후 외모나 집안이 완벽한 아이돌에게 "육각형이다"라는 말이 등장하게 되었죠. 그 뒤로 인터넷 커뮤니티에서 결혼적령기 육각형 남자, 여자로 한 참 논란이 되었습니다. 그리고 이제는 '트렌드 코리아 2024'(김난도)에서 2024년의 키워드로 선정되어 사람들에게 널리 알려졌습니다.
육각형 인간의 논란은 육각형을 구성하는 6개의 꼭짓점에 있습니다. 집안, 외모, 자산처럼 본인의 노력보다는 태어나면서부터 주어지는 것들에 대해 '부럽다', ' 비현실적이다', '노력으로 뒤집을 수 없다'는 질투와 분노, 좌절이 담겨있습니다.
육각형 그래프는 6개의 평가항목에 대해 수치화한 데이터 분석의 형태를 띠고 있습니다. 이런 이유에서 데이터 분석을 가장(?)한 육각형 그래프를 바로 잡아야 할 것 같습니다. 오늘은 이 육각형 트렌드를 데이터 분석관점에서 파해쳐 보고, 나아가 요즘 취업시장에서의 육각형 인재 그리고 육각형 기업에 대해 알아보겠습니다.
데이터 분석에서 육각형 그래프는 레이더 차트(Radar Chart) 또는 스파이더 차트(Spider Chart)라고 부릅니다. 레이더(Radar)는 전쟁 영화의 비행기에서 많이 보셨죠? 전파를 사용하여 목표물까지 거리, 방향 등을 감지하는 시스템이잖아요. '레이더' 차트 이름은 이것과 유사해서 붙여진 이름입니다. 레이터 차트도 마찬가지로 측정 목표가 있고, 여러 개의 평가항목이 있을 때 사용합니다. 가운데 중심으로부터 일정한 간격씩 띄어서 나누고, 정량화된 점수를 따라 점을 찍거나 영역을 표시합니다.
예를 들어 볼까요? 레이터 차트에는 어울리는 데이터는 학생의 성적 데이터 분석입니다. 국영수사과+한국사 6과목에 대한 학생성적을 육각형의 6개 꼭짓점으로 잡습니다. 그리고 학생의 점수를 시각화해보면 아래와 같이 어떤 과목이 우수하고, 어떤 과목에 더 노력을 기울여야 하는지를 한눈에 볼 수 있습니다. 그래서 이 그래프는 강점 또는 약점(Strong and Weak Point)을 분석할 때 많이 사용됩니다.
다음 그래프를 보면서 이해해 볼까요?
왼쪽 그래프는 학생 1명 만의 성적을 나타낸 그래프입니다. 왼쪽만 봤을 때는 '한국사 성적이 낮다'라는 결론에 도달하기 쉽고, 영어나 사회의 경우 실제 잘한 것인지, 못한 것인지 알 수 없습니다.
이것을 평균점수를 같이 나타내보면 오른쪽과 같습니다. 문제라고 생각했던 한국사는 평균점수와 같은 것으로 보아 시험의 난이도가 어려웠던 것이라고 결론지을 수 있습니다. 또 하나, 같은 70점이지만 사회는 평균이상이고(+8), 영어는 평균이하(-9)라는 현상을 발견하게 됩니다. 결국 아이는 영어 학원에 등록하게 될 가능성이 높겠네요.
실제 레이더 차트는 NBA, MBL와 같은 프로 스포츠 리그에서 세계적 운동선수들의 훈련과 팀 운영에 활용되고 있습니다. 플레이어들의 강점과 약점에 대한 데이터 분석결과를 도출하고, 이를 토대로 코치와 선수가 과학적인 훈련방식을 결정하고, 약점을 개선하고 있습니다.
"그래프를 그린다"는 행위인 "데이터 시각화"는 무언가를 결정하기 위한 ① 의사결정 데이터 분석과 인사이트를 찾는 과정으로서의 ② 탐색적 데이터 분석 두 가지가 있습니다. 레이더 차트는 전자(의사결정형) 보다는 후자(탐색형)에 가깝습니다. 레이더 차트는 그 자체로서 의사결정에 사용되기 어려운 몇 가지 오류를 품고 있으며, 이러한 한계점을 인식하고 정확히 사용하는 것이 중요합니다. 다음의 3가지 오류와 한계점을 살펴보겠습니다.
A) 눈에 보이는 면적의 차이는 과장되었다.
레이더 차트에서 실제 데이터는 6개 꼭짓점에 찍힌 값입니다. 하지만 그것을 선으로 잇고, 영역으로 칠하면서 우리는 "면적"을 가장 먼저 인식하게 됩니다. 앞선 학생성적 레이더 차트에서 50점과 100점 성적의 차이는 단순히 100 vs. 50 = 2배가 아닌 100*100 vs 50*50 = 4배로 계산됩니다. 따라서 본래 비교하려던 값이 아닌 면적으로 해석할 경우 인식의 오류가 발생합니다. 이로 인해 중요한 결정이 시각적 효과인 면적의 크기에 영향을 받아 부정확한 판단으로 이어질 수 있다는 점을 인지해야 합니다.
B) 데이터 샘플은 2개를 넘지 말아야 한다.
레이더 차트는 세 개 이상의 데이터 샘플을 포함하면 해석이 어려워지는 문제가 있습니다. 예를 들어, 다양한 학생들의 성적 데이터를 비교하려고 할 때, 각 학생의 레이더 차트를 겹쳐 보면, 각 학생의 강점과 약점을 명확하게 식별하기 어려워집니다.
이 경우, 학생별 성적에 대한 레이더 차트를 별도로 그려서, 데이터를 탐색해 보는 과정이 필요합니다. 이처럼 레이더 차트는 시각적으로 쉽게 비교할 수 있는 데이터의 수가 한계가 있어 활용에 제한이 있습니다.
C) 의사결정의 근거가 명확하지 않다.
레이더 차트에서 하나의 변수가 크고, 다른 변수는 작을 경우, 어떤 것이 더 좋은지 결정을 내리는 것은 어려워집니다. 예를 들어, 두 학생 중 한 학생을 선발해야 하는 상황이 있습니다. 학생 1의 성적은 국어, 수학, 과학이 높고, 학생 2의 성적은 영어, 사회, 한국사의 성적이 좋다면 이 데이터 만으로는 둘 중 한 명을 선택하기 어렵습니다.
이 경우, 외부 기준을 적용해야 합니다.(#조만간 가중치 설정을 통한 다기준 의사결정에 대해 다뤄보겠습니다.) 이로 인해 중요한 결정을 내릴 때 고려해야 할 변수들 간의 상대적 중요도를 올바르게 판단하기 어려워집니다. 이는 데이터의 특성을 고려하지 않고 일괄적으로 레이더 차트를 사용할 때 발생할 수 있는 한계점입니다.
A) 데이터의 객관성이 확보되어야 한다.
모든 데이터 분석이 마찬가지이지만, 레이더 차트를 사용할 때 첫 번째 주의사항은 관찰 또는 조사를 통해 얻은 사실 데이터에 기반해야 한다는 것입니다. 육각형 인간의 예에서 사람의 외모를 평가할 때, 외모는 동일한 기준에 의해 객관적으로 평가되어야 합니다. 만약 외모가 보는 사람마다 모두 다른 주관적인 요인에 의해 결정된다면(실제로 그렇습니다), 레이더 차트는 신뢰할 수 없는 정보를 제공하게 됩니다. 이처럼 활용되는 데이터의 정확성과 신뢰성은 레이더 차트 구성의 첫 번째 필수 요소입니다.
B) 데이터는 수치형 변수로 구성되어야 한다.
데이터 타입에는 크게 혈액형(A, B, C)이나 성별(남, 여)처럼 분류할 수 있는 ① 범주형 데이터와 성적, 키와 같은 ② 수치형 데이터로 나뉩니다. 레이더 차트를 구성하는 6개 변수는 모두 "수치형 데이터" 즉, 숫자이어야 합니다. 만일 범주형 데이터라면 수치형으로 변환되어야 합니다.
예를 들어, 육각형 인간의 하나인 학력을 평가하고자 할 때, 전국 대학교 종합평가 순위에서 순위와 점수를 구간으로 나눠서 학력점수를 산정할 수 있습니다. 가령 1위부터 100위 까지는 10점, 100위~200위는 9점 등으로 셀 수 있게 나누거나(이산형 discrete), 총 대학수 대비 해당 순위에 대한 백분율을 점수화(연속형 continuous) 할 수 있습니다.
이것은 "외모", "직업", "집안", "성격" 모두 마찬가지입니다. 외모는 주관적인 속성으로 키, 몸무게, 눈코입 비율 등 어떻게 수치로 표현될지를 기준을 설정하고, 결정해야 합니다. 이때 6가지 각 속성은 일정한 척도로 변환하여 레이더 차트에 적용해야 합니다. 논란에서처럼 "외모가 잘생겼다"와 같이 수치로 변환되지 않은 범주형 데이터를 사용한다면, 레이더 차트는 성립하기 어려우며 정확한 정보를 제공하지 못합니다.
C) 모든 변수는 동일한 척도로 표준화해야 한다.
세 번째, 레이더 차트에서는 모든 변수는 동일한 척도(Scale)를 가져야 합니다. 예를 들어, 학생의 성적과 자산 규모를 동시에 비교할 때, 두 변수의 단위와 척도가 다르면 레이더 차트에서 공정한 비교가 어려워집니다. 성적은 '점수'로, 자산 규모는 '금액'으로 표현되는데, 두 변수를 동일한 기준(index)으로 맞춰주어야만 정확한 비교가 가능합니다. 예를 들면, 토익스피킹은 1~8등급이고, 성적은 2.0~4.5이며, 자격증 개수는 0~10 개, 학력은 범주값으로 각 변수에 속하는 데이터들은 범위가 다릅니다.
또한 각 변수는 분포가 다릅니다. 예를 들어 범주형을 수치형으로 변환(리커트 척도)한다고 했을 때, 입사지원자의 토익스피킹 성적은 평균 6등급이고, 2~6등급 내외의 편차(분산)가 큰 분포가 될 수 있지만, 성적은 지원자 간 실력차이가 거의 없이 평균 3.8점 내외로 분포되어 있을 수 있습니다. 따라서 관찰된 값에서 평균을 빼주고 최댓값(Max)과 최솟값(Min)의 차이로 값으로 나눠주는 것과 같은 작업 즉, "표준화"를 통해 값들을 동일한 스케일링 해주는 단계가 필요합니다.
D) 변수의 상대적 중요도가 같아야 한다.
다음으로 레이더 차트에서는 각 변수의 상대적 중요도가 동등해야 합니다. 예를 들면 직업, 집안, 성격이 육각형에서 모두 동등한 비중으로 반영되어야 합니다. 만약 어떤 변수가 다른 변수에 비해 지나치게 강조된다면, 해당 변수의 중요성이 과장되어 전체적인 분석에 편향을 가져올 수 있습니다. 이것은 데이터 분석에서 가중치(Weight)이라는 개념으로, 더 중요한 요소에는 많은 비중을 두고, 덜 중요한 요소에는 적은 비중을 부여하는 방식이 해당됩니다. 하지만 레이더 차트에서는 모든 변수의 비중이 1대 1로 6 각형을 이루는 변수들의 중요도가 모두 같아야 합니다
E) 변수들끼리는 서로 독립이어야 한다.
마지막으로 레이더 차트에서는 변수들이 서로 독립적이어야 합니다. 즉, 각 변수 간의 상관관계가 최소화되어야 합니다. 육각형 인간의 그래프에서 직업과 자산, 집안은 어느 정도 상관관계를 가지고 있을 수 있습니다. 예를 들면, 전문 직종에 종사하는 직업을 가진 사람이 자산도 많을 가능성이 높은 경우를 말합니다. 또 집안이 좋을수록 교육 수준이 높아 학력이 높다든지 하는 경우, 두 변수 간에는 독립적이지 않다고 말합니다. 이 경우 레이더 차트는 정확한 분석을 수행하기 어렵습니다.
육각형 인간에서 자산과 직업의 점수가 서로 강한 상관관계를 갖는다면, 이 레이더 차트는 중복된 정보를 제공하게 되어 분석의 정확성을 해치게 됩니다. 변수들 간의 독립성은 레이더 차트의 유효성을 확보하는 핵심적인 요소입니다.
위에서 고려한 데이터 분석의 선행요건들을 고려하여 기업이 선호하는 육가형 인재에 대한 그래프를 생성해 보기로 하겠습니다. 먼저 데이터를 수집해 보기로 합니다.
대한상공회의소가 2023년 국내 100대 기업이 공개한 인재상을 분석한 결과, 기업이 요구하는 인재상은 책임의식, 도전정신, 소통과 협력, 창의성, 원칙과 신뢰, 전문성 순으로 나타났습니다.
이제 우리는 객관적인 조사를 통해 6개 중요변수인 꼭짓점을 뽑아냈습니다. 육각형 인재는 ① 책임의식, ② 도전정신, ③ 소통과 협력, ④ 창의성, ⑤ 원칙과 신뢰, ⑥ 전문성에 대한 평가항목으로 레이더 차트를 그려봅니다.
실제 6개 각을 이루는 변수는 산업, 기업, 조직, 직군마다 다 듭니다. 좀 더 실무적으로는 1) 기획과 문제 정의 2) 이론지식 3) 실행력 4) 활용 툴과 스킬 5) 프로젝트 경험 6) 협업능력 이 될 수도 있습니다. 여기서 중요한 것은 어떤 카테고리가 등장했는가? 가 아니라 "어떻게 평가항목 기준변수를 설정했는가?"입니다. 설문조사 또는 전문가 인터뷰를 통한 다기준 의사결정 등의 방법 과학적 방법에 의해 생성된 데이터이어야 합니다.
앞서 언급한 A) 데이터의 객관성이 확보되어야 한다.처럼 육각형의 각 변수의 구성은 조사를 통한 데이터에 기반하여 결정하여야 합니다. 만일 그렇지 않다면 논리에 중요한 오류가 생길 수밖에 없습니다
또한 6개 변수는 B) 수치형이고 C) 동일한 척도로 변환되어야 합니다. 따라서 성실도, 소통 등의 인적성 검사의 결과를 최소 0점에서 최대 100점으로 동일 단위로 점수화할 수 있습니다.
마찬가지로 D) 변수 간의 상대적인 중요도를 본다면, 100대 기업에서 TOP 6에 손꼽을 정도로 그 순위가 높다는 점이 중요도가 유사한 것으로 간주할 수 있습니다. 마지막으로 각 인재상은 서로 다른 카테고리로 독립적이라고 가정한 뒤에야 비로소 레이더 차트를 그릴 수 있습니다.(실제 독립인지는 수치상으로 분석필요)
이렇게 정의된 국내 100대 기업 기준, 지원자 1과 2의 육각형 인재 레이더 차트는 다음과 같습니다.
앞서 언급한 레이더 차트의 한계점을 보완하기 위해 가로 막대그래프로 수치를 직접 비교를 추가했습니다.
데이터를 분석할 때는 다양한 관점에서 바라보아야 합니다. 기업의 입장에서 데이터를 보았다면, 이제 취준생의 시야에서도 기업을 바라볼 차례입니다. 그렇다면 요즘 MZ세대들의 직장 선택기준은 무엇일까요?
전국경제인연합회가 MZ세대 827명을 대상으로 조사한 결과(2023), 취업 준비생들이 원하는 육각형 회사는 다음과 같습니다.
① 워라벨, ② 연봉, ③ 안정성, ④ 발전가능성, ⑤ 수평적 조직문화, ⑥ 사회적 기여도
이제 위와 같은 절차를 거쳐서 MZ가 바라는 육각형 기업을 다음과 같이 레이더 차트를 표현해 보았습니다.
정답은 없다.
더 나은 선택 만이 있을 뿐이다.
연말 승진자 발표와 함께 한 신임 팀장에게 임원이 축하 문자 메시지를 보냈습니다.
"팀장 보임을 축하합니다. 평직원일 때와는 달리, 이제 직책자로서 수많은 의사결정이 닥칠 거예요. 많이 힘들겠지만 그때마다 주저하지 말고 결정하면 됩니다. 정답이라는 것은 없고, 최선의 선택만이 있을 뿐이니까요."
육각형 기업을 통해 말하고 싶은 바를 요약하면 다른 사람이 좋아하는 회사가 아니라 나에게 맞는 회사를 선택하는 것입니다. 구인 중인 회사가 다른 회사가 좋아하는 인재를 뽑는 것이 아니라, 자신의 회사 인재상에 맞는 인재를 찾습니다. 마찬가지로 이처럼 취업을 준비하는 이도 남들이 좋아하는 회사가 아니라 "나"에게 맞는 회사를 선택하는 것이 바람직합니다.
언제나 정답은 없습니다. 나에게 더 나은 선택 만이 있을 뿐이니까요 데이터에 기반한 의사결정 그것이 여러분의 행동에 힘을 줄 것입니다.
내가 무엇을 원하는지, 무엇을 잘하는지 생각들이 많다면,