데이터 리터러시 및 데이터 이해

1부 데이터 리터러시 및 데이터 수집

Oct 15. 2024

1. 생성형 AI 활용과 데이터 리터러시

(1) 생성형 AI 활용 실태

마이크로소프트가 2024년 5월에 발표한 '업무 동향 지표(Work Trend Index)'에 따르면, 생성형 AI는 전 세계적으로 큰 관심을 받고 있으며 업무에 활발히 활용되고 있습니다. 이번 조사에는 31개국 31,000명이 참여했으며, 그 결과 75%의 응답자가 이미 업무에서 AI를 사용하고 있다고 답했습니다. 그중 46%는 최근 6개월 내에 AI를 도입했다고 밝혔습니다.

일반적으로 생성형 AI는 젊은 세대, 특히 Z세대가 많이 사용할 것으로 예상되지만, 이번 조사 결과에 따르면 세대에 상관없이 다양한 연령대가 AI를 활용하고 있었습니다. Z세대의 85%, 밀레니얼 세대(M세대)의 78%, X세대의 76%, 베이비붐 세대의 73%가 AI를 사용 중인 것으로 나타났습니다. 이는 AI가 특정 세대에 국한되지 않고, 다양한 연령층에서 직장 내 도구로 자리 잡고 있음을 보여줍니다.

결론적으로, AI는 더 이상 특정 계층이나 세대에만 국한된 기술이 아니며, 업무의 중요한 도구로 자리 잡고 있습니다. 이제 중요한 것은 AI를 얼마나 효율적으로 활용하는지가 경쟁력을 결정하는 요소가 되었다는 점입니다. 과거에는 도구를 잘 사용하는 사람이 경쟁력을 가졌다면, 이제는 AI와 같은 지능형 도구를 잘 활용할 수 있는 사람이 경쟁력 있는 인재로 평가받는 시대가 된 것입니다.

(2) 데이터의 본질

데이터는 특정 현상이나 순간을 포착하여 수치나 기호로 표현한 단편적인 정보입니다. 이러한 데이터는 우리가 자유롭게 변환하고 활용할 수 있으며, 지속적이고 반복적으로 수집될 때 더욱 가치 있는 정보가 됩니다. 데이터를 통해 우리는 특정 현상의 패턴을 분석하고, 이를 기반으로 의사결정을 내릴 수 있습니다.

주변에서 흔히 접할 수 있는 데이터의 예로는 다음과 같은 것들이 있습니다.

· 엑셀 자료: 다양한 통계와 수치가 담긴 데이터

· 교통 데이터, 날씨 데이터, CCTV 자료, 지역별 통계: 공공기관 및 정부에서 제공하는 다양한 형태의 데이터

· 카드 사용 내역, 휴대폰 사용 요금: 개인의 소비와 관련된 데이터

· 매출 자료, 인사 자료, 생산량: 기업 내부의 운영과 관련된 데이터

· 운영 데이터, 구매 이력 데이터: 기업의 운영 및 고객 행동과 관련된 정보

· 설문, 인터뷰 자료: 연구와 조사를 통해 수집된 정성적 데이터

데이터는 이러한 다양한 형태로 존재하며, 중요한 것은 이를 효과적으로 활용하여 새로운 가치를 창출하는 것입니다. 데이터의 본질적인 역할은 그 자체로는 단순한 정보이지만, 이를 통해 인사이트를 도출하고, 비즈니스의 변화를 이끌어내는 데 있습니다. 데이터 분석과 활용은 결국 조직과 개인이 더 나은 의사결정을 할 수 있도록 돕고, 비즈니스 혁신을 추구하는 데 필수적인 요소로 작용합니다.

따라서 데이터의 본질은 현상의 일부를 포착하여 의미 있는 정보로 가공하고, 이를 바탕으로 새로운 가치와 비즈니스 혁신을 이끌어내는 데 그 목적이 있습니다. 데이터가 현대의 비즈니스 환경에서 중요한 역할을 하는 이유는, 바로 이러한 가치 창출을 통해 조직이 변화하고, 트랜스포메이션(디지털 전환)을 실현하는 데 기여하기 때문입니다.

데이터를 활용하여 비즈니스에 변화를 일으키기 위해 필요한 접근 방법은 다음과 같습니다.

1) 문제 정의

먼저 해결해야 할 비즈니스 과제를 명확하게 정의해야 합니다. 이는 단순한 일상적 문제가 아니라, 비즈니스 관점에서 해결이 필요한 과제를 의미합니다.

2) 데이터 수집, 분석, 시각화

정의된 문제를 해결하기 위해 관련 데이터를 수집하고, 이를 분석하여 시각화합니다. 데이터의 흐름과 패턴을 파악하는 과정이 중요하며, 이러한 과정을 통해 데이터에서 유의미한 정보를 도출할 수 있습니다.

3) 센싱(Sensing)과 통찰(Insight)

센싱은 시장이나 고객의 변화와 같은 복잡한 정보를 민감하게 감지하는 과정입니다. 예를 들어, 주전자에서 물이 끓을 때 소리나 증기를 보고 물이 끓고 있음을 감지하는 것입니다. 이는 변화를 탐지하는 능력입니다.

통찰은 이렇게 감지된 정보를 바탕으로 현상을 깊이 이해하고, 사물의 본질을 꿰뚫어 보는 능력입니다. 데이터를 통해 내부에서 무슨 일이 일어나고 있는지 깨닫고, 이를 바탕으로 전략적 결정을 내리는 것이 통찰의 역할입니다.

4) 데이터 리터러시(Data Literacy)와 데이터 마인드(Data Mind)

데이터를 올바르게 읽고 해석하며, 이를 통해 통찰력을 기르는 것이 데이터 리터러시입니다.

데이터 마인드는 데이터를 기반으로 사고하고 의사결정하는 능력을 의미하며, 이를 통해 비즈니스 혁신을 이끌어낼 수 있습니다.

결론적으로, 비즈니스 문제를 명확하게 정의하고, 데이터를 활용해 분석과 시각화를 통해 문제의 본질을 파악하며, 센싱과 통찰력을 통해 적절한 해결책을 도출하는 과정이 중요합니다. 데이터 리터러시와 데이터 마인드를 함양하여 데이터 중심의 사고방식을 갖추는 것이 비즈니스 변화를 성공적으로 이끌어내는 핵심입니다.

(3) 데이터 리터러시와 데이터 마인드

1) 데이터 리터러시(Data Literacy)

데이터 리터러시는 데이터를 읽고, 이해하며, 이를 다양한 방식으로 활용할 수 있는 개인의 능력을 의미합니다. 이는 단순히 데이터를 해석하는 능력, 즉 데이터 기반으로 문제를 해결하고 의사결정을 내리는 능력을 포함합니다.

데이터 리터러시의 핵심 역량은 다음과 같습니다.

· 문제 인식 역량: 해결해야 할 비즈니스 문제나 과제를 명확하게 인식하는 능력

· 데이터 수집 역량: 문제 해결에 필요한 데이터를 수집하는 능력

· 가공 및 분석 역량: 수집된 데이터를 전처리하고, 필요한 분석을 수행하는 능력

· 시각화 및 해석 역량: 데이터를 시각적으로 표현하고, 그 내용을 해석하는 능력

· 활용 역량: 분석 결과를 바탕으로 의사결정을 내리고, 이를 실제로 적용하는 능력

· 데이터 기획 역량: 필요할 경우 데이터를 기획하고 새롭게 수집할 수 있는 능력

2) 데이터 마인드(Data Mind)

데이터 마인드는 데이터를 통해 복잡한 현상을 분석하고 문제를 해결하는 사고방식을 의미합니다. 데이터를 하나의 렌즈로 삼아, 이를 통해 정확하고 객관적인 지식을 얻고, 이를 기반으로 설득력 있는 의사결정을 내리는 것이 데이터 마인드의 핵심입니다.

데이터 마인드는 조직 내에서 의사결정을 해야 하는 모든 사람에게 필요합니다. 데이터 기반의 의사결정을 통해 상급자나 동료를 설득하고, 궁극적으로는 비즈니스의 변화와 혁신을 이끌어내는 데 중요한 역할을 합니다.

따라서, 데이터 리터러시를 통해 데이터를 해석하고 활용하는 능력을 키우고, 이를 바탕으로 데이터 마인드를 형성하여 비즈니스 혁신을 이끄는 것이 목표입니다.

2. 데이터 이해와 데이터 종류

(1) 데이터 셋

1) 데이터셋(Dataset)과 테이블(Table)

데이터셋은 데이터가 체계적으로 정리된 형태로, 흔히 테이블이라고 합니다. 이 테이블은 행(row)과 열(column)로 구성되어 있으며, 엑셀 시트나 구글 스프레드시트에서 많이 볼 수 있는 구조입니다. 이러한 테이블 형태는 데이터를 정형화된 형태로 저장하며, 데이터를 쉽게 분석하고 처리할 수 있도록 돕습니다.

2) 행(Row)과 열(Column)

행은 데이터를 수집하는 단위입니다. 이를 관측값(observation), 레코드(record), 또는 케이스(case)라고도 부릅니다. 예를 들어, 설문조사의 응답 하나하나가 행으로 기록됩니다. 행은 가로로 데이터를 저장하며, 각 행은 하나의 개체(예: 사람, 사건 등)에 대한 모든 정보를 담고 있습니다.

열은 데이터를 저장하는 공간이며, 이를 칼럼(column), 피처(feature), 필드(field), 또는 변수(variable)라고 부릅니다. 열은 데이터셋에서 특정한 속성을 나타내며, 예를 들어, "성별"이라는 열에는 각 개체의 성별 정보가 기록됩니다. 인공지능과 머신러닝에서는 이러한 열을 피처(feature)라고 부르며, 이는 분석에 사용할 변수입니다.

3) 데이터 포인트(Data Point)

데이터셋에서 행과 열이 만나는 지점을 데이터 포인트라고 합니다. 예를 들어, "성별" 열의 "A라는 사람" 행에 기록된 값이 바로 데이터 포인트입니다. 이 데이터 포인트는 하나의 구체적인 값을 나타내며, 이를 통해 데이터셋의 특정 정보를 파악할 수 있습니다.

데이터 셋

따라서 데이터 분석을 제대로 하기 위해서는 이러한 기본적인 데이터의 구조를 이해하는 것이 필수적입니다. 행과 열의 구조를 이해하고, 이를 통해 데이터 포인트를 정확히 해석할 수 있을 때 데이터 분석의 첫걸음을 뗀 것이라고 할 수 있습니다.

(2) 데이터 유형과 종류

데이터는 다양한 방식으로 분류되며, 이를 이해하는 것은 데이터 분석에서 매우 중요합니다. 먼저 데이터의 유형(Data Type)에 대해 살펴보겠습니다.

데이터는 크게 두 가지 유형으로 나눌 수 있습니다. 수치형 데이터와 범주형 데이터입니다.

데이터의 유형

1) 수치형 데이터

- 연속형 데이터: 소수점까지 나뉠 수 있는 데이터를 말합니다. 예를 들어, 키, 몸무게, 온도와 같이 소수점 단위로 측정 가능한 데이터입니다.

· 비율 데이터: 절대 영점이 존재하는 데이터로, 예를 들면 매출액, 몸무게 등이 있습니다.

· 구간 데이터: 특정 구간을 나누어 표현한 데이터입니다. 예를 들어, 연령대를 10년 단위로 구분한 데이터가 이에 해당합니다.

- 이산형 데이터: 정해진 값만을 가지며, 연속적으로 확장되지 않는 데이터입니다. 예를 들어, 사람 수나 계단 수와 같이 정수로만 표현되는 데이터입니다.

2) 범주형 데이터

- 명목형 데이터: 순서가 없는 범주를 나타내는 데이터입니다. 예를 들어, 성별(남/여)이나 혈액형(A, B, O)과 같은 데이터입니다.

- 순서형 데이터: 순서가 있는 범주를 나타내는 데이터로, 예를 들어 순위를 매기거나 만족도를 1~5로 구분한 경우가 이에 해당합니다.

다음은 데이터의 종류(Data Type Classification)에 대해 살펴보겠습니다.

데이터는 수집 방식, 정형화 방식, 수집 위치에 따라 분류됩니다.

데이터의 종류

1) 수집 방식에 따른 분류

관측 데이터: 자연스럽게 관찰하거나 기록하여 수집한 데이터입니다. 대부분의 데이터가 여기에 속합니다.

실험 데이터: 실험을 통해 얻어진 데이터로, 실험 환경에서 얻은 값들입니다.

2) 정형화 방식에 따른 분류

정형 데이터: 테이블 형태로 구조화된 데이터입니다. 예를 들어 엑셀 시트에 정리된 숫자 데이터가 여기에 해당합니다.

비정형 데이터: 구조화되지 않은 데이터로, 텍스트, 음성, 이미지 등이 포함됩니다. 예를 들어 소셜 미디어의 텍스트 리뷰나 사진, 비디오 파일 등이 비정형 데이터입니다.

3) 수집 위치에 따른 분류

내부 데이터 (First-Party Data): 조직 내부에서 수집된 데이터로, 기업이 직접 소유하고 있는 데이터입니다. 예를 들어 고객 거래 기록이나 웹사이트 방문자 데이터 등이 이에 속합니다.

외부 데이터: 조직 외부에서 수집한 데이터로, 세컨드 파티 데이터와 서드 파티 데이터로 나뉩니다.

· 세컨드 파티 데이터: 제휴사나 신뢰할 수 있는 외부 기관으로부터 제공받은 데이터입니다.

· 서드 파티 데이터: 데이터 수집 업체 등에서 구매하거나 이용할 수 있는 공통 데이터입니다.

즉, 데이터의 타입에 따라 분석 가능 여부가 달라지며, 잘못된 데이터 타입을 선택하면 분석이 불가능하거나 잘못된 결과를 도출할 수 있습니다. 따라서 데이터 분석을 할 때는 이러한 분류를 이해하고 데이터 타입에 맞는 분석 방법을 선택하는 것이 중요합니다.

이 글은 필자의 저서인 『챗GPT로 시작하는 데이터 리터러시』(2025)의 일부 내용을 발췌 및 참고하여 작성했습니다.

챗GPT로 시작하는 데이터 리터러시 | 구자룡 - 교보문고

챗GPT로 시작하는 데이터 리터러시 | AI 시대, 데이터와 함께 도약하다 『챗GPT로 시작하는 데이터 리터러시』우리는 지금 AI와 데이터가 이끄는 시대에 살고 있습니다. 데이터는 단순한 숫자의 집

https://product.kyobobook.co.kr/detail/S000215578365

keyword

Brunch Book 수요일 연재

연재 챗GPT로 시작하는 데이터리터러시

전체 목차 보기

이전 01화생성형 AI와 데이터 리터러시생성형 AI를 활용한 데이터 분석다음 03화