brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Jun 05. 2022

28 진달래와 철쭉을 구분하는 방법

기업 데이터의 80%를 차지하는 비정형 데이터

# 01. 진달래와 철쭉 구분하기


철쭉과 진달래
구분할 수 있으세요?

봄꽃이 피는 시기, 아이들과 아파트 단지 산책을 했는데요. 알록달록 핀 꽃들 덕분에 웬만한 꽃 축제가 부럽지 않았어요. 그러다가 "아빠 이 꽃 이름이 뭐야?" 라며 아이들이 꽃 이름을 물어봤는데, 진달래인가 철쭉인가 긴가민가 했습니다. 역시 모든 공부는 아이들 궁금증으로부터 시작됩니다. 그래서 자랑스럽게 "그런 건 이렇게 알아보는 거야" 라며, 스마트폰을 꺼내 들었습니다.


관련 업과 공부를 병행하면서 해당 기술을 아이들에게 자연스럽게 보여주고 싶었거든요. 해당 기술이 처음 나왔을 때는, 꽃 이름을 맞추는 정확도가 많이 떨어지거나 아예 데이터가 없어서 분류가 불가능하기도 했어요. 그래서 결과가 더욱 궁금했죠. 짠! 정답은 아래와 같습니다.


 * 검색 방법 : 네이버 앱 > 가운데 초록색 원모 양 클릭 > 렌즈 클릭 > 사진 촬영

이렇게 결과가 바로 나와주니, 얼마나 편한 세상이 되었는지 모릅니다.

40년 가까이 살면서 진달래와 철쭉을 구분하지 못하다니, 꽃에 대한 예의가 좀 부족했네요. 하지만 반대로 사람들도 알지 못하는 꽃 이름을 수백 종류 이상 분류해낼 만큼 데이터도 많아지고, 인공지능 기술도 발전했다는 의미이기도 했습니다.

[요약] 진달래와 철쭉 구분 방법

1. [잎] 진달래는 꽃이 먼저 피고 잎사귀가 나고, 철쭉은 잎이 먼저 나고 꽃이 핀다
2. [나무 크기] 진달래는 나무 키가 큰 반면, 철쭉은 크기가 아담하고 키가 작다.
3. [꽃받침] 진달래는 꽃받침이 없고, 철쭉은 꽃받침이 있다.
4. [꽃잎] 진달래는 꽃잎에 무늬가 없는 반면, 철쭉은 곤충을 유인하기 위한 반점이 있다.


이런 기술의 뒷면에는 딥러닝이라는 인공지능 모델이 있는데요. 오늘은 기술 자체보다는 "꽃 사진"이라는 "데이터"에 주목해보기로 합니다.

사진은 찍는 사람이나 찍히는 사람에 따라 일정한 형태를 가지지 않죠. 가까이서 찍기도 하고, 또 화질도 다르고, 사진 크기도 다릅니다. 이처럼 일정한 형식이 없는 데이터를 "비정형 데이터"라고 합니다.



# 02. 정형 데이터와 비정형 데이터가 뭔가요?


"사진은 비정형 데이터이다." 그러면 데이터의 종류가 어떻게 나눠지는지를 알고 싶겠네요.

데이터의 종류는 크게 정형 데이터와 비정형 데이터로 나눠집니다.

1) 정형 데이터란?


정형 데이터는 이름처럼 "정" 해진 "형" 식을 가지고 있는 데이터입니다.

가로와 세로, 그러니까 행과 열로 구성된 표(테이블) 형태의 데이터로 이해하면 좋겠네요.


기업에서는 꼭 필요한 데이터들을 미리 정해 놓은 형식과 구조에 따라 저장을 해요.  예를 들면, 뚜루뚜루 빵집 사례에서 본 것처럼, 제품군(빵/음료/케이크), 제품명(도넛/크루아상..), 판매수량, 판매금액 등의 값에 해당하는 칸을 사전에 만들어놓고 거기에 데이터를 쌓는 것을 말해요.


이렇게 형식을 정해놓으면 뭐가 좋을까요? 정형 데이터의 장점은 정해진 형식과 저장 구조 덕분에, 나중에 데이터를 쉽게 검색 및 선택, 업데이트, 삭제할 수 있다는 것입니다.


기업의 데이터베이스, 엑셀과 같은 스프레드 시트가 여기에 해당되고, 예를 들면, 고객정보 데이터베이스, 제품별 판매수량 및 금액, 아파트 실거래가, 회사 임직원 인사정보 등이 우리가 데이터라고 다루고 있는 대부분의 것들이 여기에 해당됩니다.


2) 비정형 데이터란?


간단히 말하면, 한자로 아닐 비(非) 정형이니까, 정형 데이터가 아닌 모든 데이터입니다.

비정형 데이터는 미리 약속된 데이터 형식이나 패턴이 없는 데이터로, 구조화되어 있지 않아서 쉽게 검색할 수 없습니다. 아까 제가 찍은 진달래와 철쭉 사진처럼, 비정형 데이터는 시스템이 아닌 사람이 만드는 경우가 많죠.


예를 들어, "연결 후에는 서비스 품질 향상을 위해 통화내용이 녹음될 수 있습니다."라는 멘트 들어보셨을 것 같아요. 이처럼 녹음된 음성 오디오 파일도 대표적 비정형 데이터입니다.


또 우리가 인스타그램에 올리는 사진, 그리고 브런치에 쓰는 글도 모두 비정형 데이터입니다. 또 기업에서 아직도 대부분의 일들이 워드, 파워포인트, PDF 등의 개별 파일에 업무가 진행되는데 이들 모두 비정형 데이터입니다. 이처럼 비정형 데이터도 문자, 숫자에서부터 이미지 및 오디오에 이르기까지 다양합니다.



# 03. 비정형 데이터의 중요성


매일 약 250억 바이트의 데이터가 생성되며, 전체 데이터의 80%가 비정형인 것으로 추산됩니다.

< 글로벌 IT 컨설팅 기업 가트너(Gartner) >

이렇듯 비정형 데이터가 데이터의 대부분을 차지하기 때문에 그 중요성을 간과할 수 없겠죠?


이 80%의 데이터는 다루기 어렵지만, 고객 분석, 수익성 개선 등 특정 문제와 목적이 있다면 그 가치가 높아집니다. 쏟아지는 포토리뷰, 피드백이 중요한 이유는 바로 고객으로부터 직접적으로 고객의 경험, 필요 및 요구사항을 얻을 수 있기 때문입니다. 정형 데이터뿐만 아니라, 비정형 데이터를 활용한다면 그렇지 않은 조직/사람에 비해 더 나은 의사결정을 내리고 경쟁력을 강화할 수 있습니다.



만일 비정형 데이터를 탐색하지 않는다면 엄청난 잠재력을 놓치고 있습니다. 비정형 데이터를 효율적으로 분석하기 위해 앞서 소개드린 딥러닝과 같은 현재 기술을 활용하면 중요한 행동 경향에 대한 통찰력을 얻을 수 있습니다.

사람과 인공지능을 이어주는
비정형 데이터


지금까지 알아본 표(테이블) 형태의 데이터는 엑셀 등으로 분석방법이 많이 발전해 왔어요. 하지만 사진, 글, 그림, 음성 등과 같은 비정형 데이터는 사람이 직접 열어서 보고, 듣고, 읽고 판단하는 방식 외에는 뾰족한 수가 없었죠.

사람은 결국 말하기, 듣기, 읽기, 쓰기를 통해 소통을 합니다. 이때 사람들의 말하기와 듣기는 음성 데이터가 되고, 사람들의 읽기와 쓰기는 텍스트 데이터, 보기는 이미지 데이터가 됩니다. 네, 맞아요. 이렇게 사람들의 의사소통의 흔적으로 남은 이것들이 바로 비정형 데이터예요.

그리고 이 데이터들을 학습한 인공지능이 사람들의 눈, 귀, 입, 손을 대신해줄 수 있어요. 그때야 비로소 사람들의 삶을 더욱 편리하게 해 줄 수 있죠.


요즘에 많이 친숙해진 AI 스피커는 사람들의 음성을 알아들을 수 있고, 자율주행 자동차는 사람들의 눈을 대신해줄 수 있어요. 또 챗봇은 사람들의 손과 입을 대신해서 상담을 진행해주죠. 그리고 이것들을 복합한 휴머노이드 로봇*이 대두되고 있습니다.


* 휴머노이드(humanoid, 인간형 로봇)란, 인간의 형태를 모습으로 한 로봇을 의미한다.

인간의 지능, 행동, 감각, 상호작용을 모방하여 인간을 대신하거나 협력하는 서비스를 목표로 하는 로봇이다.


결국 사람에 보다 더 가까운 데이터가 바로 비정형 데이터입니다. 이것이 비정형 데이터가 중요시되는 이유이며, 데이터 활용과 데이터 사고력에서 빠질 수 없는 이유입니다.



# 04. 기업 데이터의 선순환 구조


앞서 네이버의 스마트 렌즈를 소개해 드렸지만, 구글과 마이크로소프트, 카카오도 비정형 데이터에 모두 집중하고 있습니다. 비정형 데이터를 분석하는 것만으로도 기존에 얻지 못한 통찰력을 얻을 수 있지만, 정형 데이터와 융합된다면 어떨까요?


정형 데이터 + 비정형 데이터
이보다 더 Powerful 할 순 없다.


예를 들어, 제 글과 사진 데이터들이

이름, 연락처, 직업과 같은 개인의 정형 데이터 그리고 인구, 소비 및 구매 통계와 같은 거시적 정형 데이터와 결합된다면 매우 강력해집니다. 결국 정형 데이터와 비정형 데이터를 결합하면 기존에 우리가 풀 수 없었던 문제들에 보다 근본적으로 접근할 수 있습니다. 그리고 기존보다 데이터로 설명할 수 있는 현상의 범위가 넓어질 것입니다.


이러한 의미에서 기업들은 다음과 같은 데이터 선순환 구조를 만들고 있습니다.

1. 기업의 서비스를 많은 사람들이 사용한다.
2. 데이터가 많아진다.
3. 인공지능의 학습 양이 많아진다.
4. 인공지능이 더 똑똑해진다.
→ 다시 1. 더 많은 사람들이 사용한다.


오늘은 데이터를 쉽게 찾고, 효율적으로 쓰는 방법에 대해 알아보았습니다. 데이터는 정형과 비정형으로 나뉘고 둘이 하나가 되었을 때 그 힘이 커진다라는 사실을 알게 되었습니다.


그리고 이러한 데이터는 많아질수록 인공지능이 똑똑해지고 사람들이 많이 모이고 또 비정형 데이터가 많아지는 선순환 구조까지 이해했습니다.


데이터로 이루어진 세상, 데이터를 이해하고 활용한다면 기존에 해결하지 못한 문제를 해결하는데 도움을 줄 것이 분명해 보입니다. 감사합니다.


매거진의 이전글 27 뚜루뚜루 빵집에서 Cafe 카페 그룹이 되기까지
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari