디지털 바다 속의 가치 '빅데이터'

비즈니스 성장을 위한 필수 요소?!

by 플리토

최근 들어 '데이터 리터러시'라는 말이 부쩍 많이 들립니다. 수많은 데이터에서 숨겨진 의미를 파악하는 데이터 해독 능력을 말합니다. 빅데이터 시대의 생존 요건이라고까지 말하는 걸 보면, 비즈니스를 위한 데이터 활용은 이제 필수가 된 것이겠죠.


기업은 시장이나 고객을 정확하게 분석하고 효율적인 의사 결정을 위해 최대한 많은 리소스를 활용하고자 합니다. 물론 과거에도 비즈니스 의사 결정에 데이터를 활용해왔지만, 유의미한 데이터를 확보하고 처리하기 위해 비용적, 시간적 측면에서 어려움이 많았죠. 하지만 기술이 점차 발달함에 따라 비정형 데이터까지 포함한 많은 양의 데이터를 처리할 수 있게 되면서 데이터 활용도가 더욱 높아진 것입니다.


이번 글에서는 빅데이터가 무엇인지 알아보려고 합니다. 빅데이터 그중 언어 데이터는 무엇인지, 기업에서는 데이터를 어떻게 활용할 수 있는지 살펴보려고 합니다.



빅데이터란 도대체 뭘까?


디지털 환경에서 생성되는 데이터는 사용자들의 모든 행동이 곧 데이터가 됩니다. 규모 자체도 방대하지만 생성 주기도 매우 짧고 형태 또한 다양합니다. 데이터는 형태의 유무, 연산 가능성에 따라 정형, 비정형으로 구분하는데요. 빅데이터는 정형 데이터는 물론 수집, 저장, 분석 등이 어려운 비정형 데이터까지 모두 포함합니다.


먼저 정형 데이터는 틀이 잡혀 있는 체계화된 데이터입니다. 안정성은 높지만 변형이 유연하지는 않죠. 구조가 정해져 있기 때문에 손쉽게 저장하고 또 관리할 수 있습니다. 금융, 제조 등 대부분 기업이 업무용으로 보유하고 있는 데이터베이스가 정형 데이터에 속합니다.

그렇다면 비정형 데이터는 어떤 것일까요? 정형 데이터와 다르게 틀이 잡혀 있지 않은 데이터인데요. 텍스트는 물론 이미지, 음성, 영상, 소셜 미디어 콘텐츠나 댓글 등의 데이터를 모두 포함합니다. 방대한 양에 다양한 형태의 비정형 데이터는 분석 처리 기술을 거쳐야만 활용이 가능해집니다.


PC 그리고 모바일 기기 이용이 늘어나면서 디지털 환경에 생성되는 데이터 또한 급격히 증가하였습니다. 전문가들은 데이터의 90%가 비정형 데이터라고 합니다. 결국 데이터라는 원석을 기업이 알맞게 활용할 수 있도록 적절한 기술이 중요한 시점이죠.


analytics-3088958_1920.jpg

빅데이터의 특징은?


미국의 시장조사 전문기관인 가트너(Gartner) 그룹은 빅데이터를 두고 '크기(Volume), 속도(Velocity), 다양성(Variety)의 특징을 가지고 있다'라고 정의했습니다. 더 자세하게 보면, 데이터의 방대한 '양', 그리고 적시성 있게 저장, 수집, 분석 등이 가능한 '속도', 정형/반정형/비정형 데이터 등 '다양성'을 말합니다. 보편적으로는 이 크기, 속도, 다양성이라는 특징에 정확성(Veracity), 즉 데이터 퀄리티에 대한 신뢰성까지 꼽아 빅데이터의 4V 특징이라고 말합니다.


나아가 비즈니스, 연구 등에 지니는 유의미함, 가치(Value)까지 더해 5V 라던지 같은 데이터도 목적에 따라 다른 의미를 가지는 가변성(Variability)과 데이터의 시각화(Visualization)까지 7V로 확장되기도 합니다.



언어 데이터?


언어 데이터는 코퍼스라고도 합니다. 한국어로는 말뭉치라고 불리는 코퍼스는 실제로 사람들이 소리 내서 말하거나 써낸 글을 모은 데이터입니다. 번역에 필요한 코퍼스는 번역 원문의 언어인 출발어와 번역문의 언어인 도착어를 묶어 병렬 코퍼스라고 합니다. 코퍼스는 학문, 연구, 교육 등에 쓰이죠.


우리가 이렇게 언제나 사용하는 말과 글, '언어'는 사용 목적과 상황에 따라 형태가 매우 다양하기 때문에 언어 데이터는 필요에 따라 다양한 곳에서 수집됩니다. 책, 신문, 인터넷 뉴스, 학술 논문 등 비교적 정리된 자료는 물론 SNS 포스트, 이커머스 내 구매 후기, 서비스 이용 후기, 채팅, 노래 가사, 음성 대화 등 언어가 사용되었다면 모두 수집, 저장되어 분석 처리 대상이 될 수 있어요.


언어 데이터는 언어 처리 연구의 기초 데이터로 사용되고, 음성 인식 또는 다국어 번역 분야의 소프트웨어 개발에도 활용됩니다. 예를 들어 텍스트 형태의 데이터는 인공지능 번역 서비스 개발이나 고객 서비스 기업에서 많이 활용하는 챗봇을 개발하는 데 필요하고, 내비게이션이나 블루투스 스피커 등의 음성 인식 정확도를 높이려면 많은 양의 음성 데이터가 필요합니다.


fabio-oyXis2kALVg-unsplash.jpg



빅데이터, 기업에서는 어떻게 활용할까?


앞서 말한 언어 데이터를 포함해 다양한 데이터가 사회 전반에서 활용되고 있습니다. 소셜 미디어 빅데이터 분석을 통해 감염병 발생 전후의 소비 패턴 변화를 살펴보기도 하고, 키워드 검색량, 메시지의 긍정/부정 톤 분석 등의 데이터로 선거 결과를 예측하기도 합니다. 이밖에도 데이터는 브랜드 및 경쟁사 분석, 소비 트렌드 분석을 통한 상품 개발, 마케팅 성과 측정, 위기관리 전략 수립 등에 활용되고 있습니다.


넷플릭스는 성공 요인으로 빅데이터를 꼽기도 했는데요. 넷플릭스는 사용자 분석을 위해 유저들의 시청 습관 데이터를 수집하고 분석합니다. 분석 결과 기반의 콘텐츠 추천은 물론, 시청자의 취향에 맞게 포스터를 선정해 콘텐츠 시청 유입률을 높이고 있다고 해요.


카드사에서는 구매 품목, 시점, 위치 등의 빅데이터를 활용해 성향을 파악하고 맞춤형 할인 혜택을 주는 경우도 있습니다. 은행 및 보험사에서는 보험 사기, 서버 침입 등 리스크 및 보안 관리를 위해 빅데이터를 시스템 운영에 활용하기도 합니다.


번역 엔진 또한 데이터를 활용한 사례입니다. 기계에 문법, 문장 구조 등을 가르치는 것이 아니라 언어 데이터를 입력해 처리하는 것이죠. 원문과 사람이 번역한 번역문 데이터를 수백, 수천 개 학습시켜 각 언어의 문장 구조, 언어 간의 번역 규칙 등을 스스로 파악하게 만듭니다. 이때 데이터가 많으면 많을수록 더 정확하고 자연스러운 번역 결과가 나오는 것이죠.



이 좋은 데이터, 어떻게 활용할 수 있을까?


대부분의 기업이 신사업 전략 설정 시 활용한다는 '데이터', 여러분의 사업이나 서비스에도 활용할 수 있습니다. 필요한 데이터를 어디서 구해야 할지 모르겠다면 또는 내 사업에 어떤 데이터를 활용해야 할지조차 잘 모르겠다면, 일단 지금 바로 활용 가능한 다양한 유형의 공공 데이터를 확인해보세요. 소상공인 비즈니스에 도움이 될 상가 정보, 도로교통공단에서 제공하는 교통사고 통계 등은 물론 코로나 19 예방접종과 관련된 최신 데이터까지 자유롭게 활용하실 수 있어요.


빅데이터, 멀게만 느껴지셨다면 이번 콘텐츠가 조금이나마 도움이 되었길 바라며, 공공데이터 포털 페이지를 아래에 함께 소개합니다. 꼭 한번 확인해보시길 바랍니다 :)



공공데이터 목록 확인하기


공공데이터 활용 사례 바로가기


keyword