빅데이터

[4IR-3.4] 4차 산업혁명 기술 이해-4

Dec 15. 2018

빅데이터의 의미

빅데이터(Big Data)는 통상 3V(즉, Volume, Variety, Velocity)가 특징인 데이터를 가리킨다. Volume(즉, 양이 많다)은 수백 테라바이트(TB: Tera byte, 1조 바이트- Giga Byte의 1천 배) 이상이라는 의미이다. Variety(즉, 다양하다)는 숫자/문자 같은 정형(structured) 데이터 외에 긴 문장/문서, 사진, 동영상 같은 비정형(unstructured) 데이터를 포함한다는 의미이다. Velocity(즉, 속도가 빠르다)는 데이터 발생으로부터 처리, 활용에 이르는 사이클이 짧다는 의미이다. 데이터는 과거에는 일/월 단위 식으로 일괄(batch)처리되던 것이 기술 발전에 따라 준(準) 실시간 처리(예: ‘1~2분 이내’), 실시간(real-time) 처리(예: 5G 통신 경우, 1천 분의 1초) 수준으로 발전되고 있다.

데이터는 갑자기 중요해진 것이 아니라 지난 반세기 동안 계속 중요한 대상이었다. 다만, 최근 위와 같은 특징을 가진 빅데이터가 축적되고 관련 기술(예: 센서, SNS, 인공지능, 클라우드, 4G/5G 통신망)이 발전된 덕분에 복잡하면서 변동성이 큰 문제를 해결할 수 있는 기회가 더 커졌을 뿐이다. 예를 들면, 환자 개인의 유전자 정보(0.5~1 GB)와 그보다 많은 질병기록 정보, 또 그보다 훨씬 많으면서 질병 원인 추적에 쓰일 수 있는 생활정보 등을 수집-분석-활용할 수 있다면, 4P 의료 즉, 예방(preventive), 예측(predictive), 참여(participative), 맞춤(personalized) 의료를 실현하는 데 큰 도움이 될 것이다. 한편, 데이터는 데이터 자체가 중요한 것이 아니라 의사결정에 유용한 정보(information)로 활용되어야 하고, 나아가 지식(knowledge)으로 축적, 전수되어야 한다. 이런 점에서, 최근 빅데이터의 특성을 3V에 Value(즉, 가치)를 더한 4V로 설명하기도 한다. ‘구슬이 서 말이라도 꿰어야 보배’라는 속담처럼, 빅데이터가 정보와 지식으로 활용, 축적되지 못한다면 의미가 없다는 것이다.

빅데이터 등장/발전 배경

데이터 양(volume)은 데이터의 생산-관리-유통-활용 전 과정에서 증가하고 있다. 시장조사 기관인 IDC에 의하면, 2025년까지 전 세계 데이터 양은 163ZB (Zeta Byte, 10의 21승 바이트; 1ZB는 1 Tera Byte의 10억 배)에 이를 것이라고 한다. 데이터 양이 급격히 증가한 것은 ICT를 포함한 기술 발전과 디지털 경제 확산, 그리고 사회, 문화 전반에서 개인/집단의 의사 표현과 소통이 늘어났기 때문이다. 1990년대 인터넷/웹 기술, 2000년대 스마트 기기와 모바일 앱 발전에 따라 숫자/문자 데이터는 물론 사진, 동영상 같은 멀티미디어 콘텐츠를 쉽고, 빠르게, 또 경제적으로 생산, 유통할 수 있게 되었다. 각종 센서(예: RFID, GPS)와 웨어러블 기기 발전, 그리고 SNS 확산에 따라 데이터의 수집이 용이해졌다. 메모리 기술(예: 나노 반도체, 클라우드)과 DB 기술(예: 분산파일시스템, 인메모리 DB) 발전에 힘입어서 대용량 데이터의 저장/관리도 용이해졌다. 한편, 기업/간 경쟁이 심화되고 사회 전반의 복잡성이 커짐에 따라 의사결정의 합리화를 위해 의미있는 정보/지식에 대한 수요가 커졌다. 그 결과, 데이터 처리 결과를 그래프나 이미지로 보여주는 시각화(visualization) 기술도 발전했다.

데이터 다양성(variety)이 커진 이유로 데이터 생산 방식과 유통 채널이 다양해진 것을 꼽을 수 있다. 개인생활에서는 예를 들면, 많은 사람들이 취미활동, 여행, 오락 관련 글, 사진, 동영상 등을 블로그나 카페, SNS 등을 통해 교환/공유하고 있다. 기업에서는 예를 들면, 내부 직원 및 외부 파트너들과 문서, 이미지, 설계/제조 도면 등을 공유하고 소비자/고객의 감정, 상태, 소비패턴 등을 수집, 분석, 대응하고 있다. 각종 센서(예: 위치 센서, 온도/습도/압력 센서, 홍채/지문 인식 센서)로부터 입수된 신호 데이터는 사람, 자재, 장비/설비 등의 상태를 모니터링 & 제어하는데 활용된다. 과거 컴퓨터에서 처리되는 데이터의 대부분이 정형 데이터였던 것과는 달리 최근에는 비정형 데이터가 전체 데이터의 10~20%를 차지하고 있다.

데이터 처리 속도(velocity)가 빨라진 것은 컴퓨터 HW, SW, 정보통신망, 그리고 각종 센서의 발전에 힘입은 것이다. 구체적으로 HW 측면에서는 반도체를 포함한 부품의 성능 향상과 가격 하락, SW 측면에서는 저비용이면서도 더 빠르고 정확하게 데이터를 관리할 수 있는 데이터 저장/관리 기술(예: 하둡) 발전, 그리고 이동통신망(예: LTE, LTE-A)과 무선통신망(예: 블루투스, 지그비) 기술 발전 등에 따라 실시간 처리가 가능해졌다.

빅데이터 처리 기술

빅데이터 기술은 두 가지 관점 즉, 빅데이터 처리 솔루션을 공급하는 기업과 빅데이터를 활용하는 수요 기업 관점에서 나누어 볼 수 있다. 우선, 공급 기업 입장에서 빅데이터 기술은 빅데이터 수집/획득, 저장/관리, 분석/가공, 시각화 기술 등을 포함한다. 데이터 수집/획득 기술은 (1) 기업 내부 DB(예: 일상업무/거래처리용 DB, 의사결정용 데이터 웨어하우스)로부터 Open API를 이용해서 추출하거나, (2) 기업 외부 인터넷에서 ‘웹 크롤링(crawling)’ 같은 기술을 이용해서 긁어오거나, (3) 기업 내/외부의 센서로부터 직접 받는 기술이다. 데이터 저장/관리에는 관계형 DB(예: SQL) 외에 비정형 분산 데이터에 강한 NoSQL(즉, 비표준 SQL, 예: 몽고 DB, 카우치 DB, HBase, 카산드라) DB가 활용된다. 데이터 분석/가공은 데이터 웨어하우스를 통한 다차원 분석 중심 OLAP(Online Analytic Processing), 데이터 마이닝, 텍스트 마이닝, 머신러닝, 통계학 등이 활용된다. 데이터 가시화는 분석/가공된 데이터를 시간, 공간, 분포 등에 따라 요약 정보 또는 그래프로 보여주는 기술이다.

2000년대에 들어서서 빅데이터 처리 기능을 제공하는 여러 가지 모델/도구들이 등장하였다. 2003년 구글이 개발한 자바 기반의 공개 SW 프레임워크인 하둡(Hadoop)은 분산파일시스템(HDFS: Hadoop Distributed File System), OS Abstraction(즉, 다수의 상이한 플랫폼 위에서 가동될 수 있는 OS 역할 수행), 맵리듀스 엔진 등으로 구성되어 있다. 맵리듀스는 Map 함수로 동일 유형의 데이터를 모으고, Reduce 함수로 유사 데이터를 병합하는 기술이다. 하둡은 안정적인 가운데 다양한 기능을 제공하지만, 데이터를 디스크로부터 읽어서 뱃치처리하는 방식이어서 상대적으로 느리다. 2009년 UC 버클리에서 개발된 스파크(Spark)는 메모리 내에서 데이터를 읽고 쓰는 인메모리(In-Memory) 방식이어서 하둡에 비해 100배 정도 빠르므로 실시간 처리가 필요한 문제에 적합하다. 2011년에 등장한 스톰(Storm)은 실시간 처리와 인메모리 처리를 지원한다. 데이터의 분석/가공 내지 가시화에는 태블로(Tableau), 스플렁크(Splunk), 재스퍼(Jasper) 같은 비즈니스 인텔리전스(BI: Business Intelligence) 도구가 활용된다.

한편, 수요 기업 입장에서 빅데이터 기술은 빅데이터 플랫폼, 애플리케이션, 서비스 등을 포함한다. 빅데이터 플랫폼은 빅데이터 공급 기업이 제공하는 솔루션의 핵심 부분이며 실제로는 빅데이터 외에도 사물인터넷(IoT), 인공지능 및 클라우드 서비스 등을 함께 제공한다. 빅데이터 애플리케이션은 제품 수명주기활동 즉, R&D로부터 제품/서비스 기획, 설계, 제조/생산, 마케팅/판매, 물류, 사후지원(A/S) 등을 지원한다. SAP사의 HANA 경우, 거래 DB, 데이터 웨어하우스, 센서 데이터, 모바일 데이터, SNS/텍스트, 지리공간정보 등 DB를 통해 주문처리, 일상업무 보고서, 실시간 위협/사기 분석, 트렌드 분석, 감정분석, 예지분석, 패턴인식, 위치기반 분석 등 애플리케이션(또는 서비스)을 제공한다.

빅데이터의 가치와 해결과제

‘4차 산업혁명의 원유(原油)’로 비유되는 빅데이터는 다른 기술과 마찬가지로 잘 쓰면 약이지만 그렇지 않다면 오히려 해가 될 수도 있다. 또한, 잘 쓰기 위해서는 여러 가지 문제점을 해결하기 위한 개인, 기업, 국가 차원의 노력이 병행되어야 한다. 빅데이터가 우리에게 제공하는 가치를 한 마디로 얘기한다면 ‘과거에 잘 몰랐던 새로운 지식을 통해 의사결정을 합리화 내지 고도화해 준다는 점’이다. 데이터 마이닝이나 머신러닝을 통해 얻게 되는 ‘새로운 지식’은 자기가 배우거나 경험을 통해 알고 있는 지식에만 의존하는 경향 즉, 인간의 제한적 합리성(bounded rationality)을 극복할 수 있게 해 준다. 빅데이터 활용 분야로 미래예측, 숨은 니즈 발견, 리스크 경감, 맞춤형 서비스, 실시간 대응 등을 꼽기도 한다(출처: 박성민/SERI, "기업의 신경쟁력, 빅데이터 큐레이션", 2013. 4. 10.). ‘미래예측’ 또는 ‘리스크 경감’은 예상되는 미래 또는 위협을 어떻게 준비/대비해야 할지 결정하기 위한 작업이며, ‘숨은 니즈 발견’ 또는 ‘맞춤형 서비스’는 고객의 니즈에 부합하는 제품/서비스를 결정하기 위한 작업이다.

빅데이터를 통해 위와 같은 가치를 얻으려면 데이터 수집-관리 효율 향상을 위한 기술발전이 지속되고 데이터 활용을 고도화하기 위한 인력 양성, 조직 발전, 제도 정비가 선결되거나 병행되어야 한다. 빅데이터 기술 자체는 분산되어 있고 이질적이며 양이 많은 데이터를 발생 지점/시점에 즉각 수집하고(예: 센서, 에이전트 SW) 적절한 여과장치를 거쳐서(예: 데이터 클렌징, 엣지/포그 컴퓨팅) 여러 대의 서버/DB에 저장해 두었다가(예: 분산 DB, 클라우드 컴퓨팅) 필요시, 데이터를 모으고 분석해서(예: 맵리듀스) 문제 상황에 알맞은 형태로 가공, 제공(예: 가시화)하는 일련의 과정이 낮은 비용/노력으로 빠르고 정확하게 진행될 수 있도록 고도화되어야 한다. 또한, 데이터의 오/남용 방지, 소유권/개인정보 보호, 보안 유지 등을 위한 기술 및 제도 발전도 필요하다. 구글, 아마존, 페이스북, 애플 등 플랫폼 기업은 이용자가 인지하거나 인지하지 못하는 가운데 엄청난 데이터를 수집, 분석, 활용함으로써 경제적 이득과 더불어 사회적 영향력을 키우고 있다. 빅데이터를 특정 기업이나 국가가 독/과점하게 될 경우, 이른바 디지털 제국주의 또는 감시사회가 될 가능성에 대비해야 한다.

기업 입장에서는 빅데이터를 어떻게(‘how’) 처리할지, 무엇을(‘what’) 수집-관리-활용해야 할지 등과 함께 왜(‘why’) 빅데이터에 주목해야 하는지(즉, 전략, 목적, 문제)에 대해 고심해야 한다. 가트너는 빅데이터 활용 목적을 고객 관계관리/경험의 변화, 내부 프로세스/효율성 개선, 신규 가치제안(Value Proposition) 창출 등으로 꼽고 있다. 따라서, 빅데이터는 기업 내 IT 부서뿐만 아니라 전략 수립, 제조, 유통/물류, 인력/재무/자산관리 등 모든 현업 부서의 관심사가 되어야 한다. O'Reilly사(2013)는 빅데이터 전문인력을 Data Business Person(데이터 활용자), Data Creative(데이터 기획자/모델러), Data Developer(데이터 개발자), Data Researcher(데이터 연구자) 등으로 구분하고 있다. 빅데이터 관련 인력은 경영학/산업공학, AI/머신러닝, 프로그래밍, 수리/통계모형 등에 대한 지식을 두루 갖추어야 한다. 또한, 개인/기업/국가 차원의 의사결정 시스템이 주먹구구식이 아니라 데이터에 기반한 시스템이 되도록 하는 조직문화도 구축되어야 한다.

데이터 기반 vs. 모델 기반 의사결정

빅데이터는 만병통치약일까? 데이터는 인간이 생각하고 행동한 결과로 만들어진 것이다. 빅데이터는 몰랐던 지식을 찾아 준다는 점에서 가치가 있지만, 그것 또한 인간 지성의 한계를 크게 벗어나기는 어렵다고 봐야 한다. 한편, 인류 역사는 상상력과 창의성이 높은 기술자, 전문가들이 새로운 이론이나 장치 등을 발견/발명함에 따라 발전해 왔다. 인간 행동의 결과물인 데이터 이상으로 인간 행동의 근거/기준이 되는 모델의 발전이 중요하다는 것이다. 따라서, 데이터/지식/증거(evidence) 기반 의사결정 못지않게 모델 기반 의사결정에 대한 연구와 실행도 중시되어야 한다. AI 연구에서도 데이터 기반 AI (예: 인공신경망 기반의 연결주의, connectionism)와 모델 기반 AI (예: 전문가 시스템 같은 기호주의, symbolism)의 융합 필요성이 제기되고 있다.

keyword

작가의 이전글머신러닝과 딥러닝클라우드작가의 다음글