brunch

You can make anything
by writing

C.S.Lewis

by 데이터파머 DataFarmer Nov 09. 2023

#4 데이터 이해하기 (데이터 탐색#2)

#데이터사이언스 #데이터마이닝 #데이터분석 #프로세스마이닝 #라라크루

"데이터 사이언티스트"로 살아가기 라는 주제로 글을 연재하고 있다.

사실 지난 #3번째 글은 의도치 않게 이런 질문을 하면서 시작하게 되었다.


"아무런 배경지식 없이 데이터를 마주할 때 어떤 느낌일까?"


한 걸음 더 나아가서는 아래와 같은 질문에 대한 답을 하지 못해서였다.


"데이터 분석도 어려운 과정이지만, 데이터 자체에 대해 나 혼자만 관심 있어하는데, 이 글을 쓰면 어떤 사람들이 재밌게 볼 것인가?" 

"독자들은 재밌어할까?"


이런 질문을 하다 보니 좀 더 친근하게 데이터와 인간관계를 써보았다.


오늘부터는 한 층 공감대는 다소 낮아지겠지만, 내가 보는 데이터에 관해 이해하고, 분석하는 과정을 써본다.


분석할 데이터는 우리 병원에서 함께 일하는 로봇에 관한 데이터이다. 


동물은 죽어서 가죽을 남기고, 사람은 죽어서 그 이름을 남기는데, 로봇은 무엇을 남길까?

정답은 데이터이다.


우리 병원을 시속 700m, 즉 분당 10m 밖에 안 되는 느린 걸음으로 하루 종일 병원 구석구석을 돌아다니는 이 로봇은 사람의 요청에 따라 여러 가지 물건을 싣고 배달을 한다.


데이터 분석의 프로세스는 데이터 수집 -> 저장 -> 처리 -> 분석 -> 시각화 및 활용 단계로 이루어져 있다.


데이터 분석 flow


이 로봇들의 일거수일투족을 데이터로 이해할 것이고, 그 첫 단추가 데이터 탐색이다.

데이터의 일부는 아래와 같이 생겼다. 무슨 이름인지 모르는 칼럼 명들도 있고, 데이터 하나하나는 알 수 없는 숫자와 영어의 조합으로 이루어진 경우도 있고, 영어 단어나 날짜 등의 여러 문자와 기호를 통해 표현된다.


이렇게 로봇이나 기계 혹은 어떤 장치들로 하여금 본연의 그대로 날것의 형태로 나오는 데이터를 Raw data라고 부른다. 미가공 상태의 원 데이터라는 뜻으로 무슨 정보를 갖고 잇기는 하지만 처리되기 전의 형태로 그 의미를 알기는 여간 쉽지 않다.


raw data

이렇게 정보화되지 않은 데이터를 이해하는 것이 데이터 탐색이다.


제일 먼저 이 데이터를 이해하기 위해서는 제조사의 매뉴얼을 보아야 한다. 제조사들은 RestAPI 등 다양한 형태로 데이터를 공유한다. 그리고 그것과 관련해서 매뉴얼을 만들어 놓는다.

https://thinq.developer.lge.com/ko/cloud/docs/thinq-connect/api-reference/device-api/


매뉴얼을 일부 내용을 보면 내가 원하는 항목들이 숨겨져 있는 컬럼이 있다.

API data 공유 방법


찾았다. 바로 robot action이라는 부분의 Description 값들이 내가 찾고 싶어 하는 종류이다.

robot API 항목 값


이제 이 항목들의 값이 로봇이 병원을 지나다닐 때 어떻게 변하는지 살펴보고, 우리가 요청한 업무를 어떻게 수행하는지 탐색 분석을 계속해나갈 것이다.



매거진의 이전글 #3 데이터로 삶을 이해하고 말하기 (데이터 탐색#1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari