[Data]#3 좀더 알아두면 좋은 데이터의 속성들

by 책쓰는 프로그래머 유동

Mar 2. 2018

들어가는 글: 2화에 이어서 데이터가 가지는 성질 혹은 속성들에 대해서 좀더 알아보도록 하겠습니다.

## 페이스북에서 공유 받은 글인데 제가 말씀드리는 논지와 비슷한 글이 있어서 소개드립니다. 흥미롭고 깊이있는 글이니 꼭 읽어보세요. 더욱이 '삼국지' 게임을 소재로 해서 추억이 더 돋네요 +.+

제목: '게임이든, 현실이든 데이터에 갇히면 상상력을 놓쳐'

출처: 동아 비즈니스 리뷰 DBR

링크: http://dbr.donga.com/article/view/1203/article_no/8552

1. 저량(stock) vs 유량(flow)

사실 이 단어는 '회계학'에서 나오는 단어입니다. 전통적인 프로그래머나 데이터를 다루는 '과학자'들도 관련 업무를 하지 않으면 들어보기 어려운 단어입니다. 하지만 회사를 설명하는데 회계만큼 훌륭한 자료는 없습니다.

회사는 자산(asset)을 가지고 있습니다. 그리고 자산은 부채(liability)와 자본(equity)로 이루어져있죠.

즉, 자산 = 부채 + 지분 입니다. 예를 들어 A라는 회사가 공장을 1억, 토지를 1억, 재고를 1억 가지고 있으면 그 회사의 자산은 총 3억이됩니다. 그때 그 3억중 2억은 은행에서 빌리고 1억은 유상증자로 마련했다면 2억은 부채 그리고 1억은 자본이됩니다.

한편 회사는 매출을 발생합니다. 2018년 (아직 3월이지만)에 2억의 매출을 올리고 1억을 인건비로 쓰고 0.5억은 2억의 부채를 상환하는데 썼다면 남은 0.5억이 영업이익이 됩니다.

(여기는 회계학에 대한 글이 아니므로 상황을 단순하게 요약하였습니다)

이렇게 길게 회사에 대해 설명드리는 이유는 데이터의 속성을 모르면 이러한 질문을 할 수 있기 때문입니다.

Q) 자산하고 매출을 더할 수 있나?

사실 데이터를 숫자라고 생각하면 숫자대 숫자니까 더하고 빼고 나눌 수 있겠지요. 하지만 2화에서 '단위가 있는 데이터' vs '단위가 없는 데이터'에서 말씀드렸듯이 유량과 저량은 분리해서 처리해야 합니다.

자산은 지금까지 회사가 영업을 하면서 쌓아온(그래서.. stock 혹은 저량이라고 합니다) 숫자입니다. 그 숫자는 작년(기말)의 데이터를 기준으로 늘어나거나 줄어듭니다.

하지만 매출은 올해(당기)에 발생한 내용입니다. 작년에 발생한 매출과는 관계없이 순수하게 올해 영업, 판매, 로열티등으로 벌어들인 데이터입니다. 따라서 매출과 같은 데이터는 유량(flow)이라고 합니다. 올해가 끝나면 다시 0으로 시작하는 데이터이기 때문입니다.

그러면 이 두개의 데이터는 어떻게 분석해야 할까요?

a) 저량 데이터는 작년대비 어떻게 증감되었는지를 보는 것이 필요합니다. 늘었는지 줄었는지 등

b) 유량 데이터는 올해의 데이터가 어떻게 구성되어 있는지 작년의 것과 비교해보면 좋습니다. 예를 들어 매출이라면 신제품 매출이 늘었는지 아니면 재고처분한 매출이 늘었는지 등등입니다.

이렇게 데이터의 속성을 알고 있다면 데이터를 '숫자'로만 바라보는 함정을 피할 수 있습니다.

2. 평균의 함정

중고등학교 혹은 대학교에 올라가면서 다양한 평균들을 배우게 되는데요.. 제가 아는 평균만 해도

1) 산술 평균

2) 기하 평균

3) 조화 평균이 있고

4) 확률 변수의 기댓값(모평균)도 평균의 범주에 들어간다고 합니다 ㅋ (저도 위키를 찾아보고 알았네요)

데이터를 분석하는 사람은 항상 '평균'으로 퉁쳤을 때 문제가 없는지 잘 살펴봐야 합니다.

평균의 장점은 어떤 대상을 가장 손쉽게(?) 일반화할 수 있다는 점입니다. 줄 세우기도 좋구요.

가장 비근한 예로 '어느 나라가 잘사나?'의 지표로 쓰이는 '일인당 GDP'가 있습니다. GDP는 국내총생산이며 일인당 GDP는 그것을 인구수로 나눈 것입니다. 즉 국민이 얼마나 벌었는지를 '평균'적으로 알려주는 것입니다.

아래의 나무 위키를 보니 대한민국은 $29,730로 당당히 29위를 차지하고 있습니다.

이웃나라 일본은 $38,550 으로 25위

중국은 $8,583 으로 76위입니다. 세계에는 잘 사는 나라가 많습니다 :-)

퉁쳐서 3만불 시대가 열렸는데 평균 4인 가족이라면 12만불 (대략 1억 3천)은 어디있는 것일까요?

평균만 가지고 대상을 기술하기 어려운 이유는 평균이 확 높거나 확 낮은 (이상치)에 취약하기 때문입니다. 예를 들어 10명이 1000만원씩 가지고 있다면 평균 1000만원인데 11번째가 10억을 가지고 있다면 총합은 11억이 되어 평균 1억이 되어 버립니다. 물론 분모가 크면 클 수록 평균이 가운데로 수렴하지만 그러면 더더욱 '부익부 빈익빈'을 설명하지 못하는 문제가 발생하게 됩니다.

- 평균 1000만원 : 10명이 모두 1000만원씩 가졌을 때

- 평균 1억 : 10명 1000만원 + 1명 10억을 가졌을 때

무려 평균이 10배가 뛰는 것이죠.

이러한 약점이 있기 때문에 평균을 구하는 다양한 방식이 존재하고 그것을 보완하기 위해서 편차, 표준편차, 분산 등의 개념들이 추가되기 시작했습니다.

결론

데이터를 다룬다는 것이 '통계'를 하는 것은 아닙니다. 당연히 미지의 모집단을 추정하는 통계적 기법이 데이터를 다루는데 근간을 이루기는 하지만 '과학적' 데이터를 다루는 방법이 다르고 경제/경영과 같이 '사회적' 데이터를 다루는 방법이 다릅니다. 두가지 모두 개별 데이터의 성격(속성)을 알고 있어야 올바른 분석을 할 수 있습니다. 그래서 단기 속성 '데이터 과학자' 코스로는 많은 한계점을 가질 수 밖에 없습니다.

다음은 요즘 핫한 (공기질 데이터)로 몇가지 재밌는 얘기를 나눠보도록 하겠습니다.

관심있는 분들은 https://www.airkorea.or.kr/index (에어코리아)에 한번 가보세요.

안드로이드 앱도 제공합니다.

[참고자료]

1) 평균 (위키) : https://ko.wikipedia.org/wiki/%ED%8F%89%EA%B7%A0

2) 국가별 일인당 GDP 순위(명목, 나무위키) :

https://namu.wiki/w/%EA%B5%AD%EA%B0%80%EB%B3%84%201%EC%9D%B8%EB%8B%B9%20GDP%20%EC%88%9C%EC%9C%84(%EB%AA%85%EB%AA%A9)

keyword

매거진의 이전글[Data]#2 데이터를 처음 만날 때[Data]#4 데이터는 왜 분석할까매거진의 다음글