데이터, 정확하게 알기

Data X Design Workshop 2번째 시간

Jun 12. 2017

정보 디자인에서 가장 중요한 것은 예쁜 디자인이 아니라 왜곡하지 않는 데이터 디자인이다. Form follows Function을 추구하는 디자이너라면 자연스럽게 이해할 내용이다. 정확하게 구현한 데이터가 가장 직관적으로 이해시킬 수 있을테니. 데이터 자체가 정확한지도 중요하고, 그 정보를 시각적인 왜곡 없이 구현하는 것은 더더욱 중요하다.

국내에서는 기사 왜곡만큼이나 차트 왜곡이 매우 심각하게 발생한다고 한다. 한국은 특히 이 분야에 관심이 많지 않다보니 정보 왜곡에 비해 차트에는 지적이 덜하다. 신문사나 방송사에서도 제일 힘 없는 말단 디자이너(혹은 디자이너 아닌 누군가...)가 작업하는 경우가 많다고.

선생님이 이해하기 쉬운 예시로 매일경제 기사(원문)를 보여주셨다. 왼쪽이 원본이고 오른쪽이 내가 다시 그려본 차트다. 기울기가 전혀 다르다. 하지만 기준선도, 시작점도 없기 때문에 얼핏보면 자살 사망률이 대단히 급증하는 것으로 오해하기 십상이다. 그동안 뉴스에서 본 수많은 차트들 중 내가 모르는 사이 잘못 이해한 게 있을 거라 생각하니 아찔하다.

선 그래프는 기준선과 시작점이 있는 게 좋고, 원 그래프는 비례가 틀리기 쉬우니 표현할 때 특히 유의해야한다는 점을 알게 되었다.

여러 뉴스 사례들을 본 후 본격적인 수업에 들어갔다. 워크샵 두번째 시간에는 데이터에 대한 기초 지식을 얻었다. 막상 배울 땐 재밌었는데 내가 글로 쓰고보니 지루해졌다. 하지만 지금은 데이터에 대한 객관적인 지식을 습득하는 시기이고, 이후에 팀 프로젝트에서 재밌는 스토리를 구상하다보면, 그게 글에도 반영되리라 기대해본다ㅋㅋ

1. 데이터와 정보

데이터는 아직 구조화(categorize, sorting) 되지 않은 상태를 의미한다. 독립된 개별 사실들의 나열이 데이터, 관계있는 데이터들을 모아 구조화한 것이 정보이다.

사전적 정의 [네이버 지식백과]

데이터(data) : 현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실(fact)이나 값(value)

정보(information) : 데이터를 의사 결정에 유용하게 활용할 수 있도록 처리하여 체계적으로 조직한 결과물

맥랑상회 DB의 일부

내가 진행했던 양조장 DB를 예시로 들어보자면, 저 칸 하나 하나를 채우는 건 노가다로 검색해보며 수집해서 채워넣었다. 엑셀에서 칸 하나 하나, 열로 나열된 것들은 데이터라고 할 수 있다. 하지만 id 2번 행을 보면 Korea Craft Brewery는 2014년 7월에 설립되었고 충청북도 음성군에 위치한다는 정보를 얻을 수 있다.

데이터의 중요한 속성 중의 하나는 범용성이다. 어디에서나 잘 열려야하고, 누구나 사용할 수 있어야하고 재가공이 쉬울수록 좋다. 공공기관이나 일반 기업에서는 엑셀을 많이 활용하지만 엑셀은 마이크로 소프트 사의 유료 프로그램이고, 그 프로그램이 없으면 활용에 제약이 생기니 범용성이 덜하다고 할 수 있다. 물론 요새는 변환해주는 기술, 프로그램들이 워낙 많아서 큰 문제가 되진 않는다.

2. 데이터의 종류

CSV는 PC 역사 중 10년 이상의 역사를 지닌 데이터 포맷의 하나이다. 1972년에 CSV를 지원한 OS/360용 IBM 포트란(레벨 H 확장) 컴파일러를 예로 들 수 있다. Comma Seperated Values의 약자이며, 탭으로 구분하는 'tab-separated values'(TSV)나, 반각 스페이스로 구분하는 'space-separated values'(SSV) 등이 있으며, 이것들을 합쳐서 character-separated values (CSV), delimiter-separated values라고 부르는 경우가 많다. (위키)

CSV로 표현하면 Korea Craft Brewery, 2014.07, 충청북도 음성군

TSV로 표현하면 Korea Craft Brewery 2014.07 충청북도 음성군

이런 식이 된다.

데이터는 크게 가로형 데이터와 세로형 데이터로 구분할 수 있다. 말그대로 가로형은 가로로 길고, 세로형은 세로로 길다.

가로형 데이터(Wide data)

가로형 데이터는 2차원 데이터라고도 하는데 같은 카테고리의 데이터는 항상 그룹으로 묶여있다. 세로형 데이터를 요약한 버전이라고도 볼 수 있다. 읽고 해석하는 게 세로형보다 훨씬 쉽다. 공공기관, 기업체 등에서 자주 사용하는 방식인데, 사람이 읽기 좋아야하니까 많이 변형된다고 한다. 칸도 색칠하고, 구분하기 좋게 셀도 병합하고, 폰트도 바꾸고 - 컴퓨터 입장에서는 아마 부질없는 일 혹은 더 혼란스러운 일일 것이다.

세로형 데이터 (Long data)

열 중심 데이터라고도 부르는데, 이는 데이터베이스적인 사고라고 할 수 있다. 각 열은 특정한 카테고리에 속하는 데이터들을 보여준다.

3. 목적에 따른 데이터

활용성이 높은 데이터는 표준화가 잘 되어있는 데이터라고 할 수 있다. 공공데이터는 데이터 리터러시가 높지 않다면 오류를 놓칠 수 있으니 활용에 유의해야한다. 공공기관에서 활용하는 표는 사람이 읽고 이해하기 좋게 만들어진 것들이므로 컴퓨터가 읽기에 적합하지 않다. 그래서 사소하지만 아래 사항들을 염두해서 데이터를 가공하는 것이 좋다.

셀 병합 : 스프레드 시트에서 셀 병합이 되어있는 것들은 보통 병합 해제되면서 한 칸만 데이터가 남는다고 한다. 셀 병합 해제 후 남은 칸들에도 동일한 데이터들을 채워줘야한다.

소계와 총계 : 컴퓨터는 소계든 총계든 모두 같은 행으로 읽는다. 따로 분리해두어야

빈 칸 : 빈 칸으로 두면 해당 칸은 N/A처리가 되버리는데, 그게 0을 의미하는지 데이터가 없다는 걸 의미하는 것인지 모르므로 모든 셀을 빈 칸으로 두어서는 안 된다.

우리가 데이터 관련 툴을 사용하는 목적은 보기 좋은 표를 만들기 위함이 아니라 데이터를 관리하고 정제, 전달하는 것이 목적이므로 누구나 읽을 수 있는 데이터 형식이어야 한다. 데이터가 깔끔하면 구현도 빠르다.

4. 데이터 수집하기

통계청 http://kostat.go.kr/

공공데이터를 얻는 가장 편한 방법이다. 실시간 하수 정보, 대기 정보 등은 API를 공개해서 보여주기도 한다. 보통 아주 흥미로운 데이터들은 아니지만 탄탄하게 서포트해주기 좋은 데이터를 쉽게 얻을 수 있다.

웹스크래핑, 크롤링

웹에 공개된 표, 리스트, 이미지 등을 긁어오는 것인데, 표 데이터의 경우 구글 스프레드 시트로 불러올 때 importhtml 함수를 사용해 긁어올 수 있다...! 그동안 노가다로 셀 하나하나 긁어오는 바보 같은 짓은 안해도 되는 것이었다...

정보공개청구 https://www.open.go.kr/

국가기관, 지방자치단체 등 공공기관이 업무 수행 중 생산, 접수하여 보유, 관리하는 정보를 국민에게 공개함으로써, 국민의 알권리를 보장하고 더 많은 정보를 바탕으로 국정운영에 대한 참여를 유도하기 위한 제도이다. 선생님 말씀으로는 공개된 공공데이터는 별로 재미없고 공무원들 컴퓨터에 재밌는 게 가득하다고.. 청구서 작성할 때 세로형 데이터로 달라, 빈 칸 처리 방식은 어떻게 해달라 구체적으로 전달하면 최대한 맞춰서 해준다.

공공기관은 청구를 받은 날부터 "10일" 이내에 공개여부를 결정해야 하며, 부득이한 경우 10일의 범위 내에서 연장할 수 있다. 처음에 나는 (굽신굽신) 이것 좀 해주시면 안될까요ㅠㅠ 이런 분위기일 줄 알았는데 편안한 마음으로 도전해볼만한 일이었다.

4. 빅카인즈 https://www.bigkinds.or.kr/

한국언론정보진흥원에서 제공하는 뉴스 빅데이터 분석 시스템이다. 뉴스를 수집해서 형태소 분석, 개체명 분석, 네트워크 분석 등을 거쳐 시각화하기도 하고, 재가공하여 컨텐츠를 만들기도 한다. 키워드 시각화에는 관심이 전혀 없었는데 이번 워크샵을 통해 점점 관심이 커진다. 이 사이트를 통해 하루에 만 오천개 정도의 뉴스가 쏟아진다는 사실도 알게 되었다.. 체감하는 것보다 쏟아지는 데이터의 양이 무지막지하게 많다.

5. 케글 https://www.kaggle.com/

Kaggle: Your Home for Data Science

https://www.kaggle.com/

정말 충격받은 사이트 중에 하나다. 기업이 빅데이터와 해결하고 싶은 문제를 케글에 올리면 빅데이터 덕후들이 모여 데이터를 분석해주고 돈을 받는다. 가장 인기 있는 순위 (링크)를 보면 맥도날드, 킥스타터, 포켓몬고부터 국제 테러리즘, 프리미어 리그 등 주제가 정말 다채롭다. 국내에서 이런 플랫폼을 기대할 순 없겠지만, 재밌는 통계가 모여있는 곳, 정보를 자유롭게 공개하고 공유하는 곳이 없는 것 같아서 아쉬웠다.

keyword

매거진의 이전글데이터로 이야기 만들기예술과 데이터, 경계를 허물다매거진의 다음글