나의 책 관리 그리고 데이터

시각화 도서 데이터 관리방법 & 시각화 도서 목록 정리

Jul 22. 2016

원래 책을 좋아하기도 했지만 대학 졸업 후에 내가 몸담고 있는 데이터 시각화 분야는 아쉽게도 국내에서 출판된 책이 거의 없다. 아직 국내에 데이터 시각화란 분야는 생소하기도 하고 해외에서도 한창 연구가 활발한 분야이기 때문에 아닐까 싶다. 몇몇 이 분야의 전문가들의 책과 시각화를 큐레이션 한 작품집, 시각화를 위한 기술책들 뿐이다. 그래도 공부하고 작품들을 참고하려면 살 수밖에 없다. 그래서 관리가 필요하다.

보유 도서 목록을 데이터화 시키려고 했던 이유는 데이터 시각화 도서, 정보 시각화 도서, 문학, 비문학, 사진집 등과 같이 난 어떤 카테고리의 도서를 많이 사는지 궁금했고, 나랑 잘 맞는 출판사와 저자는 누군지, 가격대는 얼마대를 보통 사는지 등을 정량화해서 직관적으로 파악하고 싶었다. 깔끔하게만 데이터가 정리된다면 좋은 시각화까지 연결되니깐. 2-depth 이상의 데이터를 직관적으로 보여줄 수 있는 Cluster Dendogram 혹은 Sunburst와 Bar, Pie Chart 등을 활용한 대시보드를 만들면 좋겠구나 싶었다.

데이터 시각화를 하려면 재료가 필수지. 그래서 수작업으로 보유하고 있는 책들을 데이터화 하기 시작했다. 시작은 이랬다.

Google Spreadsheet에서 책 관리

가지고 있는 책들은 기존엔 구글 스프레드시트에서 https://goo.gl/mJ6j8M 이렇게 관리했었다. (2016년만 첨부) 굉장히 귀찮은 과정임. 하나씩 전부 입력해줘야 한다. xml로 가지고 오려고 했지만 모든 웹사이트의 xpath 규칙이 동일하지 않기 때문에 스크래핑 하기도 어려웠다. 그럼에도 tidy data를 만들고 싶어 내가 필요한 칼럼을 만들고 복사+붙여 넣기로 책을 구입할 때마다 입력해줬다. 필터를 걸고 subtotal 함수를 써주면 파악하기도 편하긴 하다.

복사 붙여넣기의 결과물 시트

그렇게 당연히 고생한 만큼 데이터는 깔끔하고 정리가 잘되어 좋다. (난 이렇게 정리가 잘된 tidy data를 가지고 있으면 이상하게 기분이 좋다) rows는 당시 저땐 얼마 되지 않지만 Category, Author, Publisher, Price 등 칼럼을 csv로 내려받아 시각화할 수 있었다. 코드를 짜 놓고 데이터만 업데이트해주면 되니깐 사실 부지런만 하다면 수작업으로 관리해도 상관은 없다. 그런데 사람을 게으르다. 나도 게으르다. '바쁜 일상에 책 살 때마다 스프레드시트 켜놓고 앞으로도 저렇게 할 수 있을까?', '효율적으로 입력할 순 없을까?!'라는 고민이 들기 시작했다. 사람이 보다 편리해라고 기술이 발전하는 건데 분명 더 효율성 높은 방법이 있을 것만 같았다.

또 저렇게 관리하면 책을 빌려주면 관리가 안된다. 내가 누구한테 뭘 빌려줬는지 파악하기도 힘들고 신경 쓰이는 것도 스트레스다.

Bookpedia와 바코드 스캐너로 효율적인 데이터 관리

열심히 구글에서 검색해보기 시작했다. 전 세계에 이런 고민 하는 사람 많겠지 싶었다. 여기서 글을 참고했고 처음엔 Booxter라는 Mac App을 설치했다. 그런데 국내 도서 ISBN을 인식하지 못했다... 해외서적이야 Amazon(미국, 영국, 프랑스, 스페인, 일본 등등)과 미국 국회도서관에 등록된 책이면 ISBN 코드를 통해 인식을 하는데 국내 서적은 대부분 그러지 못했다.

하지만 친절히 알라딘 DB API가 유일하게 국내에선 오픈되어 있었고 Bruji에서 만든 Bookpedia란 Mac App(18$)에 추가할 수 있도록 북 피디아 플러그인을 개발했던 capri91님께서 만들어 놓은 플러그인이 있었다. 아래의 설치방법을 통해서 설치하면 알라딘에 등록된 도서의 ISBN정보를 참고해서 해당 도서의 메타정보를 가져올 수 있다. (책이름, 출판사, 가격, 설명, 분야 등등)

<설치방법>

aladin.plugin.zip

경로는 파인더에서 cmd+shift+g를 눌러 /Applications/Bookpedia.app/Contents/Plug-ins 폴더 안에 넣으면 됩니다.

/Applications/Bookpedia.app/Contents/Plug-ins

유의할건 환경설정에서 Aladin 플러그인을 드래그해서 상위로 올려주자. 검색 우선순위 때문에 간혹 검색이 안될때가 있다

라이브러리 데이터를 관리해줄 프로그램은 찾았고 다음은 ISBN 코드로 해당 도서의 메타데이터를 가지고 와 줄 바코드 스캐너를 네이버에서 검색한 후 적당히 저렴한걸로 구입했다. ISBN 13자리를 수동으로 입력해줄 거면 스프레드시트에서 관리하는 거랑 별반 차이가 없다. 다행히 Bookpedia는 바코드 스캐너 및 웹캠을 통한 ISBN 코드를 가져올 수 있다.

책을 빌려줄 때는 따로 체크를 통해 관리할 수 있다. (오른쪽 이미지)

다양한 Export 기능이 담겨 있음

본인이 관리하는 도서의 데이터를 다양한 형태로 export 할 수 있기 때문에 퍼블리싱하거나 공유하기 쉽다. csv, txt와 같은 파일 형태뿐만 아니라 html, xml과 같은 데이터 형태 그리고 바로 FTP에 올릴 수 있도록 해준다. 아래 이미지는 html로 export 해서 웹에 table을 클릭 몇 번 만에 만들었다. [표 바로가기]

이렇게 만들게 된 계기는 책 추천해달라는 부탁을 많이 받았는데 어떻게 공유할지 난감할 때가 많았다. 다행히 웹에 공유하고 링크 보내드릴 수 있어 유용하다.

(오른쪽 이미지는 export 옵션, 왼쪽 이미지는 html table)

책 데이터를 통한 나의 데이터 관리

빅데이터 시대라고 하지만 난 본 적도 없고 앞으로 다룰 일도 없을 것 같다. 데이터 시각화와 데이터 저널리즘 분야에서 다루는 데이터는 스몰데이터(small data)에 가깝다. 내 삶과 관계된 데이터도 아마 그럴 것이다. (몇 백 년 살면 빅데이터겠지....?!) 그래서 생활에서 나와 관계된 데이터는 스스로 만들어 분석해보고 시각화해보는 습관을 가지는 건 여러모로 좋다고 생각한다. 데이터 시각화를 공부하는 사람이라면 시각화의 좋은 샘플 데이터이기도 하고 그것이 취미가 됐든, 건강이 됐든 뭐가 됐든. 꾸준히 모으는 것도 중요할 것이고. 얼마 전부터 우리나라처럼 공공데이터 품질이 좋지 않은 환경이라면 그냥 스스로 모으는 게 낫겠다 싶은 생각이 들기도 했고. 그게 내 생활이랑 이젠 연결되어 생각하는 것 같다.

암튼 Bookpedia와 바코드 스캐너 덕분에 그 꾸준히가 가능성이 커진 것만은 틀림없다 :)

일상의 여러 방면에서 한번 찾아보고 살펴봐야겠다.

(Apple Watch를 사야만 한다는 이유 같지 않은 이유.... ㅋㅋ)

보유 라이브러리에 대한 통계를 바로 확인할 수 있다

데이터시각화 도서는 2014년에 많이 출판된 것을 확인

* 궁금하신 건 woons.2016@gmail.com으로 메일 주세요

* html table : http://library2016.azurewebsites.net/

keyword

배여운 직업 언론인

SBS 데이터저널리즘팀 마부작침에서 데이터를 만집니다

팔로워 456