brunch

You can make anything
by writing

C.S.Lewis

by 레오군 Jan 08. 2023

재미로 보는 2022년 IT 도서 결산

알라딘 IT 베스트셀러 데이터 살펴보기


브런치에서 우연히 아래 글을 보고는, 재미있을 것 같아서 비슷한 데이터를 구해서 2022년 IT 도서 (내맘대로) 결산을 해보기로 했다.  큰 목적이 있는 건 아니고, 요새 계속 SQL만 쓰다보니 R 문법 다 까먹을 지경이라-_-; 간만에 Rstudio 한번 열어서 dplyr이랑 ggplot 한번 써보는데 의의를 두고... ㅎㅎ


분석용 데이터

- 알라딘의 [컴퓨터/모바일] 분야 월간 베스트셀러 TOP 200

- 2022년 1월부터 12월까지.  매월 200권씩 총 2400권의 도서 데이터 (제목, 저자, 출판사, 랭킹, 출간일...)

- 내가 알라딘 플래티넘 회원이긴 하지만 꼭 이것 때문은 아니고...  교보랑 예스24는 베스트셀러 데이터 긁어오기가 좀 불편해서, 쉽게 데이터 가져올 수 있는 곳 찾다가 알라딘으로 선정 -_-;;;




어떤 책들이 베스트셀러일까?


긁어온 데이터세트에는 1개월에 200권씩 총 2400권의 책에 대한 랭킹 정보가 존재하며, 중복을 제거한 책의 수는 692권이었다.  


각 도서별로 컴퓨터/모바일 카테고리에서 베스트셀러 200위권을 유지한 달(month)의 숫자는 아래와 같다.  절반에 가까운 책들은 1개월 or 2개월 정도 베스트셀러에 머무르고 순위가 하락하지만, 오랫동안 월간 랭킹을 유지하는 책도 제법 있다.  31권의 책은 12개월동안 한 번도 빠지지 않고 계속해서 TOP200 리스트에 포함되었다.


31권은 좀 많으니깐... 좀 더 추려서 진짜 인기 도서를 찾아보자.

1) 12개월 내내 베스트셀러 200위 안에 들었고

2) 순위의 중앙값(median)이 50위 이내인 책은 총 18권이다.


위 표에서 freq는 200위 안에 포함되었던 개월 수를 의미한다.  12개월치 데이터이기 때문에 최대값이 12가 되어야 하는데, 그 이상인 값들이 두어 개 있다.  확인 결과, 동일한 제목으로 개정판이 나오면서 ISBN 번호가 따로 부여되어서 서로 다른 책처럼 집계가 된 케이스였다.  이 경우 특정 월에는 구판과 개정판의 랭킹이 각각 존재하기 때문에 랭킹 데이터를 평균내서 계산하는 경우 크게 손해를 본다. (물론 서열척도를 평균내는 게 맞는가 하는 더 근원적인 질문이 있지만...  일단 이건 넘어가기로 하자-_-;  판매량 데이터가 있으면 좋았겠지만 그건 못 구해서 ㅠㅜ)  이러한 점을 고려해서, rank는 average가 아닌 median을 이용해서 이상치의 영향을 가능한 적게 받도록 데이터를 정리했다. (가령, '혼자 공부하는 파이썬'을 보면 최고 등수는 5위, 최저 등수는 115위로 엄청 편차가 큰 것 같지만, 개정판으로 인해 특정 월에 2개의 순위가 존재했기 때문에 사실상 115위보다는 훨씬 좋은 등수였다고 봐야 한다.  median을 보면 9위로 이상치의 영향에서 훨씬 안정적이다)


정리하면 위 표에서 전반적으로 median_rank가 적은 책들은 1년 내내 꾸준히 잘 팔린 책이라고 볼 수 있다.  1~6위에 자격증, 파이썬, IT 상식 책이 각각 2권씩 있다는 사실은 좀 재미있네... :)


+


12개월간 TOP 200 리스트에 개근을 한 건 대단하지만, 이 기준으로 인기 도서를 뽑으면 2022년 중간에 출간된 책들이 포함되지 않는다는 문제점이 있다.  예를 들면, 2022년 2월에 출간되고 12월까지 베스트셀러 목록에 개근을 했더라도 (심지어 11개월간 1등을 했더라도) freq = 11이기 때문에 위 리스트에는 포함되지 않는다.  랭킹을 point로 변경해서, 기간을 고려하지 않고 연간 합산 point가 높은 책들의 리스트를 다시 뽑아보았다. (point = 201-랭킹 으로 간단히 구했다.  랭킹 1위는 200 point.  랭킹 200위는 1 point가 된다.  다시 언급하지만 실무에서는 이런 식으로 서열척도를 사칙연산하면 안된다는 점을 유의하자.  이건 그냥 재미로 하는거라는 소심한 disclaimer를 다시 한번...)



이렇게 보면 12개월간 꼭 개근을 하지 않았더라도, 랭킹을 기준으로 한 누적 point가 높은 책들을 볼 수 있다.  '진짜 쓰는 실무 엑셀' 같은 책이 대표적인데, 이 책은 2022년 2월에 출간되어서 무려 11개월간 랭킹 3위 밑으로 떨어진 적이 없는 놀라운 책이다. (11개월 동안의 median_rank가 1이다 ㄷㄷㄷ)  첫번째 뽑은 리스트보다는 좀 더 합리적(?)이지만 이 리스트에도 소소한(?) 문제가 있는데, 누적 합산으로 구하다보니 출간된 지 얼마 되지 않는 책들은 누적 point가 충분히 쌓이기 어렵다는 점이다.


+


그래서, 2022년에 출간된 책만 따로 모아서 한 판 볼 수 있도록 정리를 해봤다.  이번에는 point 합계가 아니라 월 평균 point를 계산해서 정렬함.  



이렇게 보면 최근에 출간되어서 몇 달치 데이터밖에 없지만, 그래도 평균 순위가 높았던 책들을 새로 확인할 수 있다.  2022년 12월에 출간된 '마케팅 설계자', '제품의 탄생' 같은 책들은 이제 막 포인트가 쌓이기 시작했지만(=랭킹 순위권에 노출되기 시작했지만), 월 평균 지표를 계산해서 정렬했기 때문에 위 리스트의 상위에서 확인할 수 있다.  그러고보니 최근에 트위터에서 핫했던 '개발자 원칙'도 눈에 띄고, 내가 추천사를 쓴 '데이터로 말한다! 퍼포먼스 마케팅' 도 포함되어 있구만!


+


신간을 보고나니, 반대로 오랫동안 판매되고 있는 스테디셀러 책들도 궁금해졌다.  출간일이 2020년 이전인 책들만 필터링해서 다시 point 합산 내림차순 정렬을 해 보자.



개발자분들의 필독서인 '클린 코드' 나 '함께 자라기' 같은 책들이 눈에 띈다.  C나 Java를 다루는 책들이 많다는 점도 눈에 들어오고, 운영체제/객체지향/아키텍쳐 등의 기본서들 비중이 높다는 점도 인상적이다.  출간한지 3년 이상 된 책 중에서 freq = 12인 (한 달도 빠지지 않고 TOP200 에 든) 책이 10권이나 있다는 점도 놀라움.  두 권의 C 책은 출간한지 12년째 ㄷㄷㄷ  좋은 책의 수명은 굉장히 길구나.




베스트셀러 작가는 누구인가?


TOP200에 포함되는 책들을 여러 권 쓴 저자가 있는지도 한번 체크해봤다.  역시나 다작하는 작가님들이 계셨음 (책 한권 써 본 입장에서, 너무 존경스럽다 ㄷㄷㄷ  나는 그걸 또 하진 못할 것 같아 -_-)



기관이나 연구소 말고, 개인 랭킹 상위에 있는 분들의 책을 한번 더 살펴봤다.  상위권에 계신 분들이 거의 매년 2권씩 내신 거 보고 기함했는데, 확인해보니 개인 랭킹 상위권에 계신 분들은 대부분 교수님이셨음 ㅎㅎ  그렇다면 이 책은 혹시 대학원생들의 피와 땀인가...?! 하는 불충한 생각이 0.1초쯤 들었다. (근거 없는 뇌피셜입니다 ;;; )





베스트셀러를 만드는 출판사는?


각 출판사별로 1년동안 한 번이라도 200위 이내에 포함된 책을 몇 권이나 출판했는지를 살펴봤다.  길벗이 1위인 걸로 보이지만, 사실 한 지붕 두 가족인 한빛미디어와 한빛아카데미를 합치면 여기가 압도적인 1위임...  결과를 보면 실제로 많이 들어본 출판사들이 상위에 있다.  한빛미디어, 이지스퍼블리싱, 제이펍, 인사이트 출판사 책들은 개인적으로도 꽤 많이 사 본 편이고.  내 책 출판해주신(!) 소중한(!) 위키북스도 상위권에 랭크. 



200위가 아니라, 20위 이내에 포함된 책을 몇 권이나 출판했는지로 (=진짜 베스트셀러? ㅎㅎ) 기준을 확 높이면 길벗과 한빛미디어가 압도적인 숫자를 보여준다.



같은 상위권이라고는 해도 길벗과 한빛미디어가 주로 출간하는 책의 유형은 전혀 다른데, 길벗은 컴활이나 정보처리기사 등 자격증 관련 도서가 압도적이고 (자격증 책을 찾는 사람이 진짜 많구나...), 한빛미디어는 '개발자'를 위한 책들이 다양하게 출간되는 편이다.



+


출판사 데이터에 대한 월별 트렌드를 보다가 재미있는 걸 발견했다.  위 표에서 상위에 있던 출판사 6개만 골라서, 각 월별로 200위 이내 도서를 몇 권 보유했는지를 나타낸 그래프인데... 보다 보면 3월과 9월에 유난히 튀는 출판사가 하나 있다.  정답은, 주로 대학교 교재에 특화된 '한빛아카데미' 출판사.  굳이 부연설명을 하지 않더라도, 3월과 9월은 대학교의 개강 시즌이라는 걸로 설명이 될 듯 ㅎㅎ  그렇다고는 해도 이렇게까지 뚜렷한 트렌드로 나타나는 건 좀 신기했다.  1년이라는 시간이 그렇게 길진 않아서 그런가, 출판사들 간에 뚜렷한 순위 변화나 트렌드 변화까지는 보기 어려웠다.  이 그래프는 N년으로 해서 길게 보면 좀 재미있을 것 같다.






(나만 궁금한) 내 책 관련 지표?


2021년 1월에 그로스 해킹 책을 출간하고 무려 2년이 지났는데, 최근에도 책을 보고 연락을 주시는 분들이 있다.  출판사에서 보내주는 판매내역도 2년째 꾸준해서 좀 신기함;;; (얼마 전에 5쇄 찍었다!)  앞에서 본 스테디셀러 정도까지는 아니지만, 그래도 은근히 책의 생명력은 길구나... 라는 생각이 든다. 


거두절미하고, 위 기준으로 살펴본 그로스 해킹 책의 지표는 어떨까? ㅎㅎ



2022년 12달 중에서 2달을 제외하고, 10개월간 TOP200 에 포함되었다.  가장 높은 순위는 95위를 기록했는데, 2021년에도 100위 언저리에서 왔다갔다하던 걸 생각하면, 약간 떨어지긴 했지만 2년째 큰 순위변동 없이 유지하고 있는 것 같다.  3월과 9월에 랭킹이 확 떨어지는 게 재미있는데...  위에서 언급한 것처럼 교재로 쓰이는 책들 때문에 이 시기에 랭킹이 확 바뀌기 때문인 듯. (아마 판매량 자체는 큰 변화 없지 않을까 생각된다.  판매량 데이터가 없는 게 아쉽네)  IT 책의 성수기는 3월과 9월이라는 새로운 사실을 알게 된 분석이었다;;;






주말 저녁에 재미삼아 잠깐 들여다보려고 시작했는데, 정신을 차려보니 왜 한밤중인지는 모르겠지만 -_-;  간만에 좋아하는 책 데이터 살펴보면서 즐거운 시간을 보냈다.  그나저나 dplyr은 그나마 기억나는데 ggplot 함수들은 죄다 까먹어서 이 글 쓰느라 스택오버플로우를 몇 번이고 들어간 건 안비밀 -_-...  그럼 다음에도 소소하고 재미있는 생활데이터로 다시 돌아오겠습니다! (언제??...)






브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari