책 한 권을 읽으면 그냥 넘어가지 않고, 원본 데이터부터 실습 파일까지 찾아가며 실험하는 사람이 있습니다. 그게 바로 접니다.
이번에는 영국 역사상 가장 충격적인 사건 중 하나인 헤럴드 시프먼 사건을 다룬 책을 읽고, 그 안의 데이터를 직접 시각화한 경험을 공유합니다.
데이터 시각화는 단순한 읽기의 차원을 넘어, 복잡한 이야기를 그래프와 통계로 풀어내는 흥미로운 작업입니다. 파이썬과 Joint Plot을 활용해 사건 데이터를 분석하며, "200명이 넘는 피해자"라는 숫자가 어떤 패턴 속에서 나타났는지 깊이 들여다봤습니다.
헤럴드 시프먼은 마을 의사로 20년이 넘는 기간 동안 200명이 넘는 사람을 살해한 연쇄살인범입니다. 피해자 수의 경우 최소 200명에서 280명까지로 추측값이 다양한데, 이 데이터를 조사했던 통계학자가 바로 데이비드 스피겔 할터, 우리나라에서는 [숫자에 약한 사람들을 위한 통계학 수업]으로 소개된 The art of statistics의 저자입니다. 혹시나 싶었는데 이 책도 원서로 찾아보니 원본 데이터가 있더군요.
사실 이 책을 강렬하게 기억하게 된 것은 헤럴드 시프먼의 피해자를 시각화한 Jointplot 때문이었습니다. 저는 이 그 그래프를 식물의 특성을 나타낸 샘플 데이터와 그래프로밖에 보지 못했거든요. 다른 영역에도 얼마든지 사용할 수 있는데 샘플용으로만 기억하고 있었던 거죠.
하지만 그래프를 그리는데 하나 더 제약이 있었습니다. Jointplot은 가로축과 세로축을 산점도와 히스토그램이 공유하는 형태인데, 이 형태는 파워포인트나 엑셀에서 그릴 수 없는 방식입니다. 다행히 파이썬 라이브러리로 작업할 수 있어서 매우 미미한 파이썬 실력으로도 원하는 그래프 정도는 그릴 수 있게 되었습니다.
그렇게 파이썬으로 만든 Jointplot은 다음과 같습니다.
처음 보기에는 어렵지만 축을 기준으로 차근차근 보다 보면 피해자의 패턴이 보입니다.
1. 산점도를 보면 파란색으로 설정한 Women 점의 개수가 월등히 많은 것을 볼 수 있습니다.
2. 1995년으로 가면서 점의 개수가 늘어납니다. 이 패턴은 그래프 상단 막대 형식의 히스토그램 높이가 높아지는 것으로도 볼 수 있습니다. 범행의 수가 늘어난 것은 점차 과감해졌다는 것으로 판단할 수 있습니다.
3. 세로축을 통해 피해자의 연령대를 알 수 있습니다. 주로 70대에서 80대 중반에 해당하는 고령자들이 희생된 것을 확인할 수 있습니다. 시프먼은 치료 명목으로 디아모르핀(헤로인)을 과다 투여하는 방식으로 살해를 저질렀습니다. 이 때문에 오랜 기간 동안 의심을 받지 않고 범행을 지속할 수 있었습니다.
데이터 시각화는 단순히 그래프를 그리는 것을 넘어, 데이터에 숨겨진 이야기와 패턴을 발견하는 데 중요한 도구입니다. 이번 사례에서도 데이터 분석과 시각화를 통해 헤럴드 시프먼 사건의 충격적인 진실과 범행의 패턴을 확인할 수 있었습니다.
이러한 작업은 복잡하게 느껴질 수도 있지만, 직접 데이터를 다루고 그래프를 작성하다 보면 책이나 글에서 보았던 내용들이 훨씬 더 명확하게 다가옵니다. 저도 Python과 Joint Plot 같은 도구를 처음 사용할 때 시행착오를 많이 겪었지만, 결과를 시각적으로 확인하며 이해의 폭을 넓힐 수 있었습니다.
데이터 시각화와 분석 과정이 궁금하다면, 유튜브 영상에서 Python 코딩 작업과 그래프 생성 과정을 자세히 확인해 보세요. 여러분도 직접 데이터 시각화를 시도하며 통계와 그래프의 매력을 느껴보시길 바랍니다
유튜브 영상에서 시프먼 사건의 데이터 분석 과정을 직접 확인해보세요.(클릭)
그럼 저는 다음에도 더 도움 되는 자료로 돌아오겠습니다.
멈추지 말고 문서를 그리세요.
감사합니다.
Copyright 2024.(KIM SENA) All pictures cannot be copied without permission