brunch

You can make anything
by writing

C.S.Lewis

by Simon Feb 17. 2024

보이는 것만을 믿어서는 안 돼

데이비드 핸드 - <다크 데이터>

데이터쟁이가 본업인지라 데이터 관련 도서는 항상 To-Read List에 있는 편이다. 기술과 통계를 다루는 전문서를 통해 지식을 쌓는 것도 중요하나 가끔 인문 또는 사회과학적 차원에서의 통찰을 다루는 책들도 그에 못지 않게 중요하다고 생각하여 고른 책 중 하나.


본문에서 통계적 지식들을 갖춰야 해석이 되는 부분들도 적지 않게 있고 번역가 분께서 번역에 공을 꽤나 들이셨지만 워낙 원문의 내용 자체가 건조한데다 사례가 정말 많이 그리고 연속적으로 들어있어 내용을 이해하려고 집중하는 데 고생을 했다.


당연히 이 책의 핵심은 "우리에게 보이지 않는 '다크 데이터'라는 것이 존재하고, 그러니 이것의 위험성과 기회를 알아야 한다."의 정도로 다뤄진 케이스들의 넓은 범위에 비하면 굉장히 간단하다. 욕심을 부려 조금 더 챙겨간다면 책에서 정의하는 다크 데이터의 아래 15가지 유형이 어떤 경우에서 발생할 수 있는지에 대한 부분이고, 책의 2부에서 다루는 다크 데이터를 잘 활용할 수 있는 방법을 간단하게 짚고 넘어갈 수 있겠다.


실무를 하며 겪을 수 있는 상황들도 있으니 이 책의 내용이 떠오르거든 해당 부분만 빠르게 발췌해서 다시 읽어볼 예정.



DD-Type 1: 빠져 있는지 우리가 아는 데이터 (Data We Know Are Missing)

기록될 수도 있었던 값을 감추는 바람에 데이터에 결함이 있는지

 우리가 알 때 발생


DD-Type 2: 빠져 있는지 우리가 모르는 데이터 (Data We Don't Know Are Missing)

빠진 데이터가 있는지조차 모르는 경우


DD-Type 3: 일부 사례만 선택하기 (Choosing Just Some Cases)

표본에 포함시키는 기준을 잘못 선택하거나 합리적인 기준을 잘못 적용할 때 발생


DD-Type 4: 자기 선택 (Self-Selection)

데이터베이스에 어떤 내용을 넣을 수 있는지 사람들이 자의적으로 선택할 수 있을 때


DD-Type 5: 중요한 것이 빠짐 (Missing What Matters)

한 시스템의 결정적 측면이 아예 관측되지 않을 때


DD-Type 6: 존재했을 수도 있는 데이터 (Data which might havbeen)

(반사실데이터) 우리가 다른 조치를 취했거나, 아니면 다른 조건이나 상황에서 무슨 일이 일어나는지 관찰했다면 볼 수 있었을 데이터


DD-Type 7: 시간에 따라 변하는 데이터 (Changes with Time)


DD-Type 8: 데이터의 정의 (Definitions of Data)

정의는 상황과 불일치할지 모르며 목적과 용법을 더 잘 반영하기 위해 시간에 따라 변할지 모르므로


DD-Type 9: 데이터의 요약 (Summaries of Data)

요약의 과정에서 정의 상의 세부사항을 버리게 됨 (평균, 분포 등으로만 전체를 판단)


DD-Type 10: 측정 오차 및 불확실성 (Measurement Error and Uncertainty)

반올림, 모으기, 꼭대기 올리기, 바닥 효과 등으로 불확실성이 증가되어 참값이 흐려질 때


DD-Type 11: 피드백과 게이밍 (Feedback and Gaming)

수집된 데이터의 값들이 수집 과정 자체에 영향을 줄 때


DD-Type 12: 정보 비대칭 (Information Asymmetry)


DD-Type 13: 의도적인 다크 데이터 (Intentionally Darkened Data)

단지 일부 사례만 선택해서 얻어지는 데이터 (사기)


DD-Type 14: 조작된 합성 데이터 (Fabricated and Synthetic Data)

부트스트랩, 부스팅, 평활화 등이 과정에서 생성되는 합성 데이터


DD-Type 15: 데이터 너머로 외삽하기 (Extrapolating beyond Your Data)


[3가지 데이터 누락 매커니즘]

UDD (Unseen Data Dependent)

SDD (Seen Data Dependent)

NDD (Not Data Dependent)



매거진의 이전글 꾸준히 갈망하고 그려나가는 연습

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari