빅데이터, 통찰과 가치에 대한 강의를 듣고 생각에 빠진다.
데이터가 아무리 빅데이터가 된다 할지라도 활용 가치를 제대로 연결하지 못하면 소용없지 않을까? 데이터라고 무조건 가치가 있지는 않을 것이다. 목적에 맞는 데이터만 활용가치가 있을 것이다.
나는 도서관 이용자이다. 매일 도서관에 간다. 평상시에는 언제 가도 서가에 자리가 있었는데 여름방학이 시작되자 자리 잡기가 어려워졌다. 코로나 4단계, 30% 인원 수용이라 문을 여는 시간에 맞춰 가면 겨우 자리를 잡을 수 있다. 방역 시간 1시간 동안 모두 퇴실해야 한다. 1시간 후 다시 개방시간, 역시 일찍 가서 줄을 서야 한다. 15분만 늦게 가도 자리가 없을 확률이 높다. 왜 이런 현상이 벌어지는 걸까? 방학 이전에는 언제 가도 자리를 잡을 수 있었는데 말이다.
이용자를 살펴보았다. 성인 자료실에서 학습지를 펴놓고 공부하는 학생들이 눈에 띈다. 어린 학생들이다. 1층 어린이 자료실로 가면 되는데, 2층 성인 자료실에 자리를 잡는다. 옆 자리는? 당연히 엄마가 앉는다. 엄마가 아이와 같이 어린이 자료실로 가면 되는데, 왜 어린이 자료실로 가지 않는 걸까? 1층 어린이 자료실은 시끄러운가? 어린이 혼자 가면 안 되는가? 초등학생인데, 심리적으로 혼자 가면 불안한가? 아니면 엄마는 아이가 딴짓을 못하도록 옆에서 감시라도 해야 하는가? 엄마와 아이가 함께 성인 자료실에 있어야 하는 특별한 이유가 있는가?
어쨌든 확실한 건 있다. 엄마가 아이와 성인 자료실에 오는 이유는 책을 읽기 위해서가 아니라 학습을 위한 아이들이 많다는 것이다. 독서 기능보다는 학습 기능의 도서관, 어떻게 생각하는가? 이런 도서관 이용자 수를 독서 인구로 통계를 잡는다면 어떤 오류가 생길까? 독서 진흥을 위해 도서관 이용 현황을 파악하려고 한다면 이런 학습자를 이용자로 포함해야 할까? 학습자는 걸러 내고 순수 서가 이용자만 파악하려면 어떻게 데이터를 수집하는 게 맞을까? 도서관에 방문하지 않아도 1인당 대출하는 도서를 중심으로 통계를 잡아야 할까? 가족 카드까지 사용하여 대출하는 사람이 많으므로 4명이 이용하는 것 같아도 실상은 1명이 책 20권을 읽고 있다면? 내가 여기에 해당한다. 이런 허수는 어떻게 가려낼 수 있을까? 어린이책, 청소년 책, 성인용 책을 따로 분류하여 통계를 내는 게 맞을까? 갑자기 궁금해진다. 데이터 오류가 발생하면, 빅데이터의 활용 가치가 사라질 것이다. 데이터도 목적에 맞는 유의미한 것만 골라야 할 것이다.