들어는 봤나, 기프티콘 거지

설문 연구 파탄의 주범

by 카일 Mar 02. 2024

수신 시간: 새벽 2시 1분

갖은 우여곡절 끝에 겨우 데이터 수집을 마친 지 한 달쯤 지났을 무렵, 새벽의 적막을 깨는 문자 수신음에 인내심의 끈이 탁, 하고 끊겨버렸다. 이 늦은 시간에 이렇게나 침습적인 문자 메시지라니. 수집한 데이터 목록에서 연락처를 대조해 발신자의 응답을 찾아냈다. 서울 소재 교육청 Wee센터에서 일하는 30대 여성 상담사를 ‘자처한’ 응답자가 108문항에 답하는 데에 걸린 시간은 약 3분. 모든 응답이 4 또는 5로 줄지어 있었다. 한 번 더 속는 셈치고 핸드폰에 연락처를 등록해봤다. 카카오톡 새로 추가된 친구의 프로필 사진에 자리한, 40대는 족히 되어 보이는 남성의 얼굴을 보고, 나도 모르게 실소가 새어나왔다.

불행의 시작은 이랬다. 단톡방과 비공개 커뮤니티에 홍보문과 설문 링크를 올렸는데도 불구하고 생각보다 데이터 수집이 잘 되지 않았다. 이 속도라면 수집 기간 동안 예상했던 연구참여자 수의 절반도 채우지 못할 각이었다. 데이터 수집 기간을 급하게 연장한 후 대상자가 있을 법한 공개 커뮤니티에 연구 홍보문과 설문 링크를 추가로 게재할 수밖에 없었다.

상담사 카페에 글을 게재한 지 30분쯤 지났을까. 갑작스레 수십 개의 응답이 빠른 속도로 쏟아지기 시작했다. 뭔가 잘못됐다는 생각에 수집된 응답을 확인해봤더니, 한눈에 봐도 말이 안 되는 내용의 응답이 가득 들어차 있었다. 응답을 살피는 그 잠깐 사이에도 몇 개씩 쌓여가는 정체불명의 응답들. 이대로 가다간 졸업을 못할 것 같다는 위기감이 엄습해왔다. 응답 수집을 멈춘 후 부랴부랴 데이터 클리닝부터 하고 나니, 약 250개 가량의 응답 중 245개가 불성실 응답에 속하는 것으로 나타났다. 허탈하고 막막했다. 하루쯤 멈춰두면 사그라들 줄 알았지만, 응답 수집을 재개하자마자 또다시 거지 같은 응답이 미친듯이 쌓여갔다. 더는 손 쓸 도리가 없어, 결국 수집된 응답 전체를 폐기한 후 다시 제작한 설문지를 보다 폐쇄적인 공간에 선별적으로 재게재하기로 결정했다. 이 과정에 허비된 돈, 시간, 에너지… 더 이상 정신건강을 해치지 않기 위해 굳이 따지지 않기로 했다.

한 계정당 1회만 응답할 수 있도록 제한을 걸어도, 응답의 무결성을 검증하기 위해 ‘이 문항에는 n을 선택하십시오’와 같은 문항을 중간중간 넣어도, 불성실 응답으로 분류될 경우 사례가 지급되지 않을 수 있다는 점을 곳곳에 명시해도, 기프티콘 거지를 막는 데에 아무런 소용이 없었다. 설문 연구에 대해 가지고 있던 대부분의 상식이 완전히 산산조각 났다. 얼마 안 되는 보상에 눈이 멀어 무도한 짓을 저지르는 사람들이 이렇게나 많다는 사실에 인류애를 잃었지만, 내가 할 수 있는 일이라곤 ‘이 역시 연구자가 책임져야 할 영역’이라는 진리를 겸허히 받아들이는 것뿐이었다.

고초를 겪은 사람은 나뿐만이 아니었다. SNS에 홍보문을 게재한 후 고작 몇 시간 만에 응답을 다 모았다고 좋아하던 동기. 혹시나 싶어 응답 내용을 확인해보라고 했더니, 얼마 지나지 않아 한 손으로 셀 수 있을 만큼을 제외한 나머지 응답 수백 개가 모조리 불성실 응답인 것으로 드러났다. 꼼짝없이 데이터를 다시 모아야 하는 상황이었으나, 사례 지급이 끝난 탓에 큰 금전적 피해를 감수해야 했다.

데이터 수집을 마친 후 메타데이터를 꼼꼼히 뜯어보고 나서야 기프티콘 거지의 실체를 파악할 수 있었다. 요약하면, 1) 공개 커뮤니티에 사례를 지급하는 연구 홍보문과 설문 링크가 게재되면, 2) 누군가가 이를 이벤트, 리워드 등의 정보를 공유하는 블로그와 카톡방에 공유하고, 3) 이를 통해 기프티콘 거지가 대거 유입되어 불성실 응답을 생성하는 식이었다. 어떤 응답자는 혼자서 10개가 넘는 불성실 응답을 생성하기도 했고, 어떤 응답자는 자신의 블로그에 홍보문과 설문 링크를 내 허락 없이 올려두기도 했다. 연구방법론 과목에서도, IRB 연구윤리 교육에서도, 그 어떤 곳에서도 기프티콘 거지로 인해 설문 연구가 초토화될 가능성에 대한 정보를 접한 바 없었다. 연구자 커뮤니티에서도 이들에 대한 경험담을 찾기 어려웠다. 이들의 움직임이 생각보다 조직적이고, 이들의 규모 또한 생각보다 크다는 것. 씁쓸한 현실을 너무 늦게 깨달아버렸다.

불안감만 조성하는 것으로 글을 끝내고 싶지는 않기에, 불성실 응답으로 인한 데이터 오염을 최소화할 수 있는 몇 가지 방법을 소개하는 것으로 글을 마무리하고자 한다.

구글 폼 쓰지 않기

구글 폼은 응답자가 설문에 응답하는 데에 걸린 시간(응답 소요 시간)을 수집하지 않는다. 이렇게 되면 설사 응답자가 응답을 한 번호로 찍었다 하더라도 이를 불성실 응답으로 판별해낼 근거를 확보하기 어렵다. Microsoft Forms, 모아폼과 같은 툴은 무료임에도 불구하고 응답자의 응답 소요 시간을 수집할 수 있으니, 설문 제작 단계에서 이를 활용하는 것이 낫다.

응답의 일관성을 검증할 수 있는 문항 확보하기

하나의 구성개념을 측정하는 여러 척도를 사용하거나, 정문항과 역문항을 활용해 응답의 일관성을 검증할 수 있다. 예를 들어, ‘나는 나 자신의 상담역량을 높게 인식한다’는 문항에 ‘매우 그렇다’라고 응답한 사람이 ‘나의 상담역량은 다른 사람들에 비해 낮다’는, 앞선 문항과 상반되는 문항에 똑같이 ‘매우 그렇다’라고 응답했다면, 이를 일관성이 낮은 응답으로 가려낼 수 있게 된다.

불성실 응답자에게 사례가 지급되지 않는다는 점 명시하기

사례 미지급에 따른 항의에 대비해, 홍보문과 설문에 불성실 응답자에게 사례가 지급되지 않는다는 점을 명시하는 것이 좋다. 이렇게 하면 나중에 항의가 들어오더라도 이를 근거 삼아 효과적으로 대응할 수 있게 된다.

연구 참여 시 감사의 뜻으로 n원 상당의 기프티콘이 증정될 것입니다. 단, 중도 탈락, 연구 참여 동의 철회, 불성실 응답에 해당할 경우 보상이 지급되지 않을 수 있습니다.

홍보문 공개 범위 제한하기

온라인 커뮤니티에서 데이터를 수집할 수밖에 없는 상황이라면, 그나마 덜 공개적인 공간에서 수집을 시작하는 것을 권장한다. 카페에 홍보문을 올릴 때는 반드시 해당 게시글이 검색되지 않도록 설정하고, 연구자의 허락 없이 홍보문이나 설문 링크를 다른 곳에 옮기지 않도록 안내한다. 누구나 접근할 수 있는 SNS는 최후의 선택지로 여기고, 홍보문을 게재한 후부터는 언제라도 기프티콘 거지가 유입될 수 있으므로 보다 철저하게 데이터 클리닝을 실시한다.

keyword