코로나 때 기억나시죠? 데이터를 안 보여준 채 발표된 연구가 나중에 통째로 철회(retraction)되는 일이 있었습니다. 그때 모두가 느꼈습니다. “데이터가 없으면 결과도 믿을 수 없다.”
발표에서는 연구데이터를 이렇게 정의했습니다.
연구 수행 과정에서 직접 수집·측정·생성한 자료.
설문응답, 실험값, 인터뷰 원문, 이미지·영상, 시뮬레이션 결과 등 논문 결론을 뒷받침하는 모든 것.
논문 본문만 빼고 다 데이터라고 보면 됩니다.
즉 “자료는 있는데 제출은 안 했다”는 건 이제 통하지 않는 흐름이 된 겁니다.
검증 가능성: 평균값만 보여주면 안 됩니다. 이상치 몇 개만 빼도 결과가 바뀌기 때문에, 원데이터가 있어야 타 연구자가 다시 볼 수 있습니다.
재현성 위기 비용: 유럽에서는 FAIR(찾기 쉽고·접근 가능하고·상호운용되고·재사용 가능한) 원칙이 안 지켜져서 매년 100억 유로 가까운 비용이 날아간다는 추산도 나옵니다.
공적 자금의 논리: 정부·기관이 돈을 냈으면 결과물은 남들이 다시 써야 한다는 방향으로 바뀌고 있습니다. 그래서 “데이터를 공유해야 한다”는 조항이 이제는 연구비 조건에 들어갑니다.
스프링거 네이처는 이제 기본적으로 모든 논문에 ‘데이터 이용 가능성(Data Availability Statement)’을 쓰라고 합니다.
내용은 단순합니다.
데이터가 어디 저장돼 있는지
누구나 접근 가능한지
제한이 있다면 왜 그런지
남의 데이터를 썼다면 그 출처는 어디인지
특정 분야(시퀀싱, 단백질, 구조 등)는 아예 지정된 리포지터리에 올려야만 논문이 진행됩니다.
재미있었던 통계가 하나 있었어요. “데이터는 요청 시 제공합니다”라고 논문에 써놓은 경우 실제로 요청했을 때 받은 비율이 7%도 안 됐다는 겁니다.
즉 형식은 지켰지만 실질 공유는 안 된 거죠.
그래서 출판사 입장은 이겁니다. “요청 시”가 아니라 “처음부터 리포지터리에 올려라.”
이걸 돕기 위해 스프링거는 Figshare 같은 저장소를 투고 시스템 안에 붙여놨다고 했습니다. 논문 제출할 때 같이 올리게 해서 저자 부담을 줄이려는 거죠.
발표자가 중요하게 말한 부분입니다.
데이터도 DOI(디지털 식별자) 를 달아 인용되게 한다
데이터 논문(data paper) 을 별도로 출판해서 “이 데이터셋을 이렇게 만들었고 이렇게 쓸 수 있다”는 걸 공식화한다
이렇게 하면 “데이터만 공개하면 뺏긴다”는 연구자의 불안도 조금은 줄어듭니다. 인용이 남으니까요.
결국 방향은 “데이터를 1급 연구산출물로 끌어올리자” 입니다.
발표자도 현실을 인정했습니다.
사람 인터뷰, 환자 데이터, 분쟁지역 농가 설문처럼 신원 노출 위험이 있는 데이터는 전면 공개하면 안 됩니다.
이런 경우 비식별화해서 올리거나, 접근요청이 있어야 볼 수 있는 제한형 리포지터리를 쓰라고 했습니다.
원칙은 이거였어요: as open as possible, as closed as necessary
(가능한 한 열되, 필요한 만큼은 닫는다)
페타바이트 단위 데이터는 현실적으로 리포지터리에 안 올라갑니다. 이럴 땐
전체를 대신할 서브셋만 공개하거나
접근 절차를 데이터가용성 문구에 명시하거나
저널 에디터와 사전에 합의하라고 했습니다.
즉 “너무 커서 못 올립니다”라고만 쓰는 건 앞으로는 설득력이 약해진다는 뜻입니다.
앞으로 펀더 → 기관 → 저널 순서로 데이터 공개 요구가 이어질 겁니다.
제출 마감 직전에 “데이터도 올려주세요” 하면 연구자가 제일 힘듭니다. 그래서 발표자는 “처음부터 데이터 관리계획(DMP) 세워라”고 했습니다.
스프링거는 이 부분을 자동화하는 툴을 만들고 있다고도 했습니다. 논문에 언급된 데이터셋을 자동으로 찾아서 데이터 이용 가능성 문구까지 초안으로 만들어주는 방식.
“논문이 아니라 데이터가 연구의 신뢰를 만든다.”
“요청 시 제공”은 사실상 “안 줍니다”로 읽힌다.
“가능한 한 공개하되, 필요한 만큼은 닫는다.”
“데이터를 남이 쓰도록 공개하는 순간, 그 데이터는 자산이 된다.”