신호를 만들기 위해 소음이 더 많아진다면 신호를 어떻게 가려낼 것인가?
21세기 들어 연구논문이 출판되는 저널의 종류는 매년 큰 폭으로 증가하고 있다. 특히 이공계 분야에서의 저널의 종류는 날이 갈수록 급증하고 있는데, 체감 상, 내가 대학원에 처음 입학하던 시절 (대략 20년 전)에 비해, 한 5배 정도로 늘어난 것 같다. 분야마다 다르겠지만, 사실 이렇게 저널의 개수가 우후죽순 늘어나게 된 것은 출판사 자체도 많아졌을뿐더러, 기존의 출판사들이 계속 신생 저널을 한 해도 거르지 않고 론칭하고 있는 경향이 지속되고 있기 때문이기도 하다.
애초에 왜 출판사나 신생 저널이 계속 탄생하고 이 모멘텀이 유지되는 것일까? 많은 이들이 추측하는 것처럼, 매년 연구자 숫자가 늘고 있을뿐더러, 연구 분야가 더 다양해지고, 연구비도 더 많아짐으로써, 연구 성과가 어딘가에 퍼블리쉬되어야 하는 압력이 늘었기 때문이다. 대개 연구원들이나 교수들의 연구 성과의 정량적 평가는 지난 10-20년 간만 살펴봐도, (주로 국제) 피어 리뷰 전문 저널에 출판된 연구 논문의 편수와 등록 (혹은 출원까지도 포함)된 특허의 개수로 주로 이루어지고 있다. 특히 이른바 개도국에서 연구에 대해 집중 투자를 할 경우, 겉으로 드러나는 수치로서 이러한 편수/개수는 아주 간편한 정량 지표가 되기 때문에 자국의 연구자들에게 절대적인 퍼블리쉬 편수에 대한 압력이 매년 상승해 왔을 것임은 쉽게 유추할 수 있다.
이러한 출판 압력 증가와 더불어, 이에 대해 미리 대비 (혹은 시장을 선점)하려는 출판사/신생 저널들의 공격적 마케팅 (OA, 특집 이슈의 남발, 초고속 리뷰 프로세스 등)이 더해지면서, 오히려 저널과 출판사들이 다시 양의 되먹임 (positive feedback)을 학계로 되돌려 보내고, 학계는 다시 그것에 자극받아 더 논문 편수를 늘리는 고리가 반복되고 있음을 우리는 지난 수십 년 간 줄곧 목격하고 있다. 한국 역시 중진국이었던 시절인 90년대 후반, 처음 시작된 BK사업의 초중반 phase 까지는 대부분의 연구 사업 성과 정량평가가 연구 논문 편수에 집중되어 있었다. 최근까지도 여전히 편수 위주의 평가는 주요 사업 성과 지표가 되고 있다. 2010년 중반 이후부터 조금씩 IF니, citation이니, JCR이니, H-index니 하는 weighting factor 들의 비중이 정량평가 과정에서 높아지고는 있지만, 결국 이들 역시 편수를 기초로 한 정량 지표의 연장선일 뿐이다.
이렇게 편수 위주의 평가가 굳어지면, 연구자들에게 있어 밀어내기 식의 퍼블리쉬는 더 많아질 수밖에 없다. 그것은 옵션이라기보다는 유일한 방법에 가까운 것이기 때문이다. 그렇지만 그 과정에서 굉장히 많은 문제들이 생기기 시작한다. 일단 랩에서 생성된 데이터에 대해 충분히 숙고하고 재현성을 테스트할 시간적 여유가 줄어들게 된다. 하루라도 더 빨리 draft를 서브미션 하고 퍼블리쉬해야 하는 연-단위 평가 시스템에서, 재현성 좀 더 테스트하겠다고 한 달, 두 달 이상을 추가로 더 투입할 연구자는 그렇게 많지 않을 것이며, 학생이 만들어 온 데이터를 A-Z까지 꼼꼼하게 연구노트 따라가며 주의 깊게 검토할 PI도 그렇게 많지 않을 것이다. 더구나 그룹이 일정 규모 이상으로 커지면 시간과 에너지 한계로 인해 10명이 넘는 연구원들, 학생들 모두의 manuscript나 data에 대한 critical internal review는 언감생심이고, PI들은 그저 학생 졸업이나 과제 평가, 승진이나 재임용을 위해 그저 빨리 하루라도 페이퍼를 밀어내기 바빠질 수밖에 없는 구조가 고착화된다.
그러다 보니 학계에서 생산되는 연구 논문은 신호와 잡음비가 해가 거듭될수록 점점 안 좋아지는 경향이 생기고 있다. 예전에도 당연히 재현이 안 되는 실험이나 연구가 없던 것은 아니다. 그렇지만, 요즘에는 더욱 그 비율이 늘어나는 것 같다. 어떤 페이퍼를 다운로드하여 그 페이퍼에 적힌 그대로 계산을 해 보면 결과가 다르거나 방정식이 잘 못 유도되었거나, approx이 잘 못 적용된 케이스가 꽤 많다. 실험은 더더욱 재현되기 어렵다. 모든 정보를 꼼꼼히 기록한 페이퍼도 많지 않을뿐더러, 특히 생명이나 의학 관련 실험/임상 연구 논문은 재현하기가 더더욱 어렵다. 예전에 본 조사 결과에서는 생명과학 분야의 연구 논문 재현이 1/3에도 못 미친다는 결과를 본 적이 있는데, 요즘에는 이 비율이 더 낮아졌으리라 생각한다. 에너지 관련 논문 역시 성능이나 특성이 제대로 재현되지 않는 경우가 허다한데, 심지어 제3의 기관에 인증을 맡겨서 보고한 페이퍼 조차도 다른 그룹에서 재현되지 않는 경우가 빈번하다. 보통이라면 그 커뮤니티의 연구자들이 이론이나 모델의 오류 혹은 실험의 재현 불가능성을 발견하면 퍼블리셔나 에디터에게 연락을 해서 comment paper를 보내고, 원전 페이퍼의 저자들은 그에 대응하여 response letter든 erratum을 출판하는 것이 정석이 되어야 한다. 그렇지만 요즘엔 그런 이벤트는 이제 정말 찾아보기 힘든 시대가 되었다. 간혹 물리학 저널에는 이론에 대한 comment와 response, 그리고 erratum이 출판되는 경우가 왕왕 있지만, 다른 분야는 그런 빈도가 무척 낮은 편이다. 사실 에디터 입장에서도 그런 comment paper를 진지하게 보기에 시간과 에너지의 한계가 명확하고, 원전 저자들 입장에서도 그에 대응하기보다는 무시로 일관하는 경우가 많아지고 있기 때문이기도 하다.
사실 저널과 연구 논문의 숫자가 계속 증가하면, 어느 정도까지는 인류 지식의 절대적 volume이 증가함으로써 순기능이 강하지만, 그 선을 넘으면 이제는 위와 같은 에러나 노이즈가 더 많아지고, 이로 인해 정말 중요한 발견이나 데이터가 묻히는 경우가 더 많아질 수밖에 없는 것은 자명한 사실이다. 이 경우 net volume of knowledge는 정체 현상을 거쳐 심지어는 오히려 하락하게 될 수 있다. 사실 인류 역사에 있어 이렇게 서로 활발하게 실시간으로 지식의 진보가 문서와 데이터로 공유되고, 어디서든 활용 가능했던 시대를 겪어 본 역사가 없고, 또 이렇게 많은 연구자들 (숫자와 비율 모두), 연구비 (규모와 비율 모두), 연구기관으로 인해 연구 논문의 폭발적 증가를 경험해 본 역사가 없다. 따라서 사실 어느 시점까지가 적절한 시점인지 판단하기 위한 레퍼런스라는 것 자체가 있을 수 없다. 이것이 사실 근본적인 문제다. 레퍼런스가 있었다면 대략 어느 시점에서 '되돌아보기'를 해야 할지를 결정할 수 있지만, 지금 같은 상황에서 누가 되었든 '되돌아보기'를 하자고 먼저 제안하는 것은, 사실 고양이 목에 방울 달기와 비슷한 이치다. 먼저 다는 쪽이 당장의 경쟁에서 뒤처질 것이기 때문이다.
그렇지만 내 개인적인 생각으로는 the net volume of knowledge는 이제 슬슬 정점을 향해가고 있는 것 같다. 겉보기 volume이 늘어나는 속도가 V ~exp(t/tau1)이라면, signal-to-nosie ratio의 감소 속도는 1/(V + Vth)^2에 비례하여 감소할 것이기 때문이다. 이 경우, net volume이 정점에 이르는 순간은 겉보기 V이 Vth (threshold 겉보기 volume)에 이르는 순간이 된다. 이 순간을 넘어서면서부터는 signal-to-noise ratio의 감소 속도가 겉보기 volume의 증가 속도를 추월하기 시작하기 때문에, 오히려 겉보기 volume의 증가는 인류 지성사에 있어 도움은커녕 해가 될 수 있다. 물론 관건은 과연 Vth는 얼마 정도의 수준이 되어야 하는 것이냐인데, 인류는 아직 이 값을 측정할 아무런 레퍼런스가 없는 상황이라, 내부적으로 계속 시행착오를 거치면서 이에 대한 평가를 할 수밖에 없는 입장이다.
사실 이러한 고민은 많은 연구자들이 이미 수십 년 전부터 해 오던 것이다. publish or perish라는 표현이 세상에 출현한 것은 이미 수십 년이 넘었다. 그렇지만 20세기 말 이후, 인터넷을 통한 연구 자료의 활용이 거의 일상이 되면서 이러한 고민이 더더욱 격화되고 있는 것으로 보이는데, 특히 pre-print의 활용이 더욱 활발해지면서 signal-to-noise에 대한 고민이 더 깊어지는 것으로 보인다. 이러한 상황에서 조금 더 건강하고 의미 있는 연구를 위해서 연구자들에게 스스로 출판을 늦추고 더욱 internal review에 집중하라는 주문을 하는 것은 공염불일 뿐이다. 의무화되기도 쉽지 않을뿐더러, 의무화된다고 해서 그것을 제도화하기도 어렵기 때문이다. 결국 믿을 것은 연구자들의 양심과 공동체 의식인데, 지금 같은 경쟁 구도 속에서는 그것 역시 기대하기 어렵다.
차라리 대안은 Journal of Reproductive Research on XXX 같은 저널들이 많아지는 것이다. 저널 숫자를 줄여도 모자란 마당에 또 신규 저널 추가하는 것은 일견 모순으로 보일 수 있지만, 사실 이러한 저널들은 새로운 연구 결과를 공유하는 것보다는 기존의 결과들의 신뢰성, 재현성을 테스트한 결과를 커뮤니티에 공유한다는 점에서 생각보다 훨씬 그 값어치가 높을 수 있다. 이러한 연구에 대해 각 기관들이 연구자들에게 더 많은 크레딧을 주면 자연스레 더 많은 연구자들이 기존의 결과에 대한 재현 연구를 더 많이 하게 될 것이고, 어떤 분야나 논문이 더 많이 재현되었는지에 따라, 자연스럽게 그 분야의 발전 속도에 영향을 주게 될 것이다. 예를 들어 어떤 특정한 종류의 신소재가 에너지 저장 소재로서 아주 각광을 받고 있는 상황에서, 매년 50%씩 그 분야의 연구 논문이 늘어나는 추세라고 가정해 보자. 경쟁이 극심한 만큼, 재현성이나 신뢰성에 문제가 있는 논문들도 많아질 텐데, 만약 이에 대한 재현성 논문이 점점 많아지게 되면, 그 특정 소재의 어떤 특성에 대해 사람들이 더 많이 주목하는지 자연스럽게 드러나게 될 것이고, 만약 재현이 잘 안 된다고 보고되는 빈도가 늘어난다면, 그 특정 분야의 연구자들은 연구 결과의 퍼블리쉬에 대해 한 번 더 브레이크라도 걸어볼 가능성이 생길 것이다. 이것은 겉으로는 그 분야에 대해서는 음의 피드백이 될 수 있지만, 장기적으로는 그 분야의 불확실성을 하나라도 더 제거해준다는 입장에서는 양의 피드백으로 작용할 수 있을 것이다.
이러한 재현성 테스트 전문 저널들이 더 많아지면, 이제는 연구자나 연구기관뿐만 아니라, 퍼블리셔나 저널 자체에 대한 메타 평가가 가능해진다. 그렇게 되면 저널의 수준을 평가할 때 JCR이나 IF에 앞서, 그 저널의 '평균 재현성', '평균 신뢰도' 같은 지표가 생길 수 있을 것이다. 저널의 영향력이라는 것이 단순히 인용된 것을 넘어, 어떤 뉘앙스로 인용되었는지, 그리고 재현성은 얼마나 되었는지가 조금 더 정량적으로 평가되기 시작하면, 시간이 지나면서 저널, 혹은 퍼블리셔에 대한 평가도 자연스레 그 방향으로 재조정될 것이고, 이는 후에 연구자들의 연구 수준 평가로도 활용될 수 있을 것으로 생각한다. 연구자 입장에서 비슷한 IF, JCR이라면, 당연히 평균 재현성이나 신뢰도가 높은 저널에 투고하고픈 마음이 더 강해질 것이다. 저널들 입장에서도 리뷰 프로세스나 페이퍼에 대한 판단에서 이러한 부분을 신경 쓰지 않을 수 없게 될 것이다. 연구기관이나 평가 기관 입장에서도 유독 신뢰도가 낮은 저널에 집중 퍼블리쉬하는 연구자에 대한 평가는 더 안 좋아질 것이고, 신뢰도가 높은 저널에 재현 논문을 퍼블리쉬했거나, 이미 퍼블리쉬한 논문의 재현도가 높다고 사후 평가되면, 그 연구자의 평가나 reputation은 자연스럽게 올라갈 수 있게 될 것이다.
이러한 재현성 전문 저널이 실제로 특정 분야에 출현했는지는 잘 모르겠지만, 이러한 저널들이 각 분야에서 장려되고 더 많아지는 트렌드는 조만간 찾아올 것으로 전망된다. 이미 머신러닝 분야에서는 단순히 연구 결과만 공유하는 식의 페이퍼는 잘 억셉이 안 되며, 깃헙이든 어디든, 원본 데이터와 코드를 공개하여 재현을 누구나 해 볼 수 있게 하는 연구들이 주로 억셉이 되는 것으로 보인다. Nature 일부 저널들 역시 리뷰 과정의 공개는 물론 원본 데이터의 공개도 같이 온라인에 공개하는데, 이러한 정책들은 연구자들로 하여금 자신의 연구 결과에 대한 재현성과 신뢰성을 스스로 한 번이라도 더 생각해 보게 하는 최소한의 장치가 될 것이다. 이러한 움직임과 더불어, 재현성 전문 저널들이 더 많아지면 트렌드가 바뀔 가능성도 크다. 지금까지는 publish and forget의 트렌드가 지배적이었다면, 앞으로는 publish with responsibility, publish and monitor의 트렌드가 생겨날 것이다. 연예인들이나 정치인들이 무명이었던 시절, 인터넷 커뮤니티에 아무렇게나 쓴 글들이 몇 년 후 유명해졌을 때 자신에게 뜻하지 않게 해가 되는 경우를 최근 많이 보는데, 연구에서도 과거 책임감 없이 출판한 연구 성과가 나중에 자신에게 해가 되는 경우가 생기는 이벤트가 점점 많아질 것이고, 그렇게 되면 자연스럽게 연구 성과를 말 그대로 'PUBLICation' 한다는 것 자체의 무게감이 지금보다는 더 높아질 것이다.
사실 이렇게 무게감, responsibility가 있는 publication이 그간 지식의 진보나 빠른 성과의 유통이라는 미명 하에, 일종의 구습처럼 여겨지기도 했던 것도 사실이다. 그러나 이대로 가다가는 이제는 모두가 불확실성으로 인해 입는 피해가 늘어나는 빈도가 높아질 것이므로, 결국 다시 기본으로 회귀하려는 움직임이 이른바 연구 선진국이나 기관들부터 생겨나지 않을까 생각한다. 연구에 있어 재현성이나 신뢰도는 연구자 개인뿐만 아니라, 커뮤니티 모두를 위해 꼭 보존되고 장려되어야 할 지표가 될 것이고, 이는 단기적으로 봤을 때 겉보기 volume의 증가 속도를 다소 둔화시킬 수는 있더라도, 장기적으로는 net volume의 감소를 막을 수 있는 최소한의 방편이 될 수 있을 것이라 생각한다.
인간은 호기심의 동물이고, 그중에서도 더 호기심과 새로운 것에 대한 이끌림을 갖춘 사람들이 나오게 마련이므로, 세상이 당장 멸망하지 않는 한, 앞으로도 연구는 지속될 것이다. 그렇지만 연구 자체의 지속 가능성만큼이나 중요한 것은 의미 있는, 믿을 수 있는, 재현이 되는 연구의 지속 가능성이고, 이를 위해서는 연구자와 연구기관, 펀딩 기관, 평가기관, 저널, 퍼블리셔 모두 그간 애써 덮어두려던 재현성과 신뢰성에 대한 진지한 고민을 하루라도 빨리 시작해야 한다. 퍼블리쉬 후 연구자 본인도 그것을 잊어버리는 것이 아닌, 한 번 퍼블리쉬한 페이퍼는 연구자가 평생 책임져야 한다는 의식과 문화가 정착되어야 한다. 어떤 시점 이후에는 폭주하는 volume으로 인해 이러한 조치를 취하는 것 자체가 불가능해질 수도 있다는 것을 명심해야 한다.