통계적 유의성 및 재현성을 위한 반복횟수
실험을 할 때 biological replication, 즉 "새로 sample prep 해서 실험한 다음 결과 측정하기" 전과정을 몇 번 반복해야 실제로 통계적 유의성을 보여주는 결과를 얻을 수 있을까요? 특히 RNA-sequencing에 대한 실험을 수행할 경우, 최소 몇 번을 반복해야 reproducibility issue에 걸리지 않고서 과학적으로 의미있는 결과를 얻는 것이 가능할까요?
이에 대한 실험을 영국의 University of Dundee 에서 총 48회의 RNA-sequencing 반복 실험과 총 11가지의 분석 방법을 통해 확인해 보았는데요, 결론부터 말씀드리자면 최소한 20회 이상의 biological replication을 해야 최소 85% 이상의 모집단 일치율을 보여줄 수 있다고 합니다. 그리고 모든 경우에서 false posive는 5% 미만으로 나왔습니다.
그리고 통상적으로 많이들 하는 3회 반복 실험의 경우 일치율이 20-40%에 불과하며, 따라서 과학적으로 믿을 수 없는 데이터입니다.
이 논문에서 권장하기로는,
(1) 모든 실험에서 조건당 최소 6회 반복,
(2) Significant Differential Expression을 보이는 gene들이 대부분 중요한 gene들일 경우는 조건당 최소 12회 반복,
(3) 반복 횟수 12회 미만일 경우에는 edgeR(exact) 또는 DESeq2 분석툴 권장,
(4) 12회 이상 반복할 경우 DESeq 분석툴 권장,
(5) True positive와 False negative를 구분하기 위한 fold-change threshold는 0.1≤T≤0.5 사이
...를 권장합니다.
"How many biological replicates are needed in an RNA-seq experiment and which differential expression tool should you use?"