brunch

You can make anything
by writing

C.S.Lewis

by 골든라이언 May 18. 2022

생체 '빅데이터' 해석에 대하여

생명과학자의 철학

     본 글에서는 앞서 '환원주의, 분자생물학' 편에서 다루었던 OMICS분석 기반 생체 '빅데이터' 대한 이야기를 좀 더 깊게 다루려고 합니다.


일반적으로 연구자들이 생체 OMICS 데이터를 확보한 뒤 만나는 가장 어려운 난관이 '데이터 해석 (data interpretation)'입니다. 특히, OMICS분석이 처음인 연구책임자 분들께서 이 마지막 단계에서 예상치 못한 장벽을 만나는 경우가 많은데, 어렵게 확보한 다량의 생체시료들과 거액의 연구비를 분석비용으로 사용하고(수백~수억) 확보한 '빅데이터'가 수 만원에 불과한 하드디스크에 잠드는 것을 경험하면, 두 번 다시 OMICS분석 따위는 하고 싶지 않고 싶은 트라우마로 남기도 합니다. 또, 직접 실험을 수행 한 학생 혹은 연구원의 시선처리도 잘 감당해야 하는 후폭풍도..  


이런 예기치 못한 불상사의 근본적인 이유는,

생체의 내재적 다양성 (interinsic variation)때문입니다. 


생명과학 실험에서 가장 흔히 사용되는 생체 유래 세포주 (cell line)는 다른 세포종들이 섞여 있지 않은 가장 균질성(homogeneity)이 높은 생체모델입니다. 그만큼, 가설에 의한 실험 결과의 재현성(reproducibility)을 위해 많이 쓰입니다.


그러나, 같은 세포주 유래라 하더라도 단백체 혹은 대사체 등의 분자 네트워크 수준에서는 (심지어 유전자 측면에서도) 각각의 세포들 모두 서로 다른 다이내믹한 조절(dynamic regulation)이 되고 있습니다.   


과거부터 생명과학자들은 이미 이러한 생체의 내재적 다양성에 대해서 잘 알고 있었지만 불과 10여 년 전만 하더라도 주로 1~2개에서 많아야 수개의 유전자나 단백질의 기능을 집중적으로 연구하던 흐름 이어서, 실험 시에 고려해야 할 실험군(test group)과 대조군(control group)의 환경요소가 상대적으로 까다롭지 않았습니다.


그러나, 현재 생명과학연구의 추세는 생체 구성분자를 분석하는 장비와 관련 기술이 점점 초고도화됨에 따라 '관찰할 수 있는 생체분자 정보는 모두 확보하고 통합해서 생명현상을 이해하겠다'는 기조입니다. 역설적으로, 분석하는 생체의 시료의 혼합성 (heterogenity)이 조금만 증가하더라도, 분자 네트워크 수준에서는 상호 비교할 수 없을 만 큰 차이가 나서 복잡성(complexity)이 같이 증가해버리는 상황이 전개되는 것입니다. 이러한 역설적인 면을 극대로 활용해 연구하는 분야가 바로 '단일세포 OMICS 분석 (single cell OMICS analysis)'이며 현재 가장 '핫'한 분야로 대유행하고 있을 정도입니다.  




생체 시료의 혼합성과 고려 요소의 복잡성 증가에 대해 육상의 달리기를 통해 비유해보겠습니다.


400미터 원통형 트랙이 있는 경기장에서,

50미터 혹은 100미터 달리기는 직선거리를 달릴 수 있기 때문에 최대 8명이 나란히 서서 출발이 가능합니다. 200미터 이상의 달리기는 원형을 고려해 선수들의 출발선을 달리해서 경기를 진행합니다. 새로운 고려 요소가 생긴 것이죠. 400미터 달리기만 하더라도 1 레인과 8 레인에서 출발하는 선수의 거리차는 50미터가 넘습니다. 그렇지만, 여전히 동시 출발이 가능하며 골인 지점에서 동시 측정이 가능합니다 (실제로, 선수들은 원심력과 구심력 때문에 3~6 레인을 선호한다고 합니다).  


마라톤, 수백에서 수만 명이 참여하는 마라톤은 동시 출발과 결승지점의 동시 측정 자체가 불가합니다. 같은 달리기라 하더라도 고려해야 할 요소가 완전히 달라집니다. 따라서, 마라톤에서는 개개인의 출발과 도착을 측정하는 기술을 적용하여 공정한 경기를 진행할 수 있습니다. 대규모이지만, '주어진 거리와 기록' 두 개의 필수 요소만 고려하면 되므로 비교적 통제가 잘되는 좋은 예라고 할 수 있습니다.    


자~이제 트랙을 벗어나, 서울시민의 출근시간대와 퇴근시간대의 걸음 수를 측정 비교 분석하려 합니다. 당장 고려해야 할 환경요소가 엄청나다는 느낌을 받습니다. 집안에서 걷는 것은? 지하철 내의 걸음은? 등등.. 어찌어찌해서 모든 시민의 걸음 수 데이터를 확보하였다고 하더라도, '출근과 퇴근시간' 이 추구하는 연구 목적과 부합하는 데어터 해석이 가능한지 의문이 들 것입니다.


50 미터에서 200미터는 세포주(cell line) 분석을, 400미터는 조직(tissue)이나 기관 (organ) 유래한 일차 세포 (primary cell)를 마라톤은 비교적 균질성이 높은 세포들로 구성된 조직이나 기관 분석들 비유한 것입니다. 여러 종류의 세포들이 혼재되어 있는 혈액, 혈관 및 신경 등이 포함된 조직, 다양한 다른 세포들이 층층이 쌓여 있는 조직이나 기관 등의 시료들은  '서울시민의 발걸음 측정' 만큼이나 어렵다는 것을 이해할 수 있습니다.


그렇지만 처음 분석하시는 분들은 언제나 대담합니다.  


" 뭐 어떻게든 되지 않을까요?  Bio informatics (생체 정보학)이나 AI기반 머신러닝(machine learning) 딥러닝 (deep learning) 기술도 있는데.. 시료도 이미 다 준비되었고요.."



        
    네, 어떻게든 잠들게 됩니다.



그렇게 큰 연구비를 먹으며 자라난 '빅데이터'라는 곰은 바로 하드디스크에서 동면에 돌입합니다. 필자가 운영하는 자그만 서버에도 분석한 단백질 데이터의 70%가 숙면 중입니다. 주인이 깨워주기를 하염없이 기다라며..


그럼 어떻게 하라는 거죠?



오직 한 가지만 새로워야 한다. 명확하게.



십 년 전쯤 근무했던 연구단의 단장님과 함께 독일 베를린 학회를 갔다가 단 둘이 저녁 식사를 할 기회가 있었는데, 값비싼 고급 정보라며 들려주신 얘기입니다.


여러 노벨 수상자들과 식사할 기회를 가졌던 단장님은 어떻게 노벨상을 탈 수 있었냐는 반복적인 질문을 통해 위의 결론을 얻었다고 합니다.


우리가 대량의 정보와 대량의 실험 수를 통해 얻은 '빅 데이터는' 양날의 검을 지니고 있습니다. 자연의 이치를 더 잘 이해할 수 있는 교두보가 될 수도 있고, 복잡성에 복잡성을 더해 잘못된 견해로 빠질 수도 있는 함정이 될 수도 있습니다. 


'빅 데이터를'통해 명확한 한 가지의 사실을 밝히기 위한 기본적인 두 가지 조건은 다음과 같습니다.


[1. 연구 목적의 모호성을 없애자]


모든 실험에는 연구 목적이 있습니다. 앞서 예시로 들었던 달리기와 마라톤은 뚜렷한 목적이 있습니다. '같은 거리를 달리기를 이용해 가장 빠르게 도달하는 사람'을 가려내는 경기입니다. 그렇지만, '서울시민의 출근 시 걸음수 측정'은 이미 그 목적부터 모호성을 지닙니다.


모호성을 없애는 가장 좋은 방법은, '왜? 이 연구를 하려고 하는지?'에 대한 반복적인 질문과 답을 통해  연구 목적을 명료하게 설정해야 합니다.


- 출근시간대, 서울시민의 걸음 수와 교통량의 상관관계를 알고 싶어서?

- 서울시민의 건강은 걸음 수와 연관성이 있고, 출퇴근 시간대 가장 측정하기 좋을 것 같아서?


등등, 자문자답 혹은 동료 연구자들과 논의를 통해 명료하면서도 가치 있는 결론을 도출합니다.


'연구비를 아낄 수 있는 제일 좋은 방법은 실험을 하지 않는 것입니다'  충분한 논리적인 추론으로 인해 명확한 결과에 도달할 수 있다면 적과 싸우지 않고 이기는 것과 마찬가지이니까요.(손자병법은 전쟁을 추천하지 않습니다)


꼭 해야 한다는 결론이 났다면,  실험을 시행하기 전에 충분한 '가상 실험'을 통해 어떤 접근을 하더라도 뒷 연구에 의미 있으며 핵심을 관통하는지 확인 후 '예비실험'으로 검증합니다. (여기서 멈추면 두 번째로 좋은 것입니다)


이후에 본 실험 (OMICS 분석)에 돌입하면,  어마어마한 노력, 시간과  비용이 들어가서 획득한 '빅데이터'는 보다 가치 있는 해석을 하도록 도와줄 것입니다.



[2. 분석기술과 시료에 대한 이해도를 높이자]


생체의 특징과 분석하려는 기술의 이해도에 따라 전혀 다른 결과가 발생합니다.


예를 들어보겠습니다.


일반적으로 암 환자의 단계를 구분할 때 'TNM (T는 tumor(종양), N은 lymph node(림프절), M은 metastasis(전이) 분류법'을 사용합니다.(물론 암종마다 다르며, 국가별로 차이가 있습니다) 각 기준의 진행 정도에 에 점수를 부여하고 최종적으로, T병기(stage)+N병기+M병기를 합하여 1기~4기로 분류합니다.(참고로, 말기암은 분류법에 기준 한 것이 아닙니다.)


어떤 연구자가 '나는 한 방울의 혈액진단을 통해 암환자가  어느 단계에 있는지 알 수 있는 단백질 생체 지표 (diagnostic biomarker poroteins)를 찾겠어'라는 연구 목적을 가지고 있다면, 자연스럽게 혈액 내에 존재하는 단백질체들을 프로파일링(proteome profiling, 단백체 동정)할 수 있는 기술을 이용해서 실험을 진행할 계획을 수립하게 됩니다. 이때수백 개에서 수천 개의 단백질을  동정할 수 있는 질량분석 기반 프로테오믹스(mass spectrometry based proteomicsMS-proteomics) 기술을 이용하기로 결정했습니다.


그래서 정상인과 1,2,3 그리고 4기의 암환자 단계별로 20개씩 (임의적인 숫자입니다.) 혈액 시료들을 모아서, MS-proteomics 분석  암 단계별로 차이가 나는 단백질을 찾는 분석을 진행합니다.


얼핏 보기에 실험 디자인에 별 문제가 없어 보입니다만, 일반적으로 위 실험 결과, 매우 실망스러운 데이터를 만나게 됩니다.

 

앞서 1편에서 서술했듯이, 혈액 내에는 다양한 세포들 (heterogenous cells)로 부터 생성되는 단백질들이 혼재되어 있습니다. 분자 수준을 기준으로 본다면  NMT체계 그저 거시적인 현상(phenomenon)만으로 분류된 것입니다.


다시 말하면, NMT 분류 기반 단계별 환자 각 20명의 혈액 내 단백체 프로파일을 비교했을 때(총 100개의 분석), 


같은 그룹으로 분류된 시료들의 단백체 데이터 간에도 그 패턴이 매우 다르게 나타난다는 것을 확인할 수 있습니다.




MS-proteomics 분석 시간만 세 달이 소요되고, 분석 비용은 개당 삼백만 원으로 가정해도 벌써 3억의 비용을 지불했습니다! 계속 값비싼 분석을 할 수 없습니다.


이제부터 검증은 상대적으로 저렴한 Western blot (항체를 이용해 한 개의 단백질의 발현 정도를 확인할 수 있는 가장 널리 쓰이는 분석기법)을 진행하기로 합니다. 그런데, 겨우 찾은 몇 개의 지표 후보들(candidates)도, 검증을 위해 혈액 시료 수를 각각 100개까지 늘려 분석하면 할수록 후보군에서 점점 탈락이 됩니다.


응? 진단용으로 쓸 마커를 찾을 수가 없네! 1,000개까지  가봐야 건질 게 없겠군.. 여기서 실험은 종결되면서, 곧 데이터들은 동면에 돌입하게 됩니다.


그러나, 같은 그룹 간에도 분자 네트워크 간의 차이가 있을 수밖에 없음을 미리 인지하고 있다면 MS-proteomics분석 기술을 이해하고 있었다면, 모든 그룹의 시료 수를 끝없이 늘려갈 것이 아니라 특정 그룹을 지정해 보다 깊은 분석(in-depth analysis)을 진행할 수 있었습니다.


예를 들어, 정상 군과 암 4기의 두 군의 시료 50개씩 MS-proteomics 분석한다면, 앞의 실험 예와 비교했을 때 각군별로 각각 2.5배 증가된 데이터가 확보되는데 이를 이용하면, 프로파일링 데이터를 기반으로 그룹별로 '분자 수준의 세분화 (classification)' 가능하게 됩니다.


몇 개의 단백질이 아니라 전체 단백질의 변화 패턴이 비슷한 것 끼리 분류해서 정상-1, -2,-3 그리고 암 4기-1, -2.-3등으로 세분화할 수 있게 됩니다. 그리고, 이렇게  분류가 된 이유에 대해 정상인과 암환자의 기저질환 또는 다른 병력 가능성을 조사해 상관관계를 추적합니다.


여기서 세분화를 가능하게 하는 마커들을 추려내어 일종의 바코드 형태의 패널(panel)로 구성을 해서 검증실험에 사용합니다. 즉, 버려지는 마커는 없습니다. 특정 시료에서 발견되지 않아도 '0'으로서 가치가 있기 때문입니다.


같은 현상을 분자 수준에서 재분류하고, 이를 해석할 수 있는 상관관계를 찾는 과정은 '빅 데이터'를 더욱 가치 있게 만들어줍니다.



연구주제의 명료함과 기술 그리고 생체 분자에 대한 이해도는 데이터 그 자체로 복잡성을 가진 '빅 데이터'를 가치 있게 전환시켜 준다고 생각합니다.



이전 16화 양날검, 오가노이드(organoid)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari