brunch

You can make anything
by writing

C.S.Lewis

by 골든라이언 May 13. 2022

AI, 단백질 구조 풀다  

생명과학자의 철학

     최근, 3~4년간 4차 산업의 트렌드에 맞게 인공지능 (auto intelligence, AI) 기술 또한 바이오 분야에 적지 않은 지각변동을 일으켰습니다.


빅데이터 AI기반 신약 개발 플랫폼, AI와 원격진료를 결합해 새로운 의료 모델을 도입, AI 스마트팜 구축 그리고 AI 분석 엔진 플랫폼 기반 다중오믹스(multi-omics) 연구 등등 활발하게 바이오 분야 전반에 걸쳐 새로운 혁신을 도모하고 있습니다.


특히, 단백질 구조 분석 분야에도 큰 변혁이 일어났는데, 바로 구글의 인공지능 AI 자회사 '딥마인드'가 2018년 ‘알파폴드 (AlphaFold)’라는 AI 기반 단백질 구조 예측 도구를 공개한 시점 이후라고 할 수 있겠습니다.


알파폴드는 기존에 습득한 데이터를 통해 단백질 구조를 파악하는데 2020년 12월 단백질 구조 예측 학술대회(CASP, Critical Assessment of protein Structure Prediction)에서 우승하며 과학계의 이목을 끌었고 이후 잇달아  성능이 개선된 '알파폴드 2'개발했습니다. AI 성능평가 척도인 'GDT 점수가' 100점 기준 90점 이상인 경우, 예측 모델이 실제 단백질과 유사한 수준으로 평가되는데, 평균 92.4 GDT로서 매우 우수한 성능을 입증했습니다.


우리가 복용하는 약들 의 '표적(target)'이 대부분 단백질입니다. 그래서 신약을 발굴할 때 필수적으로, 신약  후보물질이 어떤 단백질과 결합하는지, 그리고 표적으로 예상되는 단백질의 어떤 부위의 기능을 조절하는가를 이해하는 '작용점(mode of action, MOA)'연구가 필수적입니다. 따라서 이 작용점을 이해하기 위해서는 단백질의 구조에 대한 정보의 획득이 요구되는데, 일반적으로 기존에 밝혀지지 않은 단백질의 3차원 구조를 규명하는 것은 역시나 상당한 시간과 비용이 소비됩니다.


구조가 밝혀져있지 않으니 '예측(prediction)'을 위한 '가상 시뮬레이션(virtual simulation) 또한 불가능하기에, 이러한 한계의 돌파를 위해 AI를 기반으로 하는 CASP 등의 대회가 매년 열리는 것입니다.


따라서, 2021년에 구글이 '알파폴드 2' 기반 신약 개발 기업'아이 소모 픽 랩스(Isomorphic Labs)'를 설립한 것은 자연스러운 수순이라고 할 수 있습니다.


또한, 비슷한 시기에 미국의 워싱턴 대학 베이커 교수님의 랩에서 한국인 백민경 박사님이 주저자로 참여해 개발한 로제타폴드(RoseTTAFold), 그리고 2022년  3차 구조가 풀리지 않은 단백질에 결합할 수 있는 바인더를 디자인하는 성과까지..


단백질 구조 분석 관련 AI 분석 발전 속도는 앞으로도 더 가속화될 것으로 예상됩니다.


현재까지 알파폴드 2가 거의 100만 개에 가까운 단백질 구조를 예측하여 구축한 데이터베이스(database or DB, alphafold.ebi.ac.uk)를 오픈 중입니다. 향후 1년 이내에 거의 모든 알려진 단백질의 수에 가까운 1억 개의 구조를 추가할 것이라고 합니다.


동물실험을 최소화하면서 약을 개발하는 방법을 추구하는 필자의 관점에서는 매우 기쁘고 고무적인 일입니다. 누구든 생체실험을 비난하고 반대를 할 수 있지만 그 대안을 제시하고 증명해야 하는 일은 '과학자'의 의무라고 생각하기 때문입니다.


[그다음은?]


불필요한 희생을 최소화하면서도 빠르게 치료제를 만들 수 있는 길이 열리는 것은 반갑지만,  

항상 그 '기술들의 한계'를 잘 살피고 그다음 단계를 준비하는 것도 필수 불가결한 연구자의 운명입니다.


'좋은 기술이란,  한 가지 문제를 명료하게 해결하는 것' 원칙 때문입니다. 


앞서 묘사했던 분자 네트워크의 복잡성만큼이나 다이내믹한 기능을 가진 것이 단백질입니다.


- 생체내에서 존재하는 단백질은 혼자 존재하는 경우는 거의 없으며 적어도 혹은 수십 개 이상의 단백질들‘복합체(complex)’를 이루거나 DNA, RNA 및 대사체들과도 결합하여 이들을 조절하는 역할을 합니다.


- 심지어, 단백질이 체내에서 만들어진 직후에 '해독 후 수식 (Posttranslational Modification, PTM)'이라는 현상으로 인해 아미노산 서열이 같을지라도 세포 내의 위치, 구조와 기능이 제각기 달라집니다. (마치, 휴일에 집안에서 쉬고 있을 때, 외출할 때, 그리고 여행을 떠날 때 입는 옷과 액세서리가 바뀌는 것처럼)

  

- 세포 신호전달 경로 ( cell signaling pathway)의 핵심 이벤트인 단백질 인산화(phosphorylation)를 포함해 현재까지 연구된 것은  PTM이 약 76 정도이며, 그나마 전통적인 연구로 인해 그 기능이 잘 알려진 것은 10종도 채 되지 않습니다.


- 그리고, 현재 구축되고 있는 AI 단백체 구조 DB는 이러한 다이내믹 한 정보들을 포함하고 있지 않습니다.




그래서, 갈길이 멉니다.

그러나 '방향만 맞다면, 느리더라도 잘 살피면서 한 걸음씩 내딛는 것' 중요하다고 생각합니다.

기초과학이 걸어가야 할 길이기도 하고요.


"눈 덮인 들판을 걸아갈 때 이리저리 함부로 걷지 마라. 오늘 내가 걸어간 발자국은 뒷사람의 이정표가 되리니."                             - 서산대사(西山大師)-

                                                     





이전 14화 Last obsession(마지막 집착), 프로테오믹스
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari