brunch

AI를 세포 연구와 질병 치료에 활용 할 수 있는 방법

기고 : 마크 저커버그 & 프리실라 챈

by 정중규

[기고 : 마크 저커버그 & 프리실라 챈]

AI를 세포 연구와 질병 치료에 활용 할 수 있는 방법


챈 저커버그 이니셔티브의 공동 창립자인 마크 저커버그와 챈 프라실라는 AI 기반의 가상 세포 모델링 시스템이 질병 치료에 필요한 지식을 획기적으로 향상시킬 수 있다고 생각한다.


---------------------------


생명체를 구성하는 가장 작은 단위인 세포는 질병을 이해하는 데 매우 중요한 단서를 제공하지만 세포에 관한 우리의 지식은 여전히 상당히 불완전하다. 가령 우리는 DNA, 단백질, 지질과 같은 수십억 개의 생체 분자가 어떻게 복합적으로 작용하여 하나의 세포 활동을 구성하는지 모른다. 또한 다양한 유형의 세포가 인체 내에서 상호 작용하는 방식 역시 미지의 영역으로 남아있다. 세포, 조직 및 신체기관에 병이 생기는 이유와 이를 건강하게 유지할 수 있는 방법에 대해 우리는 제한적인 정보만을 갖고 있다.


인공지능(AI)은 이러한 궁금증에 대한 답을 찾고 해당 지식을 전 세계에 적용하여 인류의 건강과 복지 수준을 높이는 데 도움이 될 수 있다. 단, 이를 위해서는 연구자들이 이 강력한 신기술에 접근하고 활용할 수 있어야 한다.


AI 모델을 사용하여 모든 세포 상태와 세포 유형을 나타낼 수 있다고 상상해 보자. ‘가상 세포’는 망막의 빛을 감지하는 간상세포와 원추세포, 심장 박동을 유지하는 심근세포 등 인체 내 각종 세포의 형태와 알려진 특성을 시뮬레이션할 수 있을 것이다.


과학자들은 이러한 시뮬레이션 프로그램을 사용하여 세포가 특정한 조건과 자극에 어떻게 반응하는지 예측할 수 있다. 즉, 질병에 감염될 경우 면역 세포의 반응, 희귀 질환을 안고 태어난 신생아의 세포 수준에서 나타나는 현상, 심지어 신약에 대한 환자의 예상 신체 반응 등을 파악할 수 있게 된다. 그 결과 과학적 발견, 환자 진단, 치료에 대한 의사결정이 가속화되고 안전성 및 효율성도 강화될 것이다.


챈 저커버그 이니셔티브(Chan Zuckerberg Initiative, 이하 CZI)에서는 이러한 기대를 실현하기 위해 과학적 데이터를 생성하고 컴퓨팅 인프라를 구축하고 있으며, 과학자들이 신기술을 활용하여 질병 퇴치의 꿈에 다가설 수 있도록 필요한 도구를 제공하고 있다.


데이터


우리는 이미 AI 기술의 발전과 방대한 양의 과학적 데이터를 통해 지금까지 알려진 거의 모든 단백질의 구조를 예측했다. 구글 딥마인드(DeepMind)는 알파폴드(AlphaFold)에 50년 간 세심하게 수집한 데이터를 학습시킨 결과 단 5년 만에 단백질 구조의 비밀을 밝히는 데 성공했다. 메타(Meta)에서 개발한 또 다른 AI 시스템인 ESM은 단어 대신 6,000만 개가 넘는 단백질 서열을 학습한 단백질 언어 모델이다. 이 AI 모델은 단일 서열을 근거로 단백질 구조나 단백질 돌연변이가 미치는 영향을 예측하는 등 다양한 작업에 활용된다.


가상 세포 모델링 시스템에도 많은 양의 데이터가 필요하다. CZI는 2016년부터 세포와 그 구성 요소에 대한 데이터를 생성하고 주석을 달기 위해 전 세계 연구자들을 지원하고, 대규모 데이터 세트를 통합하는 도구를 제작했다. 또 이를 학습 및 연구에 활용할 수 있도록 많은 연구자들에게 제공했다.


여러 연구자로 구성된 한 글로벌 컨소시엄은 신체의 모든 세포 유형에 대한 참고용 지도를 제작해 왔으며 샌프란시스코 바이오허브(San Francisco Biohub)에서는 유기체 전체에 대한 세포 지도를 만들고 있다. 이 모든 데이터 세트는 성장기부터 성년기까지 인체의 세포 유형을 기록하는 오픈 소스 인간 세포 아틀라스(Human Cell Atlas)의 첫 번째 초안을 작성하는 데 함께 활용되고 있다. 샌프란시스코 바이오허브와 챈 저커버그 이미징 연구소(Chan Zuckerberg Imaging Institute)는 세포 내 다양한 단백질들의 위치를 지도화하는 오픈셀(OpenCell) 프로젝트를 공동으로 진행 중이다.


또한 연구자들은 진포머(Geneformer) 및 scGPT와 같은 머신러닝 모델을 사용하여 유전자 및 세포에 대한 대량의 데이터를 분석하고 있다. 여기에는 CZI의 과학 및 기술 팀들이 단일 세포 연구의 속도를 높이기 위해 개발한 오픈 소스 소프트웨어 플랫폼인 셀x진(CELLxGENE)에서 생성된 데이터도 포함된다. 비슷한 맥락에서 챈 저커버그 이미징 연구소와 과학 및 기술 팀도 극저온 전자 단층 촬영을 위한 새로운 프로토타입 데이터 포털과 관련해 머신러닝 전문가들을 고용하여 현미경 데이터에 대한 자동 주석 추가 기능을 개발하고 있다. 이러한 노력을 통해 데이터 처리 시간을 몇 달 또는 몇 년에서 몇 주로 단축할 수 있을 것이다.


우리는 과학 기술의 혁신이 모두에게 도움을 줄 수 있도록 최대한 대표성 있는 데이터를 만들고 있다. 그 일환으로 소아과 데이터를 인간 세포 아틀라스에 포함시켜 유년기에 발생하는 질병의 세포 메커니즘에 대한 지식을 보강하는 작업으 진행하고 있다. 우리는 인종 다양성 네트워크(Ancestry Networks) 보조금을 통해 연구자들이 흑인, 라틴계, 동남아시아 및 원주민의 조직 샘플을 기반으로 세포에 대한 참조 데이터를 생성하는 작업을 지원하고 있으며 특히 기존에 연구가 소홀했던 인종, 민족 및 조상에 대한 조직 샘플을 중점적으로 다루고 있다.


연구진은 이미 엄선된 데이터 세트를 통해 의미 있는 사실들을 알아냈다. 한 연구팀에서는 낭포성 섬유증과 관련된 유전자 손상이 과학자들이 지금까지 한 번도 보지 못한 유형의 세포에 의해 발현된다는 사실을 밝혀냈고, 다른 팀에서는 코로나 바이러스의 일종인 SARS-CoV-2에 가장 취약한 호흡기 세포를 찾아냈다. 이 밖에 데이터를 이용하여 특정 세포에서 질병을 유발하는 돌연변이를 교정할 수 있는 새로운 유전자 접합 방안을 찾고 있는 연구팀도 있다.


이러한 발견은 질병 치료법 개발을 위한 첫 단계이며 우리는 앞으로 AI가 연구자들의 작업 속도를 크게 향상시킬 수 있다고 믿는다.


컴퓨팅


우리는 가상 세포를 만들기 위해 1,000개가 넘는 H100 GPU가 탑재된 고성능 컴퓨팅 클러스터를 구축하고 있으며, 이를 통해 자체 과학 연구소에서 생성된 데이터를 포함하여 세포 및 생체분자에 대한 다양한 대규모 데이터 세트를 학습한 새로운 AI 모델을 개발할 수 있을 것이다. 향후에는 이 모델을 활용하여 과학자들이 건강한 세포와 질병이 있는 세포의 모든 유형을 시뮬레이션하고 이러한 시뮬레이션에 대한 연구를 통해 세포의 생성 원리, 인체 전반에서 세포가 상호 작용하는 방식, 질병을 유발하는 변화가 세포에 미치는 정확한 영향 등 이해하기 어려운 생물학적 현상들의 잠재적인 진행 과정을 규명할 수 있기를 바란다.


우리의 컴퓨팅 클러스터는 민간 부문에서 상용 제품을 위해 사용되는 클러스터에 비해서는 규모가 작지만, 사용하기 시작하면 세계 최대 규모의 비영리 과학 연구용 AI 클러스터가 될 것이다. 이는 새로운 방식으로 데이터 세트를 사용하려 하지만 최신 AI 기술의 막대한 비용 부담이라는 한계에 부딪힌 연구팀들에게 중요한 자원으로 활용될 것이다. CZI의 다른 도구와 마찬가지로 이러한 디지털 세포 모델과 관련 데이터 및 애플리케이션은 전 세계 연구자들에게 무료로 제공할 예정이다.


인적 협업


이러한 데이터 세트를 생성하고, 컴퓨팅 클러스터를 구축하고, 생물학에 AI를 접목시키는 작업은 우리의 작업에서 가장 중요한 일종의 다학제적 협력 활동이다.


우리의 바이오허브 네트워크는 다양한 학문 분야와 기관의 전문가들을 모아 전통적인 연구 환경에서는 해결할 수 없었던 가장 중대하고 위험성이 큰 문제들을 일부 해결했다. 전 세계 연구자들은 셀x진과 같은 프로젝트를 통해 단일 셀 데이터 코퍼스 구축에 기여했으며 이는 자원과 지적 능력을 제공하는 협업자들이 많아질수록 오픈 사이언스(open science)를 위한 공유 자원이 얼마나 효과적으로 성장할 수 있는지를 보여주는 증거이다.


2016년 CZI가 과학 활동을 처음 시작했을 때 우리는 21세기 말까지 과학계가 모든 질병을 치료, 예방 및 관리할 수 있도록 지원하겠다는 원대한 목표를 세웠다. 우리는 이 목표가 실현 가능하며, 역량 있는 과학자와 기술자가 힘을 모아 AI를 통해 탄생한 기회를 최대한 활용한다면 훨씬 더 대단한 목표도 이룰 수 있다고 믿는다. 세포의 신비를 밝히는 것은 그 출발점이 될 수 있으며, 이는 우리가 알고 있는 많은 질병을 종식시키는 연구로 이어질 수 있다.


------------------------------


프리실라 챈은 챈 저커버그 이니셔티브의 공동 창립자 겸 공동 CEO다. 프리실라는 캘리포니아주 베이 에어리어 전역에서 소아과 의사이자 교사로 일하는 동안 지역사회 내 다양한 환자와 학생들을 만나며 맞춤형 학습 제공, 질병 관리 및 치료를 위한 새로운 방안 모색, 더 많은 사람들을 위한 기회 확대라는 목표를 갖게 되었다. 프리실라는 하버드 대학교에서 생물학 학사 학위를 받은 후, 캘리포니아 대학교 샌프란시스코(UCSF)에서 의사 자격증을 취득했다.


마크 저버커그는 챈 저커버그 이니셔티브의 공동 창립자 겸 공동 CEO이다. 메타의 창립자, 회장 겸 최고 경영자(CEO)이기도 한 마크는 인간의 역량 강화 및 커뮤니티 구축에 힘쓰고 있으며 CZI의 업무에 깊이 있는 기술적 경험을 제공한다. 마크는 하버드 대학교에서 컴퓨터 과학을 전공한 후 2004년 캘리포니아주 팔로 알토로 이사했다.


MIT Technology Review(2023 MIT 테크놀로지 리뷰) 2023년 10월 4일

keyword