brunch

You can make anything
by writing

C.S.Lewis

by San Lee Mar 28. 2016

프로젝트 MSSNG

클라우드에서 인공지능과 겨루는 자폐증 연구

2014년 6월부터, 아티즘 스픽스(Autism Speaks)는 구글(Google)과 협력하여 미싱(MSSNG) 프로젝트를 수행하고 있다. 이전까지 '아티즘 스픽스 10,000 지놈 프로그램(AUT10K)'으로 알려졌던 이 프로젝트는 자폐증을 가진 10,000 가족의 DNA를 수집하고 연구하기 위한 오픈 소스 리서치 플랫폼을 만들어 구글 클라우드 지놈 데이터베이스를 기반으로 시퀀싱된 자폐증 유전자 정보를 담는 세계 최대 데이터베이스인 구글 지노믹스(Genomics)를 구축하는 것을 목표로 하고 있다. 2014년 12월에는 전 세계 과학자들에게 데이터를 개방하여 지놈 분석과 협력을 장려하고 있다. 지놈(genome)은 유전자(GENe)와 염색체(chromosOME)의 합성어로 한 개체의 유전자의 총 염기서열이며, 한 생물종의 거의 완전한 유전 정보의 총합이다.


그림 1. 결정화된 DNA


프로젝트의 이름인 미싱은 'MISSING'에서 모음 'I'가 빠진 것으로 자폐증의 잃어버린 조각을 찾는다는 것을 의미한다. 10,000 가족이 넘는 DNA를 분석함으로써 아직 답을 찾지 못한 자폐증의 많은 문제를 풀 수 있을 것으로 예상된다. 구글 클라우드에 저장된 데이터는 전 세계 각지의 과학자에게 무료로 제공된다. 파일럿 프로그램을 통해 1,000 건의 전체 지놈 정보를 통해 새로운 발견이 이루어진 것을 시작으로 10,000 건의 전체 지놈 정보는 전 세계 과학계가 지금까지 이룩했던 성과를 넘는 연구를 수행하도록 도울 것으로 보인다. 현재까지 자폐증의 여러 서브타입을 찾았으며, 보다 개인화되고 정확한 치료를 가능하게 해줄 것으로 기대된다.


그림 2. MSSNG 프로젝트에서 얻은 결정화된 DNA 사진. $39에 판매도 한다.

프로젝트의 부산물로 생화학자 린든 그레드힐(Linden Gledhill)과 함께 결정화된 DNA 바이오 아트를 얻기도 했다. 실험실에서 DNA를 정제 합성한 후, 순수한 물에 녹여 고농도액을 만들고, 슬라이드에 올려 10,000배 확대해서 촬영한 사진들이다. 이때, 물이 증발하면서 DNA가 결정을 이루고 편광처리된 빛을 투사하면 그림과 같은 아름다운 사진을 얻을 수 있다.


그림 3. 결정화된 DNA 2


전체 지놈 시퀀스와 그 주석(annotations) 및 표현형(phenotype) 데이터는 계속해서 추가된다. 과학자들은 포털을 통해 데이터에 접근할 수 있다. 프로젝트의 주요 리더들은 구글의 데이비드 글레이저(David Glazer), 아티즘 스픽스의 랍 링(Rob Ring),  토론토 대학과 아동병원(SickKids Hospital)의 스티븐 쉐어러(Stephen Scherer) 등이다. 미싱 프로젝트의 철학은 자폐증을 더 잘 이해하기 위해 '개방형 과학(open science)'을 장려하고 가능하게 하는 것이다.[1]


구글은 데이터베이스를 구축하는데서 한 걸음 더 나아가 딥 러닝(deep learning)을 이용한 인공지능 분석을 추구하고 있는 것으로 보인다. 2009년 발표된 논문 '데이터의 놀라운 효과(Unreasonable Effectiveness of Data)'를 통해 충분한 데이터에 접근할 수 있다면 기계 지능(machine intelligence)은 패턴과 견해를 찾는데 있어 매우 효과적이라는 것을 언어 번역과 음성 인식을 통해 증명한 바 있다. 이 분야의 연구는 계속되고 있으며 다양한 문제를 위한 새로운 기술이 개발 적용되고 있다. 딥 러닝은 저수준의 데이터에서 고수준의 추상화를 자동적으로 찾는 접근으로 생물학적 데이터를 분석하는데 유망한 것으로 간주된다. 2012년 딥 러닝을 통해 1,000만 건의 유튜브 비디오에서 공통적인 물체를 식별하는 연구가 수행되었다. 컴퓨터는 어떤 것을 찾으라는 명령을 받지 않았지만 많은 이미지를 통해 패턴을 찾는 알고리듬을 스스로 적용할 수 있었다. 예를 들면, 고양이의 공통점을 컴퓨터가 인식하여 새로운 이미지에서 고양이를 찾는 것 등이다. 따라서, 막대한 유전자 정보와 표현형으로 머신 러닝 알고리듬을 학습시키면, 암을 유발하는 유전자 시퀀스의 변이 추가, 유전자 발현 등과 같은 패턴을 찾을 수 있을 것으로 기대된다.


2011년 IBM 왓슨(Watson)이 제퍼디(Jeopardy)에서 인간을 누르고 퀴즈왕으로 등극한 성공과 2016년 구글 알파고(AlphaGo)가 이세돌을 이긴 것도 이런 종류의 기계 지능이 기존에는 할 수 없었던 일들을 수행하고 있는 것을 보여준 것이라 할 수 있다. 구글은 이미 2014년부터 이미지에 포함된 글자를 영어로 자동 번역하는데 머신 러닝을 사용 중이다. 또한 2015년 초에는 아타리(Atari) 비디오 게임을 딥마인드(DeepMind) 기술로 학습시켜 전문 게임 테스터와 49회 게임을 수행했으며, 어떤 지식이나 규칙도 알려주지 않은 게임에서 인간을 이긴 바 있다.[2]


어떻게 보면, 미싱 프로젝트는 전 세계 과학자와 딥마인드가 자폐증의 원인을 찾기 위해 경쟁하는 구도가 될 수 있을 것 같다. 가까운 장래에 딥마인드가 지금까지 인간이 찾지 못했던 자폐증의 실마리를 해결해줄 수 있을까?


딥 러닝을 이용하여 자폐증을 이해하고 나아가 치료법을 모색하는 방법은 스타트업을 통해 진행되고 있기도 한다. 2015년 7월 토론토 대학은 딥 지노믹스(Deep Genomics)를 분사하여 딥 러닝으로 알려진 인공지능 기술을 사용하여 지놈 데이터를 마이닝하고 질병의 원인과 치료 방법을 찾고자 한다. 딥 러닝을 통해 지놈을 분석할 경우 유전자 시퀀싱을 더 빠르게 수행할 수 있음은 물론이고 지놈에서 발생하는 많은 변이(variations)를 더 잘 찾고 숨겨진 정보를 찾을 수 있게 된다. 지놈 시퀀싱의 발달로 수천 개의 지놈과 3억 개의 변이를 담는 거대한 데이터베이스가 구축되어 사람의 손으로 분석하는 것은 거의 불가능해지고 있다. 많은 과학자들은 유전자 변이가 질병에 관련되어 있다고 생각한다. 예를 들면, 자폐증의 공통 원인이 유전자 변이로 추정되고 있는 것을 들 수 있다. 딥 지노믹스의 계획은 바로 이 유전자 변이를 이해하려는 것으로 극단적으로 복잡한 과제다. 또한 분석을 위한 도구도 개발하고 있으며, 이미 개발된 유전자 변이의 여러 측면을 분석할 수 있는 SPIDEX도 그중 하나다.[3] 토론토 대학에서 오늘날의 구글 딥 러닝 머신을 있게 한 이론이 나왔다는 점을 고려할 때, 딥 지노믹스의 향후 연구는 매우 흥미롭고 기대되는 것이다.


1. https://www.mss.ng/

2.  David Glazer, Atoms, bits, and cells, Applied & Translational Genomics 6 (2015) 11–14

3. https://www.eitdigital.eu/news-events/blog/article/deep-learning-goes-deep-into-the-genome/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari