구글 딥마인드의 알파지놈 모델 공개
지난 6월 25일, 구글 딥마인드는 ‘알파지놈(AlphaGenome)’이라는 유전체 해석용 인공지능 모델을 공개했다. 이 모델은 최대 100만 염기쌍에 이르는 DNA 서열을 단일 염기 수준까지 정밀 분석할 수 있다. 인간 유전체의 98%를 차지하면서도 기능이 불명확했던 비코딩 영역을 정교하게 예측할 수 있다는 점에서 주목받고 있다.
구글 딥마인드는 인간의 유전자 정보를 분석하는 데 진심이다. 딥마인드는 2018년 알파폴드1을 통해 단백질 구조 예측의 가능성을 증명했고, 2020년 알파폴드2에서는 정확도를 비약적으로 높이며 단백질 폴딩 50년 난제를 해결했다. 이 성과는 2024년 노벨화학상으로 이어졌다. 이제 알파지놈은 그 연장선상에서 유전자 조절과 발현을 아우르는 통합적 해석 도구이다.
알파지놈이 지닌 의미는 세 가지로 요약할 수 있다. (1) 인간 유전체의 대부분을 차지하는 비코딩 영역을 체계적으로 해독할 수 있게 되었다. (2) 변이 분석 속도와 학습 효율을 획기적으로 개선해 계산 생물학의 접근성을 높였다. (3) 유전자 발현, RNA 스플라이싱, 3D 구조 등 11가지 생물학 과정을 하나의 모델로 통합 예측할 수 있다.
(1) 첫 번째 성취는 비코딩 영역 해석이다. 인간 유전체의 98%를 차지하는 이 영역은 그간 ‘유전체의 어두운 물질’로 여겨졌지만, 유전자 발현과 질병 발현에 핵심적인 역할을 한다. 알파지놈은 TAL1 종양유전자를 비롯해 비암호화 변이가 백혈병을 유발하는 경로를 정밀하게 예측했다.
알파지놈은 100만 염기쌍이라는 긴 서열을 한 번에 해석하며, 유전자 간 장거리 조절 관계까지 반영할 수 있다. 이는 기존 모델들이 감당하지 못하던 해상도와 맥락 깊이를 모두 갖춘다는 의미다. DNA 내 조절 신호의 위치와 영향을 구체적으로 예측함으로써, 유전체를 ‘읽는 법’에 대한 기준 자체를 새로 제시했다.
(2) 두 번째 성취는 계산 효율성과 예측 속도에서 나타난다. 알파지놈은 변이 한 건당 분석 시간을 1초 이내로 줄였고, 병리적 영향까지 동시에 예측할 수 있다. 과거에는 이 작업에 수일 이상이 걸렸으며, 실험 기반 접근이 필요했다. 분석 속도의 개선은 임상 진단과 신약 개발에서 실용적 가치를 크게 높인다.
학습 자원 측면에서도 알파지놈은 돋보인다. 기존 Enformer 대비 50% 적은 연산 자원으로 학습이 가능하고, GPU 한 대만으로도 실험할 수 있다. 중소 연구실이나 대학에서도 활용이 가능한 수준으로 진입 장벽을 낮췄다. 유전체 AI 분석의 대중화가 본격적으로 시작된 셈이다.
(3) 세 번째 성취는 통합적 생명과정 예측이다. 알파지놈은 유전자 발현, 스플라이싱, 염색질 구조, 전사인자 결합 등 서로 다른 생물학 계층을 하나의 모델로 분석한다. 과거에는 각 기능을 별도 도구로 처리해야 했지만, 이제는 단일 모델에서 모두 다룰 수 있게 되었다. 생명 시스템 전체를 하나의 연산 체계로 통합하는 기술적 전환이 일어난 것이다.
특히 RNA 스플라이싱 오류는 희귀 유전질환과 직결되며, 기존 기술로는 예측이 어려웠다. 알파지놈은 스플라이싱 부위와 사용 빈도, 접합부까지 고려해 병리적 오류를 높은 정확도로 분석한다. 척수성 근위축증이나 낭포성 섬유증 등 실제 질환 진단에도 적용할 수 있다. 유전체 해석의 임상적 응용 가능성을 입증한 사례다.
모델의 예측력 평가 결과도 우월하다. 알파지놈은 24개 주요 생물학 과제 중 22개에서 기존 모델을 능가했고, 유전 변이 효과 예측에선 26개 중 24개에서 최고 성능을 기록했다. 특히 이 모든 기능을 실시간으로 수행한다는 점에서 기술적 전환점으로 평가된다. 단일 모델이 분석 속도와 정확성을 동시에 실현한 것이다.
알파지놈은 단백질 구조를 넘어 유전체 기능 전반을 해석하고자 한다. 다만, 이 모델은 어디까지나 유전체를 읽는 도구이며, 유전자를 편집하거나 생명체를 복제하는 기술과는 거리를 둔다. API 약관에도 생식 목적의 활용은 명시적으로 금지돼 있다.
구글 딥마인드는 인간의 유전자 정보를 ‘인지’하는 데 집중하고 있다. 현재로서는 그렇다. 그러나 언젠가 ‘생성’ 기술이 등장한다면, 복제나 유전자 조작으로 이어지지 않을까.