내부 데이터 보안을 지키며 AI 모델을 키우는 방법
1/ 코로나19 시기에 화이자가 AI를 활용하여 개발 기간을 단축한 사실은 잘 알려져 있습니다. 감염 대유행 초기에 AI를 통해 감염 규모가 커질 것으로 예상되는 장소를 선제적으로 파악했으며, 이를 통해 단 4개월 만에 46,000명의 환자를 모집할 수 있었습니다. 이렇게 수집된 데이터를 AI로 분석함으로써, 과거 10년 이상 걸리던 백신 개발 기간을 10개월로 단축했습니다. 이러한 성과는 달에 인간을 보내는 것과 같은 혁신적인 도전인 '문샷'이라고도 불리며, 의학 분야에서 큰 이정표가 되었습니다.
2/ AI 활용이 가장 활발할 것으로 기대되는 분야가 제약 바이오 분야입니다. 하지만 데이터 보안과 개인정보 보호는 여전히 중요한 도전 과제로 남아 있습니다. 특히, 바이오 의학 연구와 같은 분야에서 방대한 양의 민감한 데이터를 안전하게 처리하고 활용하는 것이 필수적입니다.
3/ 2019년 6월부터 2022년 5월까지 진행된 유럽연합(EU)의 Melloddy 프로젝트는 대규모 AI 기반 신약 개발 프로젝트로, 세계 최대 규모의 소분자 데이터베이스를 활용해 신약 개발의 예측 모델을 개선하는 것을 목표로 했습니다. 멜로디는 ‘AI 연합학습 기반 신약개발 프로젝트(Machine Learning Ledger Orchestration for Drug Discovery)‘의 영문 약자입니다.
4/ 이 프로젝트의 주된 목적은 각 회사가 자체 데이터를 공유하지 않고도 AI 모델을 공동으로 개발하고 훈련할 수 있도록 함으로써, 지적 재산을 보호하고 대규모 데이터셋의 이점을 활용하는 것이었습니다. 이 프로젝트에는 약 1,840만 유로의 예산이 배정되었으며, GSK, 노바티스, 화이자, 암젠, 아스트라제네카, 얀센 등 10개의 글로벌 제약사와 엔비디아, 부다페스트 기술경제대학 등 17개 기관이 참여했습니다.
5/ 신약 개발은 매우 까다로운 과정으로, 임상 시험 중에도 오직 12% 미만이 시장에 출시됩니다. 발견부터 상용화까지 최소 10년이 걸릴 수 있으며, 미국 제약협회에 따르면 평균 7년간의 임상 시험에 약 26억 달러의 연구개발비가 소요됩니다.
6/ 이에 멜로디 프로젝트의 공동 설립자들은 연합 학습을 통해 이 과정을 가속화할 수 있다고 주장합니다. 연합 학습은 중앙 집중식 서버가 데이터 샘플을 교환하지 않고도 분산형 장치에서 데이터를 기반으로 알고리즘을 훈련할 수 있게 해 줍니다.
7/ 이 프로젝트는 블록체인과 머신러닝 알고리즘을 활용해 신약 후보물질을 발굴하고, 개인정보 및 지식재산권을 보호하는 시스템을 구축하는 것을 목표로 했습니다. 특히, 연합학습 기술을 사용하여 각 기관의 데이터를 물리적으로 이동하지 않고 활용하였습니다.
8/ 멜로디 프로젝트에 따르면, 협력 모델은 개별 파트너가 단독으로 훈련한 모델보다 분자들을 약리학적 또는 독성학적으로 활성화된 것으로 4% 더 정확하게 분류할 수 있었다고 합니다. 또한, 독성 및 약리 활동 값을 추정하는 데 있어서 전반적으로 2%의 성능 향상을 보였다고 합니다.
9/ 한국에서도 "K-MELLODDY"라는 프로젝트가 추진 중입니다. 보건복지부와 과학기술정보통신부 주도 하에, 여러 제약사와 연구기관, 대학이 참여해 AI를 통한 신약 개발의 효율성을 극대화하고 연구개발 비용을 절감하려는 목표를 가지고 있습니다. 2024년부터 2028년까지의 프로젝트 기간 동안 총 348억 원이 투입될 예정입니다.
10/ 연합학습과 데이터 협력 강화가 프로젝트의 핵심입니다. Mellody AI 프로젝트는 각 기관이 자체 데이터를 직접 공유하지 않고 학습 결과만을 중앙 플랫폼에 집적하는 방식으로 운영되어, 다양한 기관의 데이터를 안전하게 활용할 수 있게 하며 개인정보 유출의 위험을 최소화합니다. 현재 국내 22개 제약사가 참여 의사를 밝혔으며, 이를 통해 신약 개발의 효율성을 높이고 연구개발 비용을 절감하는 데 중점을 두고 있습니다.
11/ 다만, 프로젝트명을 'K-멜로디'로 정한 것은 다소 아쉬운 선택일 수 있습니다. 인터넷이나 모바일 시대와는 달리, AI 시대는 소수의 업체를 제외하고 대부분의 기업이나 국가가 비슷한 출발선에서 경쟁을 시작하고 있기 때문입니다. 벤치마킹은 좋지만 창의적인 우리 고유의 프로젝트명이 더 좋지 않을까 하는 생각입니다.
12/ 제약바이오 분야에서 AI는 획기적인 전환점을 촉발할 것으로 기대됩니다.