양자컴퓨터로 신약 만들기

너무 비싼 양자 기계학습

by 이원규

2025년은 유엔 총회가 선포한 국제 양자과학기술의 해였습니다. 양자 기술은 크게 컴퓨터, 센서, 통신 등으로 나뉘는데, 그 중 양자 컴퓨팅은 1994년 피터 쇼어의 소인수분해 알고리즘이 알려지면서 암호·정보과학계를 뒤흔들고 산업계의 관심까지 끌었습니다. 아직은 오류율과 비용이 높은 초기 단계이지만, IBM, 구글, 아이온큐(IonQ), 리게티(Rigetti), 아이큐엠(IQM), 큐에라(QuEra) 등 여러 회사들에서 자신들의 양자 컴퓨터를 서비스하고 있으며, 산업적으로 유용한 활용 사례를 발굴하기 위해 경주하고 있습니다.


스크린샷 2026-01-01 001618.png 양자 컴퓨터로 찾은 KRAS-G12D 억제제 후보 분자, ISM061-018-2. Ghazi Vakili(2025).

2025년 1월 22일, 네이처 바이오테크놀로지에 양자-고전 하이브리드 생성 모델로 항암 표적 단백질인 KRAS 돌연변이(G12D) 억제 후보를 설계·선정·합성까지 진행안 연구가 온라인 출판되어 큰 주목을 받았습니다. 이 연구는 2024년 2월 arXiv 공개 후 5월 투고, 12월 게재 승인을 거쳐 온라인 출판으로 이어졌습니다.


images_large_ci3c00562_0003.jpeg QNG QuMolGAN으로 생성한 분자들. Kao(2023).

이 연구를 수행한 인실리코메디슨사와 토론토대학 알란 아스푸루구직(Alán Aspuru-Guzik) 교수 연구실 등은 이미 2023년에 QM9이라고 하는 9개 이하 원자들로 구성된 데이터베이스를 학습한 양자-고전 혼성 기계학습 모델로 고전 모델보다 더 작은 규모의 모델에서 더 좋은 성능의 분자를 생성한 결과를 화학정보학과 모델링지(Journal of chemical information and modeling)에 발표했습니다. 이때에는 양자 하드웨어를 직접 쓰지 않고 고전 컴퓨터 위에서 양자 컴퓨터를 에뮬레이션했습니다.


스크린샷 2025-12-31 233727.png Ghazi Vakili(2025)의 방법론 파이프라인.

2025년 논문에서는 실제 IBM의 양자 하드웨어를 쓰고, 암 유발 돌연변이 단백질인 KRAS 돌연변이 단백질 KRAS-G12D에 현재까지 발견된 저해제들과, 구조 기반 가상 스크리닝으로 구성한 훈련 세트들을 합쳐 학습해 새로운 KRAS-G12D 억제제 후보를 찾았습니다. 연구팀은 양자 하드웨어, 양자 에뮬레이터, 그리고 대조군으로 고전 기계학습 모델 각각에서 백만 번 분자 생성을 시도했습니다. 생성한 분자가 얼마나 KRAS-G12D와 잘 붙을 수 있는지를 검증하고, 합성 가능성과 약물 특성 등을 고려해 고전 모델에서 3개, 양자 하드웨어에서 8개, 양자 에뮬레이터에서 4개의 새 분자를 선택해 합성했습니다.

그 중 양자 하이브리드 모델에서 나온 ISM061-018-2라 이름을 붙인 분자가 KRAS-G12D와 결합능 1.4 μM을 나타냈습니다. 후속 실험에서는 이 물질이 KRAS-G12D 외의 다른 돌연변이들과도 결합할 수 있어서 범 KRAS 돌연변이 저해제의 가능성을 엿보았습니다.


왜 2023년의 모델은 하드웨어에서 실행하지 않았을까요?


많은 생성형 기계학습 모델은 난수 잡음을 만들고 그 잡음을 우리가 원하는 데이터(그림, 음성, 언어 등)로 변환합니다. 2023년에 사용한 모델은 GAN이라고 하는 모델을 썼습니다. 예를 들어, 위폐기와 위폐감별기가 있습니다. 위폐기는 더 정교한 위폐를 만들고 위폐감별기는 더 정교하게 참 화폐와 위폐를 구별하도록 학습합니다. 이렇게 서로 적대적으로 학습하고 나면 위폐기는 아주 정교한 위폐감별기로도 참 화폐와 구별할 수 없는 위폐를 만들 수 있습니다. GAN은 이 원리를 이용한 것으로, 난수 잡음을 우리가 원하는 데이터로 변환하는 생성자(위폐기에 해당)와 생성하고자 하는 목표 데이터를 생성자가 만든 데이터와 구별하는 판별자(위폐감별기에 해당)가 적대적으로 학습하면서 생성자가 목표 데이터와 구별할 수 없는 새로운 데이터를 생성하도록 학습합니다.


인실리코메디슨과 아스푸루구직 연구실에서는 이 GAN의 생성자에 필요한 난수를 양자 회로에서 얻는 방식을 택했습니다(Quantum Noise Generator, QNG). QNG는 양자 회로의 기댓값을 기반으로 하며, 회로를 한 번 측정한 결과는 이산적인 값이므로 여러 번 측정한 기댓값으로 연속적인 값을 얻을 수 있습니다.


GAN을 학습할 때, 연구진은 근사적으로 학습 데이터 개수만큼 가짜 데이터를 만들었습니다. 이를 학습 횟수(에포크)만큼 반복해야 합니다. 따라서 QNG 호출 횟수는 약 (QNG 측정 횟수)×(학습 데이터 개수)×(에포크)가 됩니다. 학습 데이터 개수와 에포크는 논문에서 각각 약 13만 개와 150회로 나와 있습니다. 연구에서는 에뮬레이터를 썼으므로 기댓값을 얻고자 여러 번 측정할 필요가 없으나, 하드웨어를 쓴다면 반드시 필요합니다. 이를 100으로 가정하면, 총 양자 회로 측정 횟수는 100×130,000×150=1,950,000,000회, 즉 약 19억 5천만 회입니다.

양자 컴퓨터 클라우드 서비스인 AWS Bracket에서 가장 싼 하드웨어인 리게티 Ankaa는 양자 회로 1회 측정인 샷 개수당 0.0009달러를 매기므로, 총 175만 5천 달러, 2025년 12월 31일 환율로는 약 25억 원이 학습에 필요합니다. 이것도 샷 수만 계산한 하한 추산이고, 실제로는 작업 실행 비용, 대기열 비용, 양자-고전 통신 오버헤드 등이 추가됩니다.


이상의 추산은 QNG 자체는 고정되어 있고 고전 기계학습 모델만 학습한 것으로, 양자 회로도 학습하면 양자 회로를 계산해야 하는 횟수가 회로의 변수 개수에 비례해서 더 커집니다.


QNG를 쓰는 QuMolGAN은 학습 과정과 생성 과정에 필요한 연산이 같기 때문에, 학습 데이터 개수만큼인 약 13만 개 분자를 생성하는 비용은 학습 1 에포크에 준하는 비용이 듭니다. 즉 학습도 비싼데 생성도 비쌉니다. 2025년 논문처럼 1백만 개를 생성하는 비용은 똑같이 리게티 Ankaa를 쓴다면 양자 회로 약 1억 번을 실행하는 데 필요한 약 9만 달러입니다.


2025년 논문에서는 생성 모델 내부에 양자 회로를 직접 끼워넣지 않는 방식으로 이 문제를 우회했습니다. 이 연구에서는 분자를 문자 시퀀스로 표현하고, 앞선 문자를 조건으로 다음 문자를 생성하는 자가회귀적 언어 모델의 일종인 LSTM을 사용했습니다. 이 조건에 분자의 약물성·결합력 등으로 나타낸 조건 변수를 확률분포 형태로 추가했습니다.


양자 컴퓨터는 회로 측정 결과가 본질적으로 확률로 나타나며, 회로를 적절히 설계하면 원하는 확률분포에서 표본을 생성할 수 있습니다. 이러한 확률분포 생성 모델을 QCBM(Quantum Circuit Born Machine)이라고 합니다. 연구팀은 분자의 약물 점수로 정의한 조건 분포를 QCBM으로 표현하고, 이 분포에서 샘플링한 값을 조건으로 삼아 분자를 생성했습니다.


이 과정을 반복하면 생성에 쓴 조건 분포가 점차 더 나은 약물 특성을 보이는 영역으로 이동하게 됩니다. 이는 정확히는 강화 학습은 아니지만, 샘플링을 반복하며 분포를 업데이트해 생성 결과를 개선한다는 점에서는 유사한 작동 원리입니다.


QCBM을 이용했을 때 얻는 이점은 학습은 비싸지만 표본 추출은 싸다는 점입니다. 학습할 때는 분포의 기댓값을 안정적으로 구해야 해 반복 실행이 필요하지만, 생성할 때는 분포에서 한 번 샘플링하면 곧바로 하나의 조건 값이 나옵니다. 즉, 100만 개 분자를 뽑으려면 약 100만 번 양자 회로를 실행하면 됩니다. 실제 연구에서는 IBM 하드웨어를 썼으며, 양자 회로를 학습하는 데 쓴 표본 수나 샷 수 등이 모두 공개되지 않아 하드웨어 비용을 추측하기는 어렵습니다.


이처럼 기계학습에 직접 양자 회로를 끼워넣는 것은 대규모 데이터를 이용하는 일반적인 기계학습에서는 천문학적인 비용이 듭니다. 양자 기계학습의 장점으로는 적은 데이터에서도 빠르게 학습이 끝날 수 있다는 가능성이 있긴 한데, 대규모로 분자를 생성해야 하는 신약 개발에서는 그 장점이 제한적으로만 작용합니다.

2025년 논문에서는 이러한 한계를 우회하고자 분자 자체를 생성하는 과정이 아니라 분자의 생성 조건을 양자 회로로 표현하는 방식을 도입했습니다. 이로써 생성 단계에서는 양자 회로를 한 번 실행하는 것만으로 조건 변수를 샘플링하고, 이를 바탕으로 고전 생성 모델이 분자를 생성할 수 있게 되었습니다. 그 결과 실제 양자 하드웨어를 사용해 대규모로 분자를 생성할 수 있었고, 생성된 분자들을 실험·합성으로 검증하는 단계까지 나아가는 성과를 거두었습니다.


참고 문헌

Kao(2023): Kao et al., J. Chem. Inf. Model. 2023, 63, 3307-3318 (https://pubs.acs.org/doi/10.1021/acs.jcim.3c00562)

Ghazi Vakili(2025): Ghazi Vakili et al., Nature Biotechnology, 2025, 43, 1954-1959 (https://www.nature.com/articles/s41587-024-02526-3)

https://aws.amazon.com/ko/braket/pricing/

keyword
작가의 이전글“난 솔직히 내가 맘에 들어”