너무 비싼 양자 기계학습
2025년은 유엔 총회가 선포한 국제 양자과학기술의 해였습니다. 양자 기술은 크게 컴퓨터, 센서, 통신 등으로 나뉘는데, 그 중 양자 컴퓨팅은 1994년 피터 쇼어의 소인수분해 알고리즘이 알려지면서 암호·정보과학계를 뒤흔들고 산업계의 관심까지 끌었습니다. 아직은 오류율과 비용이 높은 초기 단계이지만, IBM, 구글, 아이온큐(IonQ), 리게티(Rigetti), 아이큐엠(IQM), 큐에라(QuEra) 등 여러 회사들에서 자신들의 양자 컴퓨터를 서비스하고 있으며, 산업적으로 유용한 활용 사례를 발굴하기 위해 경주하고 있습니다.
2025년 1월 22일, 네이처 바이오테크놀로지에 양자-고전 하이브리드 생성 모델로 항암 표적 단백질인 KRAS 돌연변이(G12D) 억제 후보를 설계·선정·합성까지 진행안 연구가 온라인 출판되어 큰 주목을 받았습니다. 이 연구는 2024년 2월 arXiv 공개 후 5월 투고, 12월 게재 승인을 거쳐 온라인 출판으로 이어졌습니다.
이 연구를 수행한 인실리코메디슨사와 토론토대학 알란 아스푸루구직(Alán Aspuru-Guzik) 교수 연구실 등은 이미 2023년에 QM9이라고 하는 9개 이하 원자들로 구성된 데이터베이스를 학습한 양자-고전 혼성 기계학습 모델로 고전 모델보다 더 작은 규모의 모델에서 더 좋은 성능의 분자를 생성한 결과를 화학정보학과 모델링지(Journal of chemical information and modeling)에 발표했습니다. 이때에는 양자 하드웨어를 직접 쓰지 않고 고전 컴퓨터 위에서 양자 컴퓨터를 에뮬레이션했습니다.
2025년 논문에서는 실제 IBM의 양자 하드웨어를 쓰고, 암 유발 돌연변이 단백질인 KRAS 돌연변이 단백질 KRAS-G12D에 현재까지 발견된 저해제들과, 구조 기반 가상 스크리닝으로 구성한 훈련 세트들을 합쳐 학습해 새로운 KRAS-G12D 억제제 후보를 찾았습니다. 연구팀은 양자 하드웨어, 양자 에뮬레이터, 그리고 대조군으로 고전 기계학습 모델 각각에서 백만 번 분자 생성을 시도했습니다. 생성한 분자가 얼마나 KRAS-G12D와 잘 붙을 수 있는지를 검증하고, 합성 가능성과 약물 특성 등을 고려해 고전 모델에서 3개, 양자 하드웨어에서 8개, 양자 에뮬레이터에서 4개의 새 분자를 선택해 합성했습니다.
그 중 양자 하이브리드 모델에서 나온 ISM061-018-2라 이름을 붙인 분자가 KRAS-G12D와 결합능 1.4 μM을 나타냈습니다. 후속 실험에서는 이 물질이 KRAS-G12D 외의 다른 돌연변이들과도 결합할 수 있어서 범 KRAS 돌연변이 저해제의 가능성을 엿보았습니다.
왜 2023년의 모델은 하드웨어에서 실행하지 않았을까요?
많은 생성형 기계학습 모델은 난수 잡음을 만들고 그 잡음을 우리가 원하는 데이터(그림, 음성, 언어 등)로 변환합니다. 2023년에 사용한 모델은 GAN이라고 하는 모델을 썼습니다. 예를 들어, 위폐기와 위폐감별기가 있습니다. 위폐기는 더 정교한 위폐를 만들고 위폐감별기는 더 정교하게 참 화폐와 위폐를 구별하도록 학습합니다. 이렇게 서로 적대적으로 학습하고 나면 위폐기는 아주 정교한 위폐감별기로도 참 화폐와 구별할 수 없는 위폐를 만들 수 있습니다. GAN은 이 원리를 이용한 것으로, 난수 잡음을 우리가 원하는 데이터로 변환하는 생성자(위폐기에 해당)와 생성하고자 하는 목표 데이터를 생성자가 만든 데이터와 구별하는 판별자(위폐감별기에 해당)가 적대적으로 학습하면서 생성자가 목표 데이터와 구별할 수 없는 새로운 데이터를 생성하도록 학습합니다.
인실리코메디슨과 아스푸루구직 연구실에서는 이 GAN의 생성자에 필요한 난수를 양자 회로에서 얻는 방식을 택했습니다(Quantum Noise Generator, QNG). QNG는 양자 회로의 기댓값을 기반으로 하며, 회로를 한 번 측정한 결과는 이산적인 값이므로 여러 번 측정한 기댓값으로 연속적인 값을 얻을 수 있습니다.
GAN을 학습할 때, 연구진은 근사적으로 학습 데이터 개수만큼 가짜 데이터를 만들었습니다. 이를 학습 횟수(에포크)만큼 반복해야 합니다. 따라서 QNG 호출 횟수는 약 (QNG 측정 횟수)×(학습 데이터 개수)×(에포크)가 됩니다. 학습 데이터 개수와 에포크는 논문에서 각각 약 13만 개와 150회로 나와 있습니다. 연구에서는 에뮬레이터를 썼으므로 기댓값을 얻고자 여러 번 측정할 필요가 없으나, 하드웨어를 쓴다면 반드시 필요합니다. 이를 100으로 가정하면, 총 양자 회로 측정 횟수는 100×130,000×150=1,950,000,000회, 즉 약 19억 5천만 회입니다.
양자 컴퓨터 클라우드 서비스인 AWS Bracket에서 가장 싼 하드웨어인 리게티 Ankaa는 양자 회로 1회 측정인 샷 개수당 0.0009달러를 매기므로, 총 175만 5천 달러, 2025년 12월 31일 환율로는 약 25억 원이 학습에 필요합니다. 이것도 샷 수만 계산한 하한 추산이고, 실제로는 작업 실행 비용, 대기열 비용, 양자-고전 통신 오버헤드 등이 추가됩니다.
이상의 추산은 QNG 자체는 고정되어 있고 고전 기계학습 모델만 학습한 것으로, 양자 회로도 학습하면 양자 회로를 계산해야 하는 횟수가 회로의 변수 개수에 비례해서 더 커집니다.
QNG를 쓰는 QuMolGAN은 학습 과정과 생성 과정에 필요한 연산이 같기 때문에, 학습 데이터 개수만큼인 약 13만 개 분자를 생성하는 비용은 학습 1 에포크에 준하는 비용이 듭니다. 즉 학습도 비싼데 생성도 비쌉니다. 2025년 논문처럼 1백만 개를 생성하는 비용은 똑같이 리게티 Ankaa를 쓴다면 양자 회로 약 1억 번을 실행하는 데 필요한 약 9만 달러입니다.
2025년 논문에서는 생성 모델 내부에 양자 회로를 직접 끼워넣지 않는 방식으로 이 문제를 우회했습니다. 이 연구에서는 분자를 문자 시퀀스로 표현하고, 앞선 문자를 조건으로 다음 문자를 생성하는 자가회귀적 언어 모델의 일종인 LSTM을 사용했습니다. 이 조건에 분자의 약물성·결합력 등으로 나타낸 조건 변수를 확률분포 형태로 추가했습니다.
양자 컴퓨터는 회로 측정 결과가 본질적으로 확률로 나타나며, 회로를 적절히 설계하면 원하는 확률분포에서 표본을 생성할 수 있습니다. 이러한 확률분포 생성 모델을 QCBM(Quantum Circuit Born Machine)이라고 합니다. 연구팀은 분자의 약물 점수로 정의한 조건 분포를 QCBM으로 표현하고, 이 분포에서 샘플링한 값을 조건으로 삼아 분자를 생성했습니다.
이 과정을 반복하면 생성에 쓴 조건 분포가 점차 더 나은 약물 특성을 보이는 영역으로 이동하게 됩니다. 이는 정확히는 강화 학습은 아니지만, 샘플링을 반복하며 분포를 업데이트해 생성 결과를 개선한다는 점에서는 유사한 작동 원리입니다.
QCBM을 이용했을 때 얻는 이점은 학습은 비싸지만 표본 추출은 싸다는 점입니다. 학습할 때는 분포의 기댓값을 안정적으로 구해야 해 반복 실행이 필요하지만, 생성할 때는 분포에서 한 번 샘플링하면 곧바로 하나의 조건 값이 나옵니다. 즉, 100만 개 분자를 뽑으려면 약 100만 번 양자 회로를 실행하면 됩니다. 실제 연구에서는 IBM 하드웨어를 썼으며, 양자 회로를 학습하는 데 쓴 표본 수나 샷 수 등이 모두 공개되지 않아 하드웨어 비용을 추측하기는 어렵습니다.
이처럼 기계학습에 직접 양자 회로를 끼워넣는 것은 대규모 데이터를 이용하는 일반적인 기계학습에서는 천문학적인 비용이 듭니다. 양자 기계학습의 장점으로는 적은 데이터에서도 빠르게 학습이 끝날 수 있다는 가능성이 있긴 한데, 대규모로 분자를 생성해야 하는 신약 개발에서는 그 장점이 제한적으로만 작용합니다.
2025년 논문에서는 이러한 한계를 우회하고자 분자 자체를 생성하는 과정이 아니라 분자의 생성 조건을 양자 회로로 표현하는 방식을 도입했습니다. 이로써 생성 단계에서는 양자 회로를 한 번 실행하는 것만으로 조건 변수를 샘플링하고, 이를 바탕으로 고전 생성 모델이 분자를 생성할 수 있게 되었습니다. 그 결과 실제 양자 하드웨어를 사용해 대규모로 분자를 생성할 수 있었고, 생성된 분자들을 실험·합성으로 검증하는 단계까지 나아가는 성과를 거두었습니다.
참고 문헌
Kao(2023): Kao et al., J. Chem. Inf. Model. 2023, 63, 3307-3318 (https://pubs.acs.org/doi/10.1021/acs.jcim.3c00562)
Ghazi Vakili(2025): Ghazi Vakili et al., Nature Biotechnology, 2025, 43, 1954-1959 (https://www.nature.com/articles/s41587-024-02526-3)