안녕하세요. 더클라쎄 특허법률사무소 정혜윤 변리사입니다.
10월 9일, 올해 노벨 화학상 수상자가 발표되었습니다. 그 주인공은 데이비드 베이커 미국 워싱턴대 교수와 구글 딥마인드의 데미스 허사비스 CEO, 그리고 존 점퍼 디렉터입니다.
올해 수상이 일반적인 노벨 화학상 수상과 다른 점은 바로 '화학'이 아닌 'AI'가 그 주인공이었기 때문입니다. 허사비스 CEO와 점퍼 디렉터는 AI 기반 프로그램 '알파폴드'를 통해 오랜 숙제였던 '단백질 폴드(접힘)' 문제를 해결했습니다. 이 기술은 단백질 구조 예측에 혁신적인 방법을 마련하며 생화학 분야에 큰 변화를 가져왔다는 찬사를 받고 있습니다.
이번 칼럼에서는 알파폴드가 어떤 것인지, 그리고 알파폴드는 특허로 어떻게 보호되고 있는지 알아보겠습니다.
알파폴드는 구글의 자회사인 딥마인드가 개발한 인공지능으로, 아미노산 서열과 단백질 구조 학습에 특화된 AI 단백질 구조 예측 프로그램입니다.
알파폴드는 2018년 처음 등장하였는데요. 1994년 단백질 구조 예측 경쟁 프로젝트 'CASP'의 최고 성적이 20여 년간 30-40% 정확도에 머물러 있던 것을 단숨에 60%대까지 끌어올렸습니다. 그리고 이후, 2020년, 알파폴드 2에는 트랜스포머가 적용되어 단백질 구조 예측 정확도 90%를 달성하였습니다. 알파폴드는 수십 년 동안 고전해 왔던 단백질의 3차원 구조를 놀랍도록 정확히 예측하는 능력을 보여줬습니다.
알파폴드를 활용할 경우, 단백질의 정확한 3D 모델을 확인하여, 단백질이 어떻게 기능하고 어떻게 상호작용하는지 이해할 수 있습니다. 이러한 정보는 신약 개발과 치료법 개발에 활용도가 매우 높습니다.
기존에는 엄두도 내지 못했던 세포 내 거대 구조 복합체의 구조가 알파폴드를 통해 밝혀진 사례도 있습니다. 대표적으로, 세포 내에서 가장 큰 단백질 복합체인 핵공 복합체 Nuclear Pore Complex입니다. 핵공 복합체는 세포 내의 핵과 세포질 간 물질을 교환하는 일종의 톨게이트와 같은 역할을 하는 구조물로, 세포 내 단백질 구조물 중 가장 크며, 약 30종류의 단백질 약 1,000개에 의해 구성되어 있었습니다. 연구진들은 30종류의 핵공 단백질 구성 요소들을 알파폴드로 예측한 것을 바탕으로 정교한 핵공 복합체 모델을 완성하였습니다.
그뿐만 아니라, 식물의 성장과 발달에 관여하는 단백질 구조를 연구하여, 농작물의 수확량을 개선하고 병충해와 질병에 내성이 있는 작물 개발에 활용하는 등 활용처는 무궁무진합니다.
구글 딥마인드에서 출원한 알파폴드 관련 특허는 약 10건 정도로 확인됩니다. 그중 대부분은 아직 심사 중이며, 알파폴드 3에 대한 특허는 아직 미공개 상태인 것으로 예측됩니다.
최근까지도 모든 건들이 심사 중이었는데요, 최근 1건의 특허가 등록되었습니다. 해당 특허는 2024년 9월 24일에 등록된 특허로, 알파폴드 2 기본 구조에 대해 권리화하고 있습니다. 그 1건의 등록 특허를 통해, 알파폴드의 기술이 어떤 것인지, 그리고 그 기술은 어떻게 특허로 보호되고 있는지 알아보겠습니다.
알파폴드의 기본구조를 먼저 살펴보겠습니다. 알파폴드는 Evoformer라는 구조를 가지고 있습니다.
알파폴드 2는 알파폴드 1의 MSA 데이터를 확장해 두 가지 학습 데이터를 구성합니다. 첫 번째는 단백질 서열 데이터베이스를 탐색해 얻은 MSA representation 데이터이고, 이를 활용해 추가적인 구조 데이터를 탐색합니다. 두 번째는 단백질 템플릿을 바탕으로 서열과 구조 간 상관관계를 담은 pair representation 데이터입니다. 이 두 데이터를 결합해 최종 학습 데이터셋을 완성합니다.
그리고, 알파폴드 2의 다른 특징은 end-to-end 방식이라는 점입니다. 알파폴드 1은 거리 및 뒤틀림각 분포 예측, 그리고 예측한 분포를 통해 구성한 퍼텐셜 함수의 최적화, 2가지 단계로 구성되어 있었습니다. 알파폴드 2는 입력부터 예측까지 하나의 네트워크로 연결되도록 구성하였습니다.
위 그림은 최근 등록된 특허의 도면으로, 위에서 설명한 알파폴드 2의 특징을 그대로 포함하고 있습니다. MSA 임베딩 및 Pair 임베딩이 수행되며, 단백질 입력부터 단백질 구조 예측 출력까지 하나의 네트워크로 구성되고 있습니다.
알파폴드 2의 Evoformer는 복잡한 구조와 연산 과정을 거치지만, 핵심은 attention 메커니즘을 활용해 데이터 간 상관관계를 분석하는 것입니다. 이 과정에서 MSA representation에서는 다양한 단백질 서열 간의 관계를 추출하고, pair representation에서는 단백질 내 아미노산 간의 상호작용을 학습해 중요한 정보를 파악합니다. 또한, Evoformer는 MSA와 pair 간의 정보 교환을 통해 두 데이터가 서로의 영향을 반영하며 동시 업데이트되도록 설계되었습니다.
위 논문의 왼쪽 위를 보면, MSA와 Pair 데이터를 이용한 [Row-wise self-attention], [Column-wise self-attention], 그리고 [Transition] 순서로 연산이 수행되는 것을 볼 수 있습니다. 그리고, 이러한 구조는 등록 특허의 도면 2에 그대로 도시되어 있습니다.
등록된 청구항도 함께 살펴보겠습니다.
등록된 청구항은 알파폴드 2의 가장 핵심적인 구조를 권리화하고 있습니다.
청구항의 권리범위: MSA를 통해 단백질의 아미노산 서열과 유사 단백질들의 서열을 정렬하고, 각 아미노산 쌍에 대해 초기 임베딩을 생성합니다. 그리고, self-attention을 활용해 아미노산 쌍의 임베딩을 처리하여 최종 임베딩을 생성하고, 이를 바탕으로 단백질의 3차원 구조를 예측합니다.
알파폴드에 대한 미국에서의 첫번째 등록 특허가 나왔는데요, 딥마인드 답게 역시나 매우 넓으면서도 알파폴드의 핵심적인 내용을 잘 담고 있는 권리범위를 확보한 것을 확인할 수 있었습니다.
이번 칼럼에서는 노벨 화학상 수상을 받은 알파폴드와 그 특허 보호에 대해 알아보았습니다. 인공지능 기술 보호에 대해 궁금하신 점이 있으신 경우, 언제든지 더클라쎄로 연락 주시기 바랍니다.
더클라쎄에서는 인공지능 개발자인 변리사가 AI 사건들을 대리하고 있습니다.
COGNEX, 바이두, 뷰노, 마키나락스, 카카오게임즈, 넷마블, SIA 등의 AI 사건들을 수행하고, AI 기업들을 전담으로 맡아 기술특례상장평가를 총괄 심사하던 변리사를 통해 성공적인 AI 특허를 확보하세요.
저자 소개 | 정혜윤 변리사
정혜윤 변리사는 한국거래소와 나이스디앤비에서 인공지능과 소프트웨어 분야의 기술특례상장평가 전문위원으로 활동하였습니다. 또한, 국내 유수의 투자회사에서 벤처캐피털리스트로 활동하며 수준 높은 해외 딥테크 기술들을 다룬 경험을 가지고 있습니다.
IT와 BM 분야의 전문성을 살려 기술 기반 기업들의 기술특례상장평가 및 지식재산권 컨설팅을 수행하고 있습니다.
자세한 사항은 더클라쎄 특허법률사무소로 문의 부탁드립니다.
theclasseip@theclasseip.com
02-6925-6792