알파폴드와 로제타폴드가 모든 문제를 해결할 수 없는 이유들.
다년간의 경험을 통해, 제가 생각하는 최적의 단백질 디자인은
1) 제대로된 기능을 하는 아미노산 서열을 조작하여
2) 특정 특성과 결합력을 가진 안정한 단백질을 만드는 것입니다.
3) 이 과정에서 최종 산물의 발현양도 산업적으로는 중요합니다.
이를 위해서 다양한 분야를 복합적으로 응용해야 하기 때문에 단백질 디자인은 하나의 과학적 예술이라고 볼 수 있습니다. 다각적인 과정에는 계산 기술, 실험실 실험, 생물학, 화학, 물리학, 의학 등의 영역에서 얻은 학제 간 통찰력이 혼합되어 있고, 생각보다 모르는 것들이 많기 때문에 각 개인의 경험치와 능력, 그리고 요즘에는 컴퓨터의 능력에 따라 그 결과가 천지 차이로 나타납니다.
그리고 어떤 영역에서 강한 사람이, 꼭 다른 영역에서 강한 것은 아니게 됩니다.
요새 알파폴드와 로제타폴드, ESM폴드, 그리고 Meta AI 등 다양한 단백질 계산 모델링 도구들이 나와있긴 합니다. 예전에는 아주 어려웠던 단백질 구조 예측이, 이들 최첨단 소프트웨어를 통해 아미노산 서열이 3차원 구조로 어떻게 접히는지 어느 정도 예측할 수 있습니다.
그래서 대부분 이들 도구들이 단백질 설계에 필수적으로 이용되고 있습니다.
다양한 서열을 시뮬레이션하고, 결과 구조를 면밀히 조사함으로써 연구자들은 맞춤형 기능이나 특성을 가진 단백질을 세심하게 제작할 수는 있습니다.
그리고 이러한 딥러닝을 기반으로 다양한 컴퓨터 소프트웨어들이 등장하여, 이들의 구조 예측을 조금 더 쉽게 해주긴 하지만, 여전히 제대로된 단백질을 만드는 것은 상당히 어려운 일입니다.
왜냐하면, 이들 구조는 어디까지나 기존 데이터들을 통합하고, 그들을 기반으로 새로운 형태를 “예측”하는 것이기 때문입니다. 즉, 쉬운 구조들의 예측이 상당히 정확히 맞겠지만, 어려운 구조들은 그렇지가 않습니다.
즉, 이 “예측”은 증명이 되어야만 제대로 다시금 피드백을 주어 학습을 하게 되는데, 이런 증명에는 상당히 많은 시간과 노력, 비용이 들기 때문입니다.
그렇기 때문에, 많은 것은 어디까지나 시뮬레이션에 의존할 수밖에 없고, 이런 의존은 결국 일부 구조의 예측 신뢰도를 떨어뜨릴 수밖에 없습니다.
실제로 많은 서열을 통해 단백질을 만들었을 때, “구조”자체는 예측이 될 수도 있지만, 이들 구조가 제대로 발현되는지, 그리고 발현이 되고 난 이후에 기능을 하는지는 아직까지도 미지의 영역입니다.
특히 기업들이 만들어 내고자 하는 구조들은 단순한 구조가 아닌 Bispecific, Trispecific과 같이 복잡한 구조가 많기 때문에, 이들은 소프트웨어의 "예측"에서 많이 벗어나는 경우가 많습니다.
서열과 예측에서는 안정하다고 할지라도, 단백질은 환경에 따라 발현되고 난 이후에 다양한 형태의 힘이 작용하여 깨지기도 하고, 같은 녀석들끼리 달라붙기도 합니다.
그리고 만들어지는 과정 자체가 힘들어서 제대로 발현되지 않거나 아주 낮은 농도로 발현되기도 합니다.
심지어 어떤 종에서 발현했냐에 따라 차이가 나기도 하지요.
그렇기 때문에 어디까지나 단백질 설계는 그 자체로는 불확실하고 “해봐야” 안다는 결론에 이르게 됩니다. 저 역시도 상당히 많은 삽질(?)을 했고, 이런 생각을 가지고 있는 사람들을 많이 만나 보았습니다.
그리고 여기에서 각 전문가들의 분야별 실력 차이가 등장합니다.
예컨대 어떤 설계 전문가들은 특정 구조, 예컨대 항체 구조에 강한 사람이 있고, 어떤 전문가는 유전자 고발현을 잘 하는 것을 해내는데 장점이 있을 수 있습니다.
어떤 전문가는 구조 자체를 단순하게 만들면서도 기능을 하게 만드는 전문가가 있고, 어떤 전문가들은 단백질들을 잘 만들어 낼 수 있는 벡터 디자인을 잘 하는 사람도 있습니다.
어떤 전문가는 단순히 만들어진 구조를 통해서 “설계” 혹은 소프트웨어만 잘 다루는 사람도 있습니다.
어떤 사람은 시행착오를 통한 경험을 통해 실전에서 통하는 구조를 만드는 능력이 특출날 수도 있습니다.
따라서, 단백질 설계는 그 자체로는 알파폴드 등을 통해서 일견 단순해 보일 수도 있겠지만, 실전에 들어가면 전혀 다른 고난이도의 세계가 펼쳐집니다.
그리고 각자가 경험한 스킬들이 산업계와 직접적으로 연결되어 있기 때문에 (즉, 정보나 노하우가 곧 돈이 되기 때문에) 정보 자체나 노하우가 잘 공유되지도 않습니다.
학계에서 잘만 공유되는 정보들이 산업계로 오면서 완전히 닫혀 버리는 신기한 경험을 하게 됩니다.
즉, 처음부터 바닥에서 시작해서 노하우를 익혀가야 한다는 말이 됩니다. 저 역시도 여기에서 상당히 힘이 들었고, 많은 사람들이 쉽게 정보를 주지 않는 분위기였고, 현재도 그러한 것 같습니다.
그렇기 때문에 각 기업이나 각 전문가가 가지고 있는 영역의 전문 분야가 조금씩은 다릅니다.
물론 어느 분야나 당연한 부분이긴 합니다만, 그래도 각자가 단백질 설계 내에서도 잘 경험해 본 영역이 다르기 때문에, 이를 잘 알고 접근하는 것이 중요하다 하겠습니다.
저 같은 경우에는 항체 제작과 DNA를 기반으로 한 벡터 제작에 상대적으로 강점이 있습니다.
딥러닝을 이용한 소프트웨어도 많이 사용을 하긴 하지만, 전문적으로 단백질 구조체를 연구한 사람보다는 전문가가 아니기 때문에 fancy한 구조 예측 프로그램을 제작할 수는 없습니다.
하지만, 이들 소프트웨어를 통해서 예측된 구조를 실험을 통해 시행착오를 거친 경험을 가지고 있습니다.
또한 저는 CHO 세포에 특화하여 포유류 세포의 발현에 다량의 시행착오를 거쳤습니다.
하지만, E.Coli나 Yeast 시스템은 잘 다루지 못하는 편입니다. 그렇기 때문에, 작은 단백질을 아주 크게 대량 생산을 하는 시스템은 접근하지 않습니다.
반대로, 좀 더 어려운 구조체나 고등 동물에서만 발현되는 단백질은 경험이 많습니다.
저는 복합 구조체, 예컨대 bi-specific, tri-specific 등 100-150KDa 이상 크기의 단백질에 좀 더 강점이 있는 편입니다.
물론 작은 구조체들도 잘 발현이 되지만, 서비스 수요는 저 크기가 훨씬 더 많습니다.
그래서, 몇 년 전부터는 복합 구조체 항체 제작 분야의 시행착오를 많이 경험하였고, 내부적으로도 그런 데이터들을 많이 보유하고 있는 편입니다.
그리고 저는 DNA 기반으로 somatic variant에 강점이 있기 때문에, Whole Genome Sequencing 설계도에 좀 더 강점이 있고, 이를 기반으로 한 벡터 제작에 강점이 있는 편이라 할 수 있습니다.
이렇듯 사람이나 기업마다 단백질 설계 영역에서 각자가 가지고 있는 장단점이 있기 때문에, 이들 가지수를 펼치게 되면 단백질 설계에 있어서 다양한 분야가 펼쳐지게 됩니다.
그리고 그 분야들 마다 상당히 많은 수의 도전 과제들이 존재합니다.
그렇기 때문에 단백질 설계의 세계는 해보기 전까지는 제대로 해내기가 어렵다고 할 수 있습니다.