구글 C2S-Scale, 세포와 AI를 결합하다
<찰리와 초콜릿 공장>을 쓴 작가 로알드 달의 단편 소설 중에 <소리 포착기(The Sound Machine)>라는 작품이 있습니다. 주인공 클라우스너는 고주파음을 통해 식물의 소리를 포착하는 기계를 만듭니다. 아무 '말'을 하지 않는 식물을 더욱 이해하게 되지요.
소설이 나온 지 76년이 지난 지금, 우리는 다시 한번 말 못 하는 존재에게 말을 걸어보려 합니다. 이번에는 세포에게 말을 걸 거예요. 그리고 모두 현실에서 일어나는 일입니다.
우리 몸은 약 37조 개의 세포로 이루어져 있습니다. 이 세포들은 심장을 뛰게 하고, 면역을 조절하고, 기억을 저장하고, 감정을 느끼게 합니다. 겉보기엔 비슷해 보이는 세포들도, 실제로는 각각 자기만의 ‘유전자 사용법’을 갖고 있는데요. 바로 그 '유전자 사용법'을 알아내는 기술이, 단일세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)입니다.
모든 세포는 똑같은 유전자를 가지고 있지만, 그중 어떤 유전자가 얼마만큼 ‘켜져 있느냐’에 따라 세포의 정체성과 상태가 달라집니다. RNA 시퀀싱은 지금 이 순간, 이 세포가 어떤 유전자를 얼마나 발현하고 있는지를 들여다보고 측정하게 해주는 기술입니다.
하지만 문제가 있습니다. 유전자 발현 수치는 각 세포마다 수천 개의 숫자로 이루어져 있어, 해석하기 무척이나 어렵습니다. 특수한 도구와 방식을 사용해야 분석이 가능했기 때문에 느리고, 확장성이 떨어지며, 전문가가 꼭 필요했는데요.
구글은 단일 세포의 상태를 복잡한 숫자 대신 문자로 표현하고, 그 세포에게 직접 상태는 어떤지, 지금 무슨 일을 하는지, 특정 약물에 어떻게 반응할 생각인지를 물어볼 수 있는 인공지능 언어 모델 Cell2Sentence-Scale(C2S-Scale)를 공개했습니다.
연구진은 발현량이 높은 순서대로 유전자 이름을 나열하기로 하고, 이 방식을 'Cell Sentence(세포 문장)'라고 부르기로 합니다. 각 세포의 유전자 발현 정보를 숫자 대신 발현량이 높은 유전자 이름의 순서대로 바꾸는 개념입니다.
위의 표에서, 푸른색이 짙은 순으로 발현량이 높다고 보면 되는데요. 오른쪽을 보시면, 세포마다 색이 짙은 유전자 순으로 나열하여 '세포 문장'을 만든 것을 볼 수 있습니다. 생각보다 단순하지요?
이제 이 세포 문장을 LLM에게 건네줍니다. 훈련에는 5천만 개가 넘는 세포의 실제 데이터와, 수많은 생물학 논문, 유전자 기능 정보, 실험 조건 등이 사용됐습니다. Google의 공개 LLM인 Gemma를 기반으로 만든 C2S-Scale 모델은 세포 문장을 ‘읽고’, 이해하고, 말할 수 있습니다.
우리의 질문을 세포가 알아듣고, 세포의 답을 다시 우리가 이해할 수 있기 위해 언어 모델을 사용했는데요. 세포 문장을 만들고, 또 그 문장을 읽을 수 있게 되었다고 해서, 바로 생물학적인 질문에 척척 답할 수 있는 건 아닙니다. 이제 말을 할 수 있게 되었으니 성능을 높여야겠지요?
연구팀은 C2S-Scale에게 ‘어떤' 작업을 '어떻게' 해야 하는지 따로 가르칩니다. 말이 통하기 시작했으니 일을 알려주는 것이지요. 이 과정을 ‘다운스트림 작업 훈련’이라고 합니다.
예를 들어,
어떤 세포 문장이 나오면 “이건 대식세포입니다”라고 말해야 하고,
약물이 추가되면, “이 유전자가 올라갈 거예요”라고 예측해야 하며,
여러 세포가 모여 있는 경우엔, “이 군집은 활성화된 T세포 집단입니다”라고 요약해야 합니다.
이렇게 각각의 목적에 맞게 모델을 한 번 더 학습시키는 과정을 통해, C2S-Scale은 단순한 ‘읽기 기계’가 아니라 말을 이해하고, 상황에 맞게 답을 주는 'AI 생물학자’로 거듭나게 됩니다.
C2S-Scale이 가진 가장 강력하고 흥미로운 능력 중 하나는 바로 '자극 반응 예측'입니다. 예를 들어, 우리는 이런 질문을 던질 수 있습니다:
“이 세포에 면역 항암제를 주입하면 어떻게 반응할까?”
“이 유전자를 제거하면 세포 상태는 어떻게 바뀔까?”
“염증성 단백질을 주입하면 발현 패턴이 어떻게 달라질까?”
C2S-Scale은 이런 조건을 이해한 후, 예상되는 세포의 반응에 맞는 세포 문장을 새롭게 생성해 냅니다. C2S-Scale은 구글의 LLM Gemma를 기반으로 만들어진 모델이라고 했는데요. 덕분에 새로운 세포 문장을 다시 우리가 이해할 수 있는 자연어로 변환해서 답변할 수 있습니다. 예를 들면 이렇게 말이지요:
“이 세포는 지금 GeneA, GeneB, GeneC를 많이 발현 중이야. 여기에 IFN-γ를 처리한다고 했지?”
그럼 다음엔 GeneM, GeneX가 올라가고, GeneA는 떨어질 가능성이 높아.”
또한, C2S-Scale은 단순히 예측을 넘어서, 실제 실험을 하기 전 ‘AI 속 실험실’을 만들어주는 효과를 낼 수 있습니다. 논문에서는 이를 ‘Virtual Cells(가상세포)’라고 표현하고 있는데요. 가상세포를 통해 실제 실험 없이도, 세포의 미래 반응을 AI로 예측할 수 있습니다. 게다가 기존의 실험용 세포나 동물 모델에 테스트하는 것보다 빠르고, 저렴하고, 윤리적이기까지 합니다!
C2S-Scale이 무얼 하는지는 이제 알았습니다. 그렇다면 이 연구가 생물학계에 어떤 의미가 있는 걸까요?
간단히 말하면, 이 연구는 퍼져있는, 아주 복잡한 정보를 한 곳에 모아서 누구나 이해할 수 있는 자연어로 풀어서 말해준다는 데 의미가 있습니다.
휴대폰이 뭔지 잘 모르는 사람이 있다고 가정해 볼까요? 자신에게 가장 잘 맞는 휴대폰이 무엇인지, 어떤 요금제가 좋으며 그 요금제에 포함된 혜택은 또 무슨 뜻인지 이해하기 어렵겠지요. 온갖 통신사와 휴대폰 가게를 돌아다닐지도 모릅니다. 이때, '한 군데'에서 모든 필요한 정보를 '알아들을 수 있는 용어'로 설명해 주며 고객에 따라 좋을 법한 요금제를 '예측'까지 해주는 AI 직원이 등장한 상황입니다.
이전에는 전문가만 다룰 수 있었던, 수시로 바뀌는 고차원의 유전자 정보를 이제 C2S-Scale을 통해 누구나 묻고 해석할 수 있게 되었습니다.
C2S-Scale은 이제 시작 단계입니다. 대표적인 한계점을 가볍게 살펴볼까요?
일부 정보 손실
발현량 수치를 떼고 단순'랭킹'으로만 표현하기 때문에 절대적 차이를 알기가 어렵습니다. 발현량 1등과 2등 유전자의 수치 차이가 1,000 대 50일 수도, 1,000 대 990일 수도 있지요. 하지만 이 둘은 그냥 1등과 2등으로 나열되기 때문에 실제로는 큰 차이가 있음에도 세포 문장상으론 거의 같은 의미로 처리됩니다. 따라서 세포 상태를 정확히 이해하거나 미묘한 반응 변화를 예측하기 어려울 수 있지요.
원인-결과 해석 부족
주어진 유전자와 세포 관련 정보를 텍스트로 입력한 C2S-Scale은 언어적 패턴과 상관관계는 잘 포착합니다. 하지만 이는 내용을 잘 찾아서 가져오는 것이지, 실제 인과관계를 이해한 것은 아니지요.
예를 들어, 유전자 A와 B가 자주 함께 발현된다고 해도, A가 B를 조절하는 것인지, 아니면 전혀 다른 원인에 의해 둘 다 나타나는 것인지 C2S-Scale은 알 수 없습니다. 즉, 생물학적 '경향성'을 잘 설명하는 도구일 수는 있지만, ‘왜 그렇게 되었는가’에 대한 진짜 원인을 밝히는 데에는 한계가 있습니다.
LLM 환각 증세(hallucination)
챗GPT가 하는 모든 말을 믿을 수 없는 이유지요? 답변에 과장되거나 왜곡된 설명이 나올 수 있습니다.
불확실한 평가 방법
세포에게 질병이나 약에 대한 반응을 물어볼 수 있다고 했는데요. 실제 실험 데이터와 얼마나 일치하는지 평가 방법이 아직 제한적입니다. 물론 다양한 평가를 계속 시도하고 있습니다.
모든 세포가 이렇게나 복잡한 정보와 조합을 가지고 있다고 생각하니, 몸이 시끌시끌해진 기분입니다. '아는 만큼 보인다'는 속담처럼, 아는 만큼 '들리나' 봅니다. 앞서 언급한 로알드 달의 <소리 포착기>에서 주인공은 식물이 고통받는 소리를 듣게 되는데요. 우리가 들으려는 세포의 소리는 고통받는 사람을 치유해 주는 소리이기를 바랍니다.
별도로 명시하지 않은 이미지는 챗GPT로 생성했습니다.
논문은 여기서 읽어보실 수 있습니다.