brunch

You can make anything
by writing

C.S.Lewis

by 김영욱 Mar 30. 2023

AI 전쟁에서 메타는 미래 전문 산업을 공략중

3월 한 달간의 AI발전, 발표, 혁신, 비전은 지난 10년간의 변화와 비슷하다는 말을 많이 합니다. 그 가운데 상대적으로 조용한 애플은 지금 Siri를 LLM모델로 갈아 끼우는 작업을 하는 것으로 보인다는 소식을 지난주에 말씀드렸습니다. 오늘은 그럼 페이스북의 메타는 무엇을 하고 있는가에 대해서 업데이트를 드릴까 합니다.


1. 한 손엔 LLaMA

메타는 지난달 24일에 ChatGPT와 비슷한 LLM인 라마 LLaMA를 공개했습니다. 라마는 거대한 시스템이 되기보다는 "더 깨끗한" 데이터와 학습 안정성을 개선한 "구조적 효율성"에 목표치를 두었다고 소개했는데요. 라마는 파라미터의 개수가 70억, 130억, 330억, 650억 개 총 4종류가 있는데, 이는 GPT-3가 1,750억 개, GPT-4는 1조 개가 넘는 것에 비하면 택도 없이 적은 양입니다. 


메타는 파라메타가 적지만 학습하는 데이터 양을 늘리는 전략을 써서 작은 사이즈, 고 효율성을 추구했다고 하죠. 또한 메타는 ChatGPT와 Bard와 같이 마이크로소프트, 구글과 같은 빅테크에게 새우등 터지지 않는 방법을 택해 현재 오픈소스의 형태로 비상업적인 연구목적으로 승인받은 과학자, 연구자들에게만 제공하고 있습니다.

라마는 일반 사용자가 스마트폰이나 노트북으로 직접 GPT-3 급의 모델을 실행 할 수 있는 정도의 가벼운 컴퓨팅 파워를 필요로 하며 라틴어와 키릴 문자를 기반으로 하는 20개 언어로 학습된것이 장점이라고 합니다. (출처: Enterpreneur)


뭐 라마는 그렇다 치고, 그럼 메타의 AI 수익모델은 전혀 없는 것일까 싶은데요. 메타에는 얀 르쿤 (Yann LeCun)이라는 AI계에서는 가장 걸출한 리더가 전체 메타의 AI 전략을 이끌고 있습니다. 그래서 메타의 행보는 매우 흥미롭지만 영리한 움직임이라고 생각이 됩니다. 전문 산업과 전문가 그룹을 공략하기로 전략을 정한 모습입니다.

사회가 발전할수록 부가가치 높은 수익모델이 돋보이는 산업이 있습니다. 바로 의료와 제약 산업입니다. 돈을 얼마나 가졌는지에 관계없이 최고의 의료 서비스를 원하고, 그 비용을 기꺼이 지불합니다. 데이터베이스의 최고 강자였던 오라클이 클라우드 세상이 되면서 경쟁에서 밀려난 것처럼 보이지만, 오라클은 의료서비스 전문 클라우드 플랫폼을 구축하여 예전의 명성을 찾고 있습니다. 자 다시 메타 AI이야기로 돌아와보죠.



2. 다른 한 손엔 ESMFold

메타 AI는 수억 개의 단백질로 이루어진 메타게놈 세계의 구조를 밝히는 최초의 데이터베이스를 만들었습니다. 흙이나 바다 깊은 곳의 미생물, 심지어 우리 몸속에서도 발견되는 이 단백질은 동식물을 숫자보다도 훨씬 더 많고 아직도 미지의 영역 중 하나입니다. 아미노산 사슬에 있는 원자의 3차원 좌표인 단백질의 구조는 단백질의 기능을 이해하는 데 핵심이 될 수 있습니다. 이 메타게놈 아틀라스는 수억 개의 단백질을 포괄하는 메타게놈 구조를 최초로 대규모로 보여줍니다. 이러한 규모의 구조를 예측하기 위해서는 단백질 폴딩 속도에 획기적인 발전이 필요했습니다. 그래서 새로운 단백질 구조 예측 접근 방식인 ESMFold를 개발했습니다. ESMFold는 대규모 언어 모델(ESM2)의 표현을 사용해 단백질 서열로부터 구조 예측을 생성합니다.


자 이게 무슨 이야기냐 하면요. 쉽게 한번 더 설명하면.

1. 지구상에 존재하는 수많은 단백질 구조 지도라는 학습 데이터를 만들어서, AI를 활용해 단백질 구조를 예측한다. 

2. 그 프로그램 이름을 ‘ESM Fold’라고 한다. 

3. 이 프로그램을 통해서 메타는 617만개의 단백질 구조를 데이터베이스화 했다. 



3. ESMFold의 의미와 가치

 단백질은 우리 몸에서 없어서는 안되는 주요 물질이고, 세포, 조직, 장기들이 기능을 할 수 있게 도와주는 핵심 요소이죠. 단백질 구조를 이용해서 만든 신약은 당연히 우리 장기들이 동작하고 질병을 치료하기 위해서 쓰여집니다. AI를 이용해서 단백질 구조를 예측한다면 개발 중인 신약들의 효과를 빠르게 파악할 수 있고, 아직 치료제가 개발되지 않는 질환의 치료제 개발을 촉진 할 수 있을 것으로 예상됩니다. (출처: https://esmatlas.com/about)


단백질 폴딩이 무엇인지 이 영상을 보시면 이해에 도움이 되실겁니다.

https://www.youtube.com/watch?v=KpedmJdrTpY


4. 딥마인드와의 경쟁

그런데 과연 이 시장엔 경쟁자가 없을까요? 그럴리가요. 물론 AI에 관해서는 뭐든지 다 하는 구글이 있습니다. 그것도 알파고를 만든 딥마인드가 만드는 'AlphaFold 알파폴드'라는 것이요.


메타에 따르면 ESM폴드가 알파폴드 보다 60배 빠르지만, 정확도는 떨어진다고 합니다. 즉 작은 사이즈에 효율성을 지극히 따지는 메타의 방향성으로 스피드는 빠르지만, 아직까지 정확도는 뒤쳐진다는 이야기죠. GPT에 대항하는 LLaMA를 만들어 공개할 때와 같은 전략을 씁니다. 메타는 기존에 연구하지 않았던 유전자 서열을 예측할 수 있도록 데이터베이스 구축에 노력을 더 했던 것이라고 합니다. 더 많은 데이터베이스가 쌓이면서 예측의 정확도가 앞으로 올라갈 것으로 예상됩니다. (출처: https://the-decoder.com/metas-esmfold-runs-60-times-faster-than-alphafold/)


메타와 구글같은 기업의 연구는 참 부럽습니다. 메타의 소식을 정리하면서 우리나라에서도 미래에 투자하는 연구가 선도적으로 이루어졌으면 좋겠다는 기대가 더 간절해졌네요.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari