스탠퍼드 AI Index Report 2024 분석 #9
오늘은 스탠포드 보고서에 나온 과학, 의학분야 대해 알아보겠다.
먼저 엔비디아 연구진이 개발한 FlexiCubes라는 3D메쉬를 생성하는 툴이다. 메쉬라는 것은 그래픽 용어인데 우리가 보는 그래픽의 표면 형상은 메쉬(Mesh)로 형성되어있고 그래서 곡면이나 요철을 자연스럽게 표현할 수 있으며 3차원에서 물리적 움직임을 자연스럽게 만들어주기도 한다. 다각형 수천개가 거미줄처럼 연결된 형태로 이뤄져있어 어떤 표면모양이든 표현할 수 있다. 물론 복잡할 수록 더 많은 다각형이 필요하다.
하나의 껍데기이자 피부같은 것이라고 보면된다. 이 메쉬가 있으면 표면의 생김새 뿐만아니라 색깔, 무늬까지 한번에 작업이 가능하다. 우리가 흔히 물방울무늬 옷을 그릴때 이런 메쉬를 이용해 한번에 작업할 수 있다. 물방울 무늬를 표면메쉬에 입히는 작업을 매핑(Mapping)이라고 한다.
기존에 만들어져 있는 구조물에서 그래픽도구로 메쉬를 만들어내는 기능이 있는데 이게 완벽하지 않고 오류가 있었다. 여기에 AI를 쓰면 더 정확한 메쉬만들기가 가능해진다.그림에서 보면 FlexiCubes로 메쉬를 딴 결과가 가장 섬세하고 현실과 부합된다. 이것은 게임분야는 물론 의료, 설계분야에서 광범위하게 활용될 수 있다.
다음은 GraphCast라는 구글 딥마인드에서 개발한 도구인데 날씨 상태를 넣으면 1분이내에 10일치 예상결과를 내놓는다(출처:https://deepmind.google/discover/blog/graphcast-ai-model-for-faster-and-more-accurate-global-weather-forecasting/).
현재 성능만 가지고도 유럽 중기간 예측 센터(European Centre for Medium-Range Weather Forecasts)의 예측툴인 HRES(High Resolution Forecast)보다 더 정확한 예측을 제공할 수 있다. 그래프 Y축은 에러(오차)인데 모두 검은선보다 파란선이 더 적은 것을 알 수 있다.
역시 구글 연구원들이 개발한 GNoME이라는 툴은 새로운 기능성 소재를 찾는 툴로서 안정적인 화학적 결정의 구조를 찾도록 도와준다(출처:https://www.nature.com/articles/s41586-023-06735-9). 여기서 인간들이 놓친 220만개의 구조를 발견했으며 기존 인공지능을 쓰지않은 컴퓨터 협업 방식인 Material Project보다 뛰어나다고 한다. AI로 발견되는 화학구조는 인간의 직관으로는 발견할 수 없다고하며 이는 우리가 인간수준에서 생각하는 안정적 화학구조의 개념을 더 확장시킬 수 있다고한다.
바둑에서 이세돌이 AI가 인간이 생각할 수 없는 수를 두었다고 말한 것과 같은 현상이다. 우리의 논리구조로는 나올 수 없는 고정관념없는 인공지능의 데이터학습 결과로 나오는 새로운 방식의 접근인 것이다.
첫번째 표에서는 4개 이상의 원소가 결합된 구조에서 찾아낸 조합으로 기존보다 우수하다. 오른쪽 그래프에서는 발견된 원소중 새로운 프로토타입의 개수를 나타낸다. 여기서도 GNoME이 압도적이다.
이런 걸 보면 구글은 생성AI는 아니지만 다방면으로 머신러닝의 활용에 대해 연구하고 있었던 것 같다. 구글에서 인공지능 인력들이 많이 나오는 것도 우연은 아니다. 그리고 대부분 오픈소스가 많아서 더욱 의미가 있다.
다음 소개할 툴은 AI로 홍수예측을 하는 것인데 이것도 구글에서 개발했다(출처:https://arxiv.org/pdf/2307.16104). 스탠포드가 구글을 밀어주는 것은 아닐테지만 구글툴들이 이렇게 많이 나온건 그만큼 광범위하게 인공지능을 연구하고 실제 적용하는 회사가 구글밖에 없기때문이 아닌가 생각도 든다. 우리나라도 갑작스런 홍수로 많은 분들이 피해를 입었는데 이 시스템은 최소 5일전에 기존보다 정확한 예측을 할 수 있다고 한다.
파란색이 구글의 모델이고 분홍색이 기존의 최신 예측모델이다. 정확도와 재현율에서 모두 앞서고 있다.
<의학>
의학분야에서도 AI의 사용은 기존업무의 품질을 더욱 올려주는데 스탠포드 보고서에는 SynthSR이라는 뇌스캔의 화질을 올려주는 도구가 소개되어있다(출처:https://www.science.org/doi/10.1126/sciadv.add3607).
첫번째 열이 입력된 이미지이고 두번째 열이 고해상도로 전환된 이미지인데 뚜렸하게 향상된 것이 보인다. 이는 특정부위만이 아니라 여러 각도에서 촬영한 영상에도 적용가능하다는 것을 보여준다.
위 그래프에 소개된 툴은 바이러스의 돌연변이 진화를 예측하는 AI툴이다(출처:https://www.nature.com/articles/s41586-023-06617-0). EVEscape라는 툴은 50%의 진화 예측률을 보여 기존 모델이나 실험실 연구결과를 능가하는 성능을 보인다.
자 그럼, AI의 의료적(임상) 지식은 어느정도 될까? 여기에 대해 6만개 이상 임상질문을 던진 결과 GPT-4 Medprompt는 90.4%의 정확도를 보였다.
여기서 재밌는 결과가 도출되는데 GPT-4같은 대형 LLM은 오히려 특정 전문분야에는 정확도가 떨어질 수 있고 많은 미세조정을 통해야 전문가 수준으로 특화될 수 있다고 여겨져 왔다. 하지만 단지 프롬프트 명령을 전문성있게 개선하는 것만으로 전문가 생성AI 수준의 답을 얻어낼 수 있다는 것이 밝혀졌다(출처:https://arxiv.org/pdf/2311.16452v1). GPT-4에서 프롬프트만 의학적인 전문성을 가질 수 있게 개조한 것이 GPT-4 Medprompt이다.
그래프에서 보듯이 의학분야 추가학습을 하지 않고 프롬프트만 의학분야로 개선한 모델이 일반모델보다 정확도가 높았고 심지어 의료분야에 특화된 Med-PaLM2보다도 높은 성능을 보였다.
전문분야에 대한 약점을 극복하기 위해 전문가 모델을 여러개 묶는 방식의 설계도 나오는데 이런 연구를 보면 문제는 모델자체가 아니고 사용자의 질문을 받는 프롬프트에 있었던 것이 아닌가한다.
마지막으로 AI를 넣은 의료기기의 증가세를 한번 보면 그전 4년간 미미하던 수치가 알파고를 비롯해 딥러닝이 본격 개화한 2016년 부터 급증하고 있다.
주로 어느 분야에 AI의료 기기가 많이 들어갔나 보면 화면 상단의 방사선과와 심혈관계통인 것을 알수 있다. 아무래도 영상촬영을 통해 많은 정보를 얻을 수 있는 쪽에서 AI의 활약이 돋보이고 있다. 반면 정형외과, 산부인과는 아직 미미한 수준인 것으로 나타났다.
이로써 500페이지짜리 스탠포드 보고서에 대한 분석을 모두 마친다.