Analyze: AI inside
TITLE [Analyze : AI inside]
의료 AI에 관심이 있는 의료진을 대상으로 도움이 될 의료AI 정보를 알기 쉽게 설명하는 칼럼 형태의 콘텐츠
-합성영상의 품질을 높이는 법
지난 시간, 의료 인공지능 분야에서 주목을 끌고 있는 합성데이터에 대해서 알아봤습니다.
의료 영상 데이터 활용에 많은 강점을 가진 합성영상데이터는 각광받기 시작한 기간에 비해 벌써 다양한 연구 결과가 나오고 있죠. 하지만 실제 데이터를 대체할 만큼의 고품질은 그냥 만들어지지 않습니다. 실제에 가깝게 잘 생성했는지 테스트가 필요하죠. 인공지능 관련 테스트 하면 가장 먼저 떠오르는 건 아마도 튜링테스트일 겁니다. 그렇다면 합성영상데이터도 튜링테스트를 통해 검증이 가능할까요? 합성영상데이터의 품질을 검증하는 방법을 지금부터 알아보겠습니다.
고품질의 합성영상임을 판단하는 일반적인 기준은 fidelity와 diversity로, fidelity는 데이터가 실제에 가까운지를, diversity는 데이터의 다양성 정도를 가리킵니다.
이 두 가지 기준을 검증하는 방법은 크게 임상적 검증 방법과 공학적 검증 방법으로 나눌 수 있는데요. 우선, 임상적 검증으로 두 가지의 방법부터 살펴보도록 하겠습니다.
첫 번째, 비주얼 스코어링(Visual Scoring). 즉, 채점표를 이용해 합성데이터의 품질을 검증하는 것을 의미합니다. 예를 들어, 특정 질환을 가진 흉부 X-ray 이미지들을 모아 인공지능 생성 모델로 학습시킨 뒤, 모델이 생성해낸 합성데이터에서 실제 질환이 가지는 속성에 대한 점수표를 만들어 채점을 하는 방법입니다.
두 번째, 이미지 튜링테스트(Image Turing Test). 앞서 언급한 바와 같이 인공지능 테스트의 시초라고 여겨지는 튜링테스트에서 파생되었습니다. 여기서 튜링은 수학자이자 암호학자인 앨런 튜링(Alan Mathison Turing)의 이름에서 따온 것으로, 평가자가 인공지능과 사람을 구분하지 못한다면 인공지능은 사람처럼 사고하는 것으로 볼 수 있다고 주장하였습니다. 이미지 튜링테스트는 실제 영상과 합성영상을 랜덤하게 섞어 전문의가 이 둘을 구분할 수 있는지 측정하는 방식입니다. 만일 이미지 튜링테스트 결과 정확도가 50% 근처라면 해당 합성영상은 fidelity를 충족한다고 이야기할 수 있습니다. 최근 에이던트를 통해 공개한 흉부 X-ray 합성영상의 경우, 품질을 검증하기 위해 흉부 영상의학과 의사 다섯 분을 대상으로 이미지 튜링테스트를 진행하였고 평균 정확도 약 60%를 기록하였습니다.
공학적 검증 방법으로는 4가지 방법을 살펴볼 텐데요.
첫 번째, S/N비(Signal-to-Noise Ratio) 활용. 예를 들어, 혈관이나 질환이 있는 합성영상이 존재할 때, 혈관과 병변을 시그널로 보고 그 주변 요소는 노이즈로 분류한 후, 실제 데이터의 S/N비와 합성영상의 S/N비가 유사하다면 fidelity 측면에서 충족되었다고 보는 것이죠.
두 번째, 교차 검증.
예를 들어, 질환의 유무를 기준으로 나누어진 normal과 abnormal 데이터가 있을 때, 이들 데이터를 인공지능 합성 모델로 학습시켜 합성 normal과 abnormal 데이터를 생성합니다. 이제 실제 normal과 abnormal 데이터를 이용해 인공지능 기반의 이진 분류 모델을 만들고, 합성 normal과 abnormal 데이터로도 마찬가지로 이진 분류 모델을 만듭니다. 실제 데이터로 구성된 테스트셋과 합성 데이터로 구성된 테스트셋에서, 실제 데이터로 만들어진 분류모델과 합성 데이터로 만들어진 분류 모델의 성능을 비교하여, 이들 성능이 통계적으로 유의미한 차이가 없으면, 합성 데이터가 fidelity와 diversity를 충족시켰다고 말할 수 있습니다.
세 번째, 실제 데이터에 합성 데이터를 추가하여 학습에 사용. 예를 들어 질환이 없는 normal 데이터와 질환이 있는 abnormal 데이터의 수가 불균형을 이루고 있다고 해봅시다. 이때 불균형이 있는 상태로 학습시킨 분류 모델의 정확도보다, 합성데이터를 이용해 부족한 데이터를 추가하여 normal과 abnormal의 데이터 수를 균형 있게 맞춘 후 학습시킨 분류 모델의 성능이 떨어지지 않고, 다양한 class activation map (CAM) 알고리즘을 적용했을 때, 합성 데이터의 CAM이 임상적으로 설명이 가능하다면, 합성 데이터가 fidelity를 충족시켰다고 말할 수 있습니다.
네 번째, FID score(Frechet Inception Distance score). 가장 유명한 데이터 셋 중 하나인 이미지넷을 통해 학습한 분류 모델(Inception v3)을 이용해 영상의 특징 값을 벡터로 추출합니다. 이러한 특징 벡터 값끼리의 평균과 공분산을 이용해 거리를 계산하며, 실제 데이터와 합성 데이터 간의 거리 값이 낮을수록 학습이 잘 되었다고 표현하죠. 하지만, FID 스코어는 ImageNet이라는 특정한 데이터셋으로 학습이 된 모델을 통한 평가라는 점에서 다양한 도메인의 데이터의 품질을 논하기에는 부족한 면이 있습니다.
합성영상을 검증하는 6가지의 방법을 소개해 봤습니다. 이외에도 다양한 검증 방법이 존재하는데요. 그 어느 것도 생성영상의 fidelity와 diversity를 명확하게 측정할 수 있는 것은 없습니다. 다만, 소개 드린 다양한 방법을 통해 검증하고, 종합적인 평가를 통해 영상의 품질을 판단해야 하죠. 지금 이 순간에도 전 세계 수많은 연구원들이 인공지능 모델과 검증 방법에 대해 연구하고 개발하고 있습니다.
머지않아 더 효과적이고 신뢰성 높은 합성 데이터 검증 방법을 발견하고 적용할 수 있지 않을까, 응원하는 마음으로 기대해 봅니다.
참고자료
Kim, M., Kim, S., Kim, M. et al. Realistic high-resolution lateral cephalometric radiography generated by progressive growing generative adversarial network and quality evaluations. Sci Rep 11, 12563 (2021). https://doi.org/10.1038/s41598-021-91965-y
Kim, M., Kim, Y.N., Jang, M. et al. Synthesizing realistic high-resolution retina image by style-based generative adversarial network and its utilization. Sci Rep 12, 17307 (2022). https://doi.org/10.1038/s41598-022-20698-3