brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Feb 23. 2020

ML 모델 훈련을 위한 다양한 합성 의료 이미지 생성

2020년 2월 19일 (수) - 구글 AI 리서치 블로그

의사가 더 나은 진단을 제공하는 데 도움이 되는 의료 이미징을 위한 머신러닝(ML)의 진전은 부분적으로 세밀하게 레이블이 지정된 큰 데이터셋을 사용하여 이루어졌습니다. 그러나 개인 정보 보호 문제, 협력 기관들의 환자 수가 적거나 희귀 질환을 연구하여 실제 데이터 크기는 제한될 수 있습니다. 또한 ML 모델이 일반화되도록 하려면 피부 유형, 인구 통계 및 이미징 장치와 같은 다양한 하위 그룹에 걸친 훈련 데이터들이 필요합니다. 각각의 조합 하위 그룹의 크기(예: 피부 상태가 B인 피부 유형 A를 카메라 C로 촬영)의 크기가 충분히 커야 하므로 신속하게 비실용적이 될 수 있습니다.


현재 우리는 ML 훈련 데이터의 다양성을 개선하고 의료 응용 프로그램에 사용할 수 있는 훈련 데이터의 양을 늘리는 것을 목표로 하는 두 가지 프로젝트를 공유하게 되었습니다. 첫 번째 프로젝트는 희귀한 피부 유형 및 조건의 적용 범위를 개선하기 위해 합성 피부 손상 이미지(Synthetic skin lesion)들을 생성하기 위한 구성 가능한 방법입니다. 두 번째 프로젝트는 합성 이미지들을 훈련 데이터로 사용하여 ML 모델을 개발하여 다양한 이미징 장치에서 다양한 생물학적 조직 유형을 더 잘 해석할 수 있습니다.


피부 상태의 다양한 이미지 생성

NeurIPS 2019ML4H (Machine Learning for Health) 워크숍에 실린 “DermGAN : 병리학을 이용한 임상 피부 이미지의 합성 생성(Synthetic Generation of Clinical Skin Images with Pathology)” 제출된 논문에서, 소비자 등급 카메라로 촬영한 비식별 피부과 이미지의 데이터 다양성과 관련된 문제를 해결합니다. 이 연구는 (1) 희귀 피부 상태를 나타내는 이미징 데이터의 부족함과 (2) 특정 피츠패트릭(Fitzpatrick) 피부 타입들을 다루는 낮은 빈도의 데이터를 다룹니다. 피츠패트릭 피부 타입은 타입 I (“옅은 흰색, 항상 타거나 결코 태닝 하지 않음”)에서 타입 VI(“가장 어두운 갈색, 절대 타지 않음”)까지 다양하며, 일반적으로 “경계선들”에서 상대적으로 적은 수의 사례를 포함하는 데이터셋들이 있습니다. 두 경우 모두, 표준화된 조명, 가구 및 의류와 같은 배경의 대비 및 시야 변화 및 머리카락 및 주름과 같은 피부의 미세한 세부 사항으로 인해 배경 이미지에서 일반적인 낮은 신호 대 잡음비로 인해 데이터 부족 문제가 악화됩니다. 


피부 이미지의 다양성을 개선하기 위해 DermGAN이라는 모델을 개발했습니다. 이 모델은 사전에 생성된 피부 상태, 위치 및 기본 피부색의 특성을 나타내는 피부 이미지들을 생성합니다. DermGAN은 pix2pix GAN(Generative Adversarial Network) 아키텍처를 기반으로 한 이미지 간 변환 접근 방식을 사용하여 한 유형의 이미지에서 다른 유형의 이미지로의 기본 맵핑을 학습합니다. 


DermGAN은 실제 이미지와 요청된 특성을 가진 새로운 합성 샘플들을 생성할 실제 이미지의 기본 특성(예: 피부 상태, 손상 위치 및 피부 유형)을 나타내는 사전에 생성된 시맨틱 맵을 입력으로 사용합니다.


그 제너레이터(generator)는 U-Net 아키텍처를 기반으로 하지만 체커 보드 아티팩트(Checker board artifacts)들을 완화하기 위해 디컨볼루션 레이어(deconvolution layer)들은 크기 재조정 레이어로 교체된 후 컨볼루션이 뒤 따릅니다. 특히 병리학적 영역 내에서 합성 이미지의 품질을 향상하기 위해 몇 가지 맞춤형 손실(loss)들이 발생합니다. DermGAN의 discriminator 컴포넌트는 훈련에만 사용되는 반면 제너레이터는 시각적으로 평가되며 skin condition classifier의 훈련 데이터셋을 보강하는 데 사용됩니다.

[그림 1]

[그림 1] 상세 설명 - DermGAN의 제너레이터 구성요소 개요. 모델은 피부 상태의 크기와 위치(주황색 작은 사각형)로 주석이 달린 RGB 시맨틱 맵(빨간색 상자)을 사용하여 사실적인 피부 이미지를 출력합니다. 컬러 박스는 컨볼루션 및 ReLU와 같은 다양한 신경망 계층을 나타냅니다. skip connection은 U-Net과 유사하며 정보가 적절한 스케일로 전파될 수 있습니다.

[그림 2]

[그림 2] 상세 설명 - 상단 열은 생성된 합성 예를 보여주고 하단 열은 기저세포 암종(basal cell carcinoma)(왼쪽)과 흑색 종 모반(melanocytic nevus) (오른쪽)의 실제 이미지를 보여줍니다. 논문에서 더 많은 예를 찾을 수 있습니다.


시각적으로 사실적인 이미지를 생성하는 것 외에도, 이 메서드를 사용하면 피부 상태나 피부 유형의 이미지를 생성할 수 있습니다.

[그림 3]

[그림 3] 상세 설명 - DermGAN을 사용하면 배경 피부 유형이 다른 (, 입력 피부색을 변경하여) 다른 크기의 손상 (아래, 입력 손상 크기를 변경하여)으로 피부 이미지 (이 경우 멜라노사이트 모반(melanocytic nevus)이 있는 경우)를 생성할 수 있습니다. 입력 피부색이 변함에 따라 손상 부분은 다른 피부 유형에서 손상 모양과 일치하도록 모양이 변경됩니다.


초기 결과들은 피부 상태 분류기(classifier)를 훈련시키기 위해 생성된 이미지를 추가 데이터로서 사용하는 것이 흑색 종과 같은 희귀한 악성 상태를 검출할 때 성능을 향상할 수 있음을 나타내었습니다. 그러나 희귀한 피부 타입과 조건에서 정확도를 높이기 위해 생성된 이미지를 가장 잘 활용하는 방법을 모색하려면 더 많은 작업이 필요합니다.


다양한 스캐너에서 서로 다른 레이블로 병리학 이미지 생성

정확한 진단을 위해서는 의료 이미지의 초점 품질이 중요합니다. 초점 품질이 좋지 않으면 정확한 ML 기반 전이성 유방암 탐지 알고리즘에서도 위양성 및 위음성을 모두 유발할 수 있습니다. 병리학 이미지가 초점을 맞추고 있는지 여부를 결정하는 것은 이미지 획득 프로세스의 복잡성과 같은 요인으로 인해 어렵습니다. 디지털화된 전체 슬라이드 이미지는 전체 이미지에서 초점이 좋지 않을 수 있지만, 수천 개의 작은 시야에서 함께 연결되기 때문에 나머지 이미지와 다른 초점 속성을 가진 하위 영역을 가질 수도 있습니다. 이는 초점 품질에 대한 수동 스크리닝을 비실용적으로 만들고 초점이 맞지 않는 슬라이드를 감지하고 초점이 맞지 않는 영역을 찾는 자동화된 접근 방식에 대한 동기를 부여합니다. 초점이 맞지 않는 영역을 식별하면 다시 스캔할 수 있거나 스캔 프로세스 중에 사용되는 초점 알고리즘을 개선할 수 있습니다.


Journal of Pathology Informatics에 게재된 "전체 슬라이드 이미지 초점 품질 : AI 암 탐지에 대한 자동 평가 및 영향(Whole-slide image focus quality: Automatic assessment and imact on AI cancer detection)"이라는 두 번째 프로젝트에서, 우리는 초점 품질 문제에 비식별, 대형 기가 픽셀 병리 이미지를 평가하는 방법을 개발합니다. 여기에는 다양한 조직 유형과 슬라이드 스캐너 광학 속성을 나타내는 반합성 훈련 데이터에 대한 컨볼 루션 신경망 교육이 포함되었습니다. 그러나 ML 기반 시스템을 개발하는 데 있어 주요 장애물은 레이블이 지정된 데이터가 없다는 점입니다. 초점 품질을 안정적으로 분류하기가 어렵고 레이블이 있는 데이터셋을 사용할 수 없었습니다. 초점 품질이 이미지의 미세한 디테일에 영향을 미치기 때문에 문제를 악화시키기 위해 특정 스캐너에 대해 수집된 데이터는 다른 광학 스캐너와 다른 물리적 스캐너와 차이가 있을 수 있는 다른 스캐너를 대표하지 않을 수 있습니다. 캡처한 이미지 타일, 화이트 밸런스 및 사후 처리 알고리즘 등 이를 통해 실제 초점이 맞지 않는 특성을 나타내는 합성 이미지를 생성하는 새로운 다단계 시스템을 개발할 수 있었습니다.


우리는 훈련 데이터를 여러 단계로 수집하는 과정을 해체했습니다. 첫 번째 단계는 다양한 스캐너에서 이미지를 수집하고 초점이 맞춰진 영역에 레이블을 지정하는 것이었습니다. 이 작업은 이미지의 초점이 맞지 않는 정도를 결정하는 것보다 훨씬 쉽고 전문가가 아닌 사람이 완료할 수 있습니다. 다음으로, 실제 초점이 맞지 않는 이미지가 캡처되기 전에 발생하는 일련의 이벤트에서 영감을 얻은 합성 초점이 맞지 않는 이미지를 생성했습니다. 광학 흐림 효과가 먼저 발생하고 센서에 의해 수집된 포톤들, 망막에 있어서 빛의 세기의 단위(센서 노이즈를 추가하는 프로세스), 마지막으로 소프트웨어 압축은 노이즈를 추가합니다.

[그림 4]

[그림 4] 상세 설명 - 단계별 초점이 맞지 않는 이미지 생성을 보여주는 일련의 이미지. 단계 간의 차이를 강조하기 위해 이미지가 회색조로 표시됩니다. 먼저 초점이 맞은 이미지가 수집되고 (a) 보케 효과(bokeh effect)가 추가되어 흐릿한 이미지가 생성됩니다. (b) 다음으로 실제 이미지 센서를 시뮬레이션하기 위해 센서 노이즈가 추가되고, (c) 마지막으로 JPEG 압축이 추가되어 후 획득 소프트웨어 처리(d)에 의해 도입된 날카로운 에지를 시뮬레이션합니다. 실제 초점이 맞지 않은 이미지가 비교를 위해 표시됩니다.(e)


우리의 연구에 따르면 각 단계를 모델링하는 것은 여러 스캐너 유형에 걸쳐 최적의 결과를 얻는 데 필수적이며, 놀랍게도 실제 데이터에서 화려한 초점이 맞지 않는 패턴을 감지할 수 있게 합니다.

[그림 5]

[그림 5] 상세 설명 - 생물학적 조직 슬라이스에 걸쳐 특히 흥미로운 초점이 맞지 않는 패턴 샘플. 파란색 영역은 모델에서 초점이 맞은 것으로 인식된 반면 노란색, 주황색 또는 빨간색으로 강조 표시된 영역은 초점이 맞지 않습니다. 여기서 초점의 그라이데이션(동심원으로 표시됨 : 녹색 / 청록색으로 약간 초점이 맞지 않은 빨간색 / 주황색 초점이 맞지 않는 중심, 파란색 초점이 맞은 링)은 주변의 생물학적 조직을 들어 올리는 중심의 단단한 "돌"에 의해 발생했습니다.


시사점 및 향후 전망

ML 시스템을 개발하는 데 사용되는 데이터의 양이 근본적인 병목 현상으로 여겨지지만, ML 모델에 대한 훈련 데이터의 다양성을 개선하고 ML이 제대로 작동하는 능력을 향상하는 데 사용할 수 있는 합성 데이터 생성 기술을 제시했습니다. 우리는 ML 데이터와 같은 편향(bias)이 합성 데이터에서만 잘 수행되지 않도록 이러한 방법이 검증 세트(validation set)에 적합하지 않다는 점에 주의해야 합니다. 편향(bias) 없이 통계적으로 엄격한 평가를 보장하기 위해 역 확률 가중치(예: 흉부 X-선 ML 연구에서 활용)와 같은 기술이 유용할 수 있지만 충분한 양과 다양성의 실제 데이터가 여전히 필요합니다. 우리는 비식별 처리된 데이터를 보다 효율적으로 활용하여 건강 관리를 위한 ML 모델 개발에서 데이터 다양성을 개선하고 대규모 데이터셋의 필요성을 줄이기 위한 다른 접근 방법을 계속 탐색하고 있습니다.


감사의 말

이 프로젝트에는 여러 분야의 소프트웨어 엔지니어, 연구원, 임상의 및 교차 기능 공헌 팀의 노력이 포함되었습니다. 이 프로젝트의 주요 공헌자들은 Timo Kohlberger, Yun Liu, Melissa Moran, Po-Hsuan Cameron Chen, Trissia Brown, Jason Hipp, Craig Mermel, Martin Stumpe, Amirata Ghorbani, Vivek Natarajan, David Coz 및 Yuan Liu입니다. 또한 저자는 Daniel Fenner, Samuel Yang, Susan Huang, Kimberly Kanada, Greg Corrado 및 Erica Brand, 그들의 조언에 대해 Google Health 피부과 및 병리학 팀의 멤버들과 그들의 도움에 대해 Ashwin Kakarla와 이미지 레이블링 팀인 Shivamohan Reddy Garlapati에게 감사의 말씀을 전합니다.


원본 제목: 머신러닝 모델 훈련을 위한 다양한 합성 의료 이미지 데이터 생성(Generating Diverse Synthetic Medical Image Data for Training Machine Learning Models)
게시자 : Timo Kohlberger 및 Yuan Liu, Google Health 소프트웨어 엔지니어
원본 링크: https://ai.googleblog.com/2020/02/generating-diverse-synthetic-medical.html
용어집 참조: https://developers.google.com/machine-learning/glossary#r
이 블로그는 2020년 2월 19일(수), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한  것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게  저작권이 있음을 알려 드립니다. (First Draft Version)


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari