brunch

[논문리뷰] 병무청 평발 진단의 신기원 FlatNet

CNN 알고리즘 'FlatNet'이 가져올 편평족 진단의 패러다임 변화

#편평족진단 #의료AI #FlatNet #딥러닝진단 #방사선AI #정형외과AI #족부질환 #의료영상분석 #의학논문리뷰 #CNN알고리즘 #랜드마크탐지 #의료정확도 #방사선판독 #헬스테크 #의료기술혁신 #군신체검사 #딥러닝기술 #의료이미지분석 #보조진단기술 #AI정확도


Ryu, Seung Min, et al. "Automated landmark identification for diagnosis of the deformity using a cascade convolutional neural network (FlatNet) on weight-bearing lateral radiographs of the foot." Computers in Biology and Medicine 148 (2022): 105914.

원문: https://pubmed.ncbi.nlm.nih.gov/35961089/



0. 개인적 평가

본 연구는 평발 연구 시리즈의 첫 번째 연구로, 병역판정 전담의사로 복무했던 제가 직접 발견한 문제를 해결하고자 시작되었습니다. 이전 조사에서 대한민국 병무청 신체검사 결과, 지역별로 평발 판정률이 최대 7배까지 차이가 나는 놀라운 현상을 발견했습니다. 심지어 서울 내에서도 한강을 기준으로 이남과 이북 지역의 평발 판정률이 뚜렷한 차이를 보였습니다. 이러한 지역별 의사별 판정의 형평성 문제를 해결하기 위한 기술적 접근이 필요했습니다.

(이전글 참조 https://brunch.co.kr/@smryuphd/49)



공학박사과정 대학원생으로 MI2RL 연구실 풀타임 연구원으로 처음 연구를 시작했을 때, 한 달 내내 랜드마크 점을 찍는 작업만 했습니다. 모니터만 너무 집중해서 쳐다보느라 안구 축동이 와서 눈이 아팠고, 안구건조증도 생겨 고생했습니다. 그러나 병무청에서 3년간 느꼈던 충족되지 않은 필요(unmet needs)를 직접 해결해보고 싶다는 열정으로 연구를 계속했습니다.


이 연구는 병역판정전담의사로 함께 복무했던 정형외과 이선호 전문의(현 목포한국병원)와 함께 진행했습니다. 친구와 출판물에 이름을 함께 넣는 것은 제가 생각하기에 고상한 친분 활동이라고 생각합니다. 또한 당시 같은 연구실에 박사과정으로 같이 근무했던 신기원 박사님(현 고대안암병원 연구교수)과도 함께 했던 연구로, 둘이서 서로의 전문성을 공유하면서 함께 발전하였습니다. 그 첫 연구가 바로 이 연구였습니다. 서로 다른 전문 분야의 지식을 결합한 이 공동 연구는 매우 의미 있는 경험이었습니다.


기술 개발은 성공적으로 완료했지만, 병무청에서 이 기술을 적극적으로 도입하지 않아 아쉬움이 남습니다. 그럼에도 불구하고 이 연구는 편평족 진단의 정확성과 일관성을 높이는 데 중요한 기여를 했다고 생각합니다. 비슷한 랜드마크 연구를 할 때 이 논문이 자주 인용되고 있어서 개인적으로 뿌듯한 마음이 듭니다.



1. 연구 배경

평발 혹은 편평족(Flatfoot)은 발의 내측 종아치(medial longitudinal arch)가 무너지거나 뒤꿈치가 외반화된 상태를 말합니다. 이는 보행 시 발의 탄력성 손실을 초래하고 장기적으로 통증과 기능 장애를 유발할 수 있습니다. 특히 군 입대 대상자들의 경우, 편평족 진단은 군 복무 (현역) 평가에 중요한 요소입니다.

체중 부하 측면 방사선 사진(WBLR)은 성인 편평족 변형 진단의 표준 검사법으로 여겨집니다. 진단을 위해 여러 각도를 측정하는데, 주요 각도로는 거골-첫 중족골 각도(TMA), 거골-종골 각도(TCA), 종골 경사각(CPA)이 있습니다.

이러한 각도 측정은 관찰자에 따라 변동성이 있어 진단의 일관성에 영향을 미칠 수 있습니다. 따라서 본 연구는 딥러닝 기술을 활용하여 방사선 사진에서 정확하고 일관된 랜드마크 식별 방법을 개발하고자 하였습니다.


1*VgB0YJnpoy7s6FrYIU-fhQ.png Figure 1. 표준 체중 부하 측면 방사선 각도 측정 시연. (A) 거골-첫 중족골 각도. (B) 거골-종골 각도. (C) 종골 경사각.



2. 연구 방법

2.1. 데이터셋

병무청에서 촬영한 600명 (1,200개)의 족부 측면 방사선 사진을 사용하였습니다. 이 중 1,050개는 train 및 validation, 150개는 test으로 사용하였습니다. 외부 검증을 위해 공개 데이터셋 LERA에서 23개의 추가 이미지를 사용하였으며, 이 중 6개는 심한 관절염, 금속물, 심한 변형으로 제외하였습니다.

2.2. 랜드마크 정의

25개의 해부학적 랜드마크를 정의하였습니다:

1) 종골 관련(3개): 하연, 결절, 전하방 모서리
2) 종골 참조점 관련(5개): 5번 중족골 두부 하연, 1번 중족골 두부 하연, 종자골 하연, 후방 지면, 전방 지면
3) 거골 관련(9개): 거골 돔 상연, 외측 돌기, 거골 두부 전상방 모서리, 거골 두부 전하방 모서리 등
4) 첫 중족골 관련(8개): 기저부 상후방 모서리, 기저부 하후방 모서리, 경부와 두부 사이 상연 변곡점 등


1*YYexfCxOOr5fNsNAmb84oA.png Figure 2. 방사선 랜드마크 개요. 종골 관련(1–3), 종골 참조점 관련(4–8), 거골 관련(9–12, 21–25), 첫 중족골 관련(13–20) 랜드마크를 표시함.



2.3. FlatNet 알고리즘 구조

2.3.1. 전처리 단계

- LR 마크를 제거하기 위해 X선 이미지 상단 부분 잘라내기
- 히스토그램 기반 대비 스트레칭을 통한 강도 정규화
- 트레이닝 데이터셋의 중앙값 크기에 기반한 이미지 크기 조정

2.3.2. ROI 탐지 모델

- ResNet101 FPN을 백본으로 하는 RetinaNet 사용
- 원본 해상도 이미지에서 각 랜드마크의 대략적 위치 식별
- 민감한 ROI 감지를 위해 0.05의 신뢰도 점수 사용

2.3.3. 랜드마크 예측 모델

- EfficientNet Lite 4 백본을 가진 U-Net을 사용
- 각 ROI 내에서 25개의 랜드마크 정확한 위치 파악
- SCSE(Spatial and Channel Squeeze & Excitation) 모듈 추가하여 정확도 향상
- 다양한 증강 기법(가우시안 노이즈, 무작위 밝기, 블러링, 무작위 대비, 플립, 무작위 회전) 적용


1*b7djSQqNn-Av6b_QEStuUg.png Figure 3. 족부 랜드마크 정확 위치 탐지를 위한 계단식 모델(FlatNet) 구조도. 관심 영역 탐지(상단)와 랜드마크 예측(하단) 두 단계로 구성됨.


2.4. 평가 방법

2.4.1. 정확도 평가

- X, Y 좌표와 절대 유클리드 거리의 오차 측정
- DLm(딥러닝 모델), 인간 관찰자(B, GP), DLm 안내를 받은 관찰자(B+DLm, GP+DLm) 비교

2.4.2. 신뢰도 평가

- 관찰자 내 신뢰도: 같은 관찰자가 50개의 무작위 선택된 방사선 사진을 1개월 후 재평가
- 관찰자 간 신뢰도: 급내상관계수(ICC) 사용하여 평가
- 모델 성능 비교: 다른 ROI 크기(512, 1024), SCSE 모듈 유무, 다른 모델(Ceph, FPAM) 간 비교


1*WUrGtAB8SKI5Z1QuCsK_Xg.png Figure 5. (A) 자동 식별된 예측 랜드마크. 이 예측 랜드마크는 가이드로 사용됨. (B) 자동 식별 가이드 하에 관찰자가 식별한 랜드마크 예시.



3. 연구 결과

3.1. 모델 성능 분석

1) ROI 크기가 큰 경우(1024×1024) 작은 경우(512×512)보다 성능이 좋음
2) SCSE 모듈 추가 시 평균 오차가 0.12mm 감소
3) 외부 데이터셋(LERA)에서도 안정적인 성능 보임:

- 절대 거리 평균 오차: 1.77 ± 2.40mm

3.2. 딥러닝 모델의 정확도

- 절대 거리 평균 오차: 0.84 ± 0.73mm

3.3. 인간 관찰자와 딥러닝 모델 비교

1) 인간 관찰자(B, GP)의 정확도:

a) B 의사: X 좌표 1.37 ± 1.28mm, Y 좌표 0.97 ± 0.98mm, 절대 거리 1.90 ± 1.34mm
b) GP: X 좌표 1.05 ± 1.23mm, Y 좌표 0.73 ± 0.90mm, 절대 거리 1.42 ± 1.40mm

2) 모든 랜드마크에서 DLm이 인간 관찰자보다 통계적으로 더 정확한 결과 보임
3) 지역(종골, 종골 참조점, 거골, 첫 중족골)별로 분석했을 때도 DLm이 일관되게 우수

3.4. 딥러닝 모델 안내 효과

1) DLm 안내 후 B 의사의 오차 감소:

- 절대 거리: 1.90 ± 1.34mm → 1.24 ± 1.31mm (34.7% 감소)

2) DLm 안내 후 GP의 오차 감소:

- 절대 거리: 1.42 ± 1.40mm → 1.04 ± 0.85mm (26.8% 감소)

3) 특히, 종골 결절, 5번 중족골 두부 하연, 거골 돔 상연 등에서 큰 개선

3.5. 관찰자 신뢰도 평가

3.5.1. 관찰자 내 신뢰도

1) A 의사: 절대 거리 오차 0.64 ± 0.51mm, ICC 0.974-0.999
2) B 의사: 절대 거리 오차 1.35 ± 1.03mm, ICC 0.916-0.997
3) GP: 절대 거리 오차 1.36 ± 1.10mm, ICC 0.922-0.998
4) 지면 참조점(7, 8번)을 제외하고 모든 랜드마크에서 높은 ICC 값 보임

3.5.2. 관찰자 간 신뢰도

1) DLm 안내 전 3명 관찰자 X좌표 ICC(2,3): 0.847-0.993
2) DLm 안내 후 3명 관찰자 X좌표 ICC(2,3): 0.864-0.996
3) DLm 안내 전 3명 관찰자 Y좌표 ICC(2,3): 0.935-0.998
4) DLm 안내 후 3명 관찰자 Y좌표 ICC(2,3): 0.979-0.999
5) 전체 46개 측정(X, Y좌표, 지면 제외)에서 38개 측정값의 ICC가 향상됨



1*_j1d5Oh5PB7kskr3rLT02A.png Figure 6. 딥러닝 모델(DLm)과 인간 관찰자(B와 GP)의 절대 거리(mm) 오차 평균 및 95% 신뢰구간 비교.


1*Dul-EjWEC_l-F9761S1XxA.png Figure 9. 딥러닝 모델 간 비교. 절대 거리(mm) 오차 평균 및 95% 신뢰구간을 모델별로 비교함.


4. 연구의 의의 및 한계점

4.1. 연구의 의의

1) 족부 측면 방사선 사진에서 자동화된 랜드마크 탐지의 첫 구현
2) 인간 전문가보다 더 정확하고 일관된 랜드마크 식별 가능
3) 딥러닝 안내를 통해 인간 관찰자의 정확도와 일관성 향상 입증
4) 군 징병 검사, 일반 정형외과 진료에서 진단 정확도 향상 가능성

4.2. 한계점

1) 단일 센터 데이터셋으로 평가 (다중 센터 확장 필요)
2) 19세 남성만을 대상으로 수행 (여성, 다른 연령대 포함 필요)
3) 임상적 각도(CPA, TMA, TCA)의 직접적 분석 미수행
4) 금속물, 관절염, 심한 변형이 있는 사례 제외


5. 결론

본 연구에서는 체중 부하 측면 방사선 사진에서 편평족 진단을 위한 자동화된 랜드마크 식별 방법인 FlatNet을 개발하고 평가하였습니다. Cascaded CNN을 사용한 이 모델은 인간 관찰자보다 더 높은 정확도와 신뢰도를 보여주었으며, FlatNet의 안내를 받은 인간 관찰자들의 정확도와 신뢰도 또한 전반적으로 향상되었습니다.

이 연구는 딥러닝 기술이 의료 영상 분석, 특히 족부 방사선 사진에서 랜드마크 식별의 정확성과 일관성을 향상시킬 수 있는 잠재력을 보여주었으며, 향후 임상 실무에서 이러한 기술의 활용 가능성을 제시하고 있습니다.

keyword
매거진의 이전글[논문리뷰] 평발, 병무청마다 판정률 7배 차이