연세대 의과대학 핵의학교실 박해정, 이비인후과학교실 최재영 교수, 차동철 네이버 헬스케어연구소 의료혁신센터장 연구팀은 딥러닝 기술을 활용해 내시경 이미지를 보며 귀 질환을 진단하는 AI를 만들고 높은 진단 정확도를 확인했다고 6일 밝혔다. 이번 연구 결과는 의료정보학 분야 국제 학술지 JMIR 의료정보학(JMIR Medical Informatics) 최신호에 게재됐다.
수도권· 5대 광역시와 이외의 지역 간 이비인후과 의료 불균형이 존재한다. 2021년 3분기 수도권· 5대 광역시 이비인후과 병원은 2,036개소인 것에 비해 이외 지역의 이비인후과 병원은 538개소다. 이러한 불균형을 해소하고 의사들의 정확한 진료를 보조할 수 있는 도구로 AI 등 디지털 기술을 활용할 수 있다.
연구팀은 딥러닝 기술을 활용해 AI를 만들고 AI의 진단 정확도를 평가했다. 먼저 AI를 콘볼루션 신경망으로 학습시켜 귀 내시경 사진에서 질환을 진단할 수 있는 기술을 개발했다. 콘볼루션 신경망은 2차원 데이터 분석에 적합한 구조를 가져 이미지 분류 학습에 쓰이는 딥러닝 기술의 한 종류다. 학습에는 2013년 ~2019년 세브란스병원 이비인후과 진료 환자 귀 내시경 이미지 약 2만 3천 개를 활용했다.
또 정상 이미지는 많지만 질병 이미지가 적어 정확한 진단을 내리는 민감도가 줄어드는 문제를 해소하고자 손실 함수 기법 등을 이용했다. 이어서 AI의 진단 정확도를 확인했다. 귀 내시경 이미지에서 진단할 수 있는 병을 상고실 함몰, 삼출성 중이염, 급성 중이염, 종양, 고막 천공으로 분류했다. 분류 후 300장을 두 번에 거쳐 테스트를 진행했다.
이와 함께 하나의 이미지를 놓고 AI와 의사가 같은 진단을 반복하는지 재현율을 검증하고자 카파(Kappa) 통계 값을 활용했다. 값이 1에 가까울수록 재현율이 높다는 것을 의미한다.
첫 번째 검사에서는 정상과 다섯 가지 병을 동일한 양으로 배치했다. 그 결과, AI의 진단 정확도는 77%로, 이비인후과 전문의들의 수준(71%)과 비슷했으며 다른 분야 전문의들의 수준(46%)보다 높았다.
카파 통계 값에서는 AI는 0.83, 전문의는 0.6, 타과 의사는 0.24를 기록했다. 두 번째 검사는 질병 발생률에 따라 사진 양을 조절했다. 발생률이 높은 질병의 사진을 많이 배치했다. AI, 전문의, 다른 진료과 전문의의 진단 정확도는 각각 82%, 73%, 44%였다. 카파 통계 값은 0.8, 0.54, 0.23였다.
|