연세의료원, ‘데이터 레이크’로 의료 빅데이터 공유한다

by이순용 기자
2023.05.02 13:03:22

연구자 친화적 데이터 활용…정밀의료 실현 디딤돌
개방형 운영으로 접근성 높이고, 가명 데이터로 안전성 강화

[이데일리 이순용 기자] 연구자가 신약 개발 등 연구에 필요한 데이터를 자유롭게 활용할 수 있는 의료빅데이터 플랫폼이 마련됐다. 원내 데이터를 하나의 플랫폼으로 모은 올인원(all-in-one) 저장소 데이터 레이크를 기반으로 한다.

연세대학교 의료원(이하 연세의료원)은 정밀의료 실현을 위한 연구를 지원하기 위해 의료빅데이터 플랫폼 ‘세브란스 데이터 포털’을 구축했다고 2일 밝혔다. 연구자들은 이를 통해 암 등 각종 질병의 진단 검사 결과와 치료 과정 등 의료빅데이터를 자유롭게 검색하고 분석할 수 있다.

환자 진료와 유전체 정보, 환경 요인 등을 종합적으로 분석해 맞춤형 치료 방법을 제시하는 정밀의료는 예방적 치료까지 포괄하는 미래 의료의 핵심이다. 이를 위해 연세의료원은 연구자들이 의료빅데이터에 손쉽게 접근해 필요에 맞게 분석하고 활용할 수 있는 환경을 앞장서 조성했다.

의료 연구 목적을 가진 연구자라면 누구나 접근 가능한 세브란스 데이터 포털(Severance Data Portal, SDP)은 필요한 빅데이터를 연구 목적에 맞게 찾을 수 있는 검색 포털 ‘데이터레이크’를 기반으로 한다.

세브란스 데이터 포털은 연세의료원의 통합연구플랫폼(CDW)과 공통데이터모델(CDM), 암 정밀의료 DB(Yonsei Cancer Data Library), 세브란스병원, 강남세브란스병원, 용인세브란스병원의 EMR 등 내부 데이터를 총 망라한다. 또한, 보유 중인 데이터 외에도 실시간으로 추가된 신규 데이터를 기존의 데이터와 연계해 새로운 빅데이터를 추출할 수 있어 활용 가능한 데이터 규모를 계속해서 확장할 수 있다.



진료와 영상 등 환자 정보가 포함된 모든 빅데이터는 개인 정보 비식별화 솔루션을 통해 가명 데이터로 전환하면서 개인 정보 안정성을 확보했다. 연세의료원은 2PB가 넘는 방대한 양의 데이터를 빠르고 정확하게 추출하기 위해 통합 검색엔진인 엘라스틱 서치(elastic search)를 탑재해 연구자 편의를 더했다.

나아가 연세의료원은 2024년 ‘의료빅데이터플랫폼 구축 2단계’를 추진한다. 2단계에서는 차세대 디지털 의료영상 정보시스템(PACS), 디지털 병리 데이터, 유전체 분석 데이터 등을 추가해 연구자가 활용 가능한 데이터 범위를 확장한다.

의료원 외부 연구자에게도 데이터를 개방하는 만큼, 클라우드 기반의 자격 권한 관리(IAM: Identity & Access Management) 기능으로 단계별 데이터 공개 및 접근 권한을 제한하는 보안 기능 강화도 앞두고 있다.

임준석 디지털헬스실장은 “의료 연구자라면 누구나 사용할 수 있는 세브란스 데이터 포털이 환자 치료 성적 향상에 기여하는 공익적 역할을 할 것으로 기대한다”며 “연세의료원은 앞으로도 ‘사람을 살리는 디지털’ 실현을 위해 의료 데이터 품질, 보안, 표준을 마련하는 데 최선을 다할 것”이라고 말했다.

한편, 연세의료원은 2005년 SNOMED-CT(스노메드 시티)를 기관에서 사용하는 의료 표준용어로 국내 처음으로 도입해 의료 데이터의 다국적 활용 기반을 마련했으며, 작년에는 연세의료원의 CDW, CDM이 한국데이터산업진흥원(K-DATA) 데이터 품질인증 심사에서 평가 최고 등급인 ‘플래티넘 클래스’를 획득했다.