AI 학습용 데이터 4.8억건 개방…"한국어음성·자율주행 개발 도움"

by이후섭 기자
2021.06.18 10:00:00

과기정통부·NIA, 170종 데이터 AI허브에 6월말까지 순차적 개방
한국어 음성, 헬스케어, 자율주행 등 포함…AI서비스 개발 가속화
`AI 데이터 활용협의회` 출범…9월말까지 데이터 집중개선 진행

임혜숙 과학기술정보통신부 장관이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린 `인공지능(AI) 데이터 활용협의회 출범식`에 참석해 격려사를 하고 있다.(사진=과학기술정보통신부 제공)

[이데일리 이후섭 기자] 한국어 음성, 헬스케어, 자율주행 등 인공지능(AI) 학습용 데이터 170종, 4억8000만건이 AI 허브를 통해 본격 개방된다. 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려웠던 중소기업이나 스타트업에 큰 도움이 될 것으로 기대된다. 정부는 데이터 활용 촉진을 위해 `AI 데이터 활용협의회`를 출범하며, 오는 9월말까지 이용자 참여를 통한 데이터 집중개선도 추진한다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 18일부터 170종의 AI 학습용 데이터 4억8000만건을 AI 허브를 통해 개방한다고 밝혔다. 이날 60종을 시작으로 6월말까지 순차적으로 개방할 예정이며, 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 오는 30일에 개방할 계획이다.

과기정통부는 지난 2017년부터 2019년까지 21종의 AI 학습용 데이터를 구축·개방했고, 지난해부터는 디지털 뉴딜 `데이터 댐` 구축 프로젝트의 일환으로 구축 규모를 대폭 늘려 추진 중이다. 이를 통해 AI 허브 이용자는 2019년 4439명에서 지난해 1만3092명으로 급증했고, 같은 기간 데이터 활용도 1만6177회에서 4만9085회로 3배가량 늘었다.

(자료=과학기술정보통신부 제공)

이번에 개방하는 8대 분야 170종의 AI 학습용 데이터는 지난해 주요 인공지능·데이터 전문기업, 서울대·카이스트 등 48개 주요 대학, 서울대병원·아산병원 등 25개 병원 등 총 674개 기업·기관이 참여해 구축했다. 특히 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명 국민들의 참여를 이끌어냈다.

민간에서 대규모로 구축하기 어려운 한국어 음성 데이터, 국내 도로주행 영상 데이터, 주요 암질환 영상 데이터 등이 포함됐다. 그간 해외 오픈데이터를 많이 활용해왔으나, 한국어나 국내 도로환경 등 국내 실정을 반영하지 못해 AI 개발에 어려움이 있었다. 이번에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등이 대폭 확충돼 국민이 체감할 수 있는 AI 서비스 개발이 가속화될 수 있을 것으로 기대된다.

대표적으로 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 상당 부분 해결할 수 있을 것이다. 자율주행 데이터(21종)는 국내 도로주행 영상 뿐만 아니라 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등의 데이터를 제공해 자율주행차 개발을 한층 앞당길 것으로 기대된다.

AI 학습용 데이터의 품질과 활용성을 검증하기 위해 산·학·연 전문가 80여명이 참여하는 `품질자문위`를 운영했다. 품질관리 전문기관인 한국정보통신기술협회(TTA) 및 전문기업 등과 협력해 데이터 품질관리 수준을 대폭 강화했으며, 향후 개인정보보보호위원회와 한국인터넷진흥원(KISA) 등과도 지속적으로 협력을 강화해나갈 계획이다.

(자료=과학기술정보통신부 제공)

이날 AI 학습용 데이터의 활용 촉진과 성과 확산 등을 위해 `AI 데이터 활용협의회` 출범식을 갖고, 의견수렴을 위한 간담회도 개최했다. AI 데이터 활용협의회는 TTA와 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성돼 AI 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편, 데이터 품질 제고와 지속적인 개선에 협력할 예정이다.

지능정보원은 대규모 개방에 맞춰 AI 허브 활용환경 개선도 추진한다. 본인인증 한 번만으로 데이터 접근 및 활용이 가능하도록 회원가입 시스템을 개선하고, 직관적인 데이터 탐색을 위해 사용자환경(UI)·사용자경험(UX)도 개선했다. 헬스케어 데이터의 활용 활성화를 위해 폐쇄형 안심존의 확대 및 클라우드 기반의 개방형 안심존 구축도 추진한다.

이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 오는 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다. AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, TTA·KISA 등과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 강조했다.