|
인터넷이나 데이터베이스에서는 원하는 정보를 빠르게 찾기 위해 ‘인덱스(Index)’라는 도구를 활용해 데이터를 구조화한다. 최근에는 머신러닝을 활용한 학습 인덱스가 등장해 검색 속도를 획기적으로 향상시켰다. 하지만 전체 데이터를 학습해야 하는 한계로 인덱스 생성에 많은 시간과 자원이 소요되고 있다.
연구팀은 일부 데이터만 추출해 학습하는 ‘샘플링 기법’을 도입, 인덱스 성능을 유지하면서도 효율을 향상시키는 핵심 기법을 개발했다. 단국대는 “2억 개의 키-값 데이터 셋을 대상으로 테스트한 결과 기존 방식보다 최대 4만 배 빠르게 인덱스를 구축했다”며 “정확도와 검색 속도는 5% 이내의 오차 범위를 유지했으며 성능 저하도 나타나지 않았다”고 설명했다.
최종무 교수는 “이번 연구는 학습 기반 인덱스의 구축 효율성을 획기적으로 개선한 성과로 대규모 데이터 환경에서도 적용이 가능하다”라며 “앞으로도 빅데이터, 클라우드, 인공지능 등 고속 인덱스 구축이 요구되는 다양한 분야로 기술을 확장하고 데이터 인프라 성능 향상을 위한 후속 연구에 박차를 가할 것”이라고 밝혔다.





