“한국어 배우는 외국인 데이터, 오픈AI가 원하는 것이죠”

김영환 기자I 2024.01.22 06:02:00

[오픈AI 파트너]②윤정호 하이로컬 대표 인터뷰
다양한 언어 학습자간 대화 학습 가능한 온라인 서비스
특정 언어 익히는 각기 다른 학습자간 오류 패턴
챗GPT 성능 높여줄 데이터로 각광

오픈AI(인공지능)의 챗GPT 이후 대화형AI 서비스 시대가 본격 개화하고 있다. 세계적인 정보기술(IT) 회사들이 챗GPT를 활용한 서비스 개발에 뛰어드는 가운데 국내 스타트업도 오픈AI와 협력을 통해 상용화 경쟁에 나서고 있다. 오픈AI와 직접 협력할 국내 주요 스타트업을 만나본다.
[이데일리 김영환 기자] “저희가 확보한 전세계 120만명의 사용자들이 하루에만 대화량이 3만 시간에 달합니다. ‘오픈AI’의 챗GPT도 제2외국어 기반으로는 트랜스크립션(오디오를 텍스트로 변환하는 프로세스)이 잘 안 되는데 우리의 데이터를 활용해 볼 수 있다고 본 거죠.”

언어교환 애플리케이션(앱) ‘하이로컬’은 전 세계 다양한 국가의 사람들이 원하는 언어를 배울 수 있게 대화하는 온라인 공간을 구현한 서비스다. 언어를 배우려는 사람들이 모이는 장소이기 때문에 특정 언어만 학습할 수 있는 것도 아니다. 아랍말을 활용하고 싶은 사람이 두 사람만 있어도 방을 생성해 회화를 할 수 있다.

윤정호 하이로컬 대표는 최근 이데일리와의 인터뷰에서 “하루 24시간 중 아무 때나 들어가도 2000~3000명 정도가 활동을 하고 있다”라며 “어학당에서 선생님께 언어를 배운 각국 학생들이 남아서 친구들과 회화를 연습한다고 생각하면 된다”라고 설명했다.

시간과 장소의 구애을 받지 않고 원하는 때에 회화를 할 수 있어 오가는 대화량은 방대하다. 오픈AI가 주목한 하이로컬의 강점이 바로 이 대목이다. 모국어가 아닌 사람들이 해당 언어를 활용할 때 자주 발생하는 오류는 챗GPT의 완성도를 높일 수 있는 귀중한 데이터가 되기 때문이다.

같은 영어를 쓰지만 영국과 미국, 인도의 영어는 저마다 발음의 특성이 명확하다. 한국어를 배울 때도 유럽 지역에 사는 학습자와 동남아 지역에 사는 학습자가 반복하는 실수 유형이 특정될 수 있다. 한국어와 어순이 유사한 일본어를 한국인이 상대적으로 잘 습득하는 것도 언어의 기질적 특징이다.

(그래픽= 문승용 기자)
윤 대표는 “하이로컬은 대화가 일어나는 환경을 잘 조성을 해놨기 때문에 오픈AI에서 교정과 번역, 분석 데이터를 활용할 수 있는 스타트업이라는 포인트를 짚었다”라며 오픈AI와 협업할 수 있는 지점을 꼽았다. 이어 “한국인끼리 대화하는 것은 가치가 높은 데이터가 아니다. 한국어를 배우는 외국인들의 대화가 가치가 있다”라며 “그 모호한 발음들을 트랜스크립션하고 언어를 배우는 학습자에게 교정할 수 있는 단계까지 올리기 위해 우리 같은 스타트업과 협업해 해결해보자는 방향으로 나아가려는 것”이라고 자신했다.

하이로컬은 지난 2021년 서비스 론칭 시점부터 챗GPT2 모델을 활용했다. 언어를 배울 때 오류 교정을 인간이 직접 하게 되면 시간과 비용 등 자원이 지나치게 많이 든다. 인공지능(AI)이 비용을 획기적으로 줄여줄 수 있지만 각각의 언어를 배우려는 수백 나라 사람들의 특성까지 짚어낼 정도로 수준이 올라오지 못했다. 하이로컬 입장에서도 훨씬 더 고도화된 AI 모델이 필요하다.

윤 대표는 “AI튜더는 거대 대형언어모델(LLM) 회사에서 모두 출시하겠지만 회화에서 직접 사람하고 대화하고 학습하는 분야는 살아남을 거라고 보고 있다”라며 “이 분야를 통해 사람들이 활용할 수 있는 환경을 조성하고 더 쉽게 공부할 수 있는 서비스를 장악할 계획”이라고 강조했다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지