오픈AI, 한국어 처리비용 낮춰…"韓기업 우세" 장담못한다
by임유경 기자
2024.05.20 06:02:00
[성큼다가선 AGI]②GPT-4o, 한국어 효율 1.7배 개선
제미나이 한국어 우선 지원 행보도 주목
토종AI, 한국 특화 문제에 우위 있지만 안심 못해
LLM 국가안보 직결…엇박자 규제부터 풀어야
[이데일리 임유경 기자] ‘생성형AI 경쟁에서 한국어만큼은 한국 기업을 따라올 수 없다’. 생성형 인공지능(AI) 서비스 초기 국내 기업들이 이 같은 이유로 안도했다면, 더이상은 힘들 것으로 보인다. 오픈AI와 구글은 영어 외 언어에 대한 개선을 지속하는 한편 처리 비용을 낮추고 있어 토종 AI의 경쟁력을 우려하는 목소리가 나온다.
국내 대표 AI모델인 네이버의 ‘하이퍼클로바X’는 아직 멀티모달을 정식 출시하지 못하고 있다. 멀티모달이란 텍스트와 이미지, 오디오, 비디오 등을 통합해 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 말 그대로 ‘다중모드’를 의미한다.
19일 IT업계에 따르면 오픈AI가 새롭게 출시한 GPT-4o 모델의 한국어 토큰 효율은 1.7배 개선됐다. 토큰은 텍스트의 최소 단위로, 같은 의미의 문장을 생성할 때 더 적은 토큰을 쓰는 것이 비용 면에서 효율적이라고 본다.
예를 들어 “안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!”라는 문장을 생성할 때 기존에는 토큰 45개가 쓰였다면 이제는 27개 만으로 표현할 수 있다. 같은 문장을 영어로 표현할 때 토큰 24개가 사용되는 것과 비슷한 수준으로 줄어든 것이다. 구글 역시 지난 2월 챗봇 서비스 ‘제미나이’ 앱을 출시할 때 영어 다음으로 한국어를 우선 지원하는 등 한국어 지원에 신경쓰는 모습이다.
오픈AI와 구글이 각각 GPT-4o, 아스트라를 통해 멀티모달 경쟁을 본격화했다는 점도 토종AI의 입지를 위태롭게 만드는 요인이다. 특히 기존에 확고한 서비스들을 갖춘 구글이 위협적인 존재로 평가된다. 구글은 검색, 메일, 포토, 캘린더, 안드로이드까지 전방위적으로 멀티모달모델의 결합을 예고했다.
아직까지 한국어 이해나 처리 능력에서는 국내 기업이 우위에 있다. 네이버에 따르면 자사 하이퍼클로바X는 한국판 AI 성능 평가 체계 ‘KMMLU’에서 오픈AI, 구글의 생성형 AI보다 높은 점수를 기록했다. 평가는 한국 사용자에게 유용한 정보를 줄 수 있는지 종합적으로 판단하기 위해 수학적 추론 능력과 같이 전 세계 공통적으로 적용 가능한 광범위한 지식을 묻는 문항 비중 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하는 문항 20%로 구성됐다. 한국 특화 지식 기준으로는 55.21로 오픈AI의 GPT-4(54.89), 구글의 제미나이 프로(42.94) 등 최신 모델도 앞섰다.
하정우 네이버클라우드 AI 이노베이션 센터장은 “GPT-4o는 토큰 효율이 좋아져도 미국 편향된 가치관과 한국에 대한 이해도가 부족하다”며 언어 측면에서 하이퍼클로바X의 경쟁력이 있음을 강조했다. 하이퍼클로바X 멀티모달의 정식 출시가 늦어지는 이유에 대해서는 기술적인 이유가 아니라 “비즈니스 연결 관점에서 고려가 필요하기 때문”이며 하이퍼클로바X의 업데이트 방향도 멀티모달 강화에 맞춰져 있다고 답했다.
현재의 평가를 토대로 언제까지나 한국 기업이 우위에 있을 것이라고 자신할 수는 없다. 정혜동 한국전자기술연구원(KETI) 융합지능기획단 부단장은 “한국어 데이터를 한국 기업만 독점적으로 가지고 있는 게 아니기 때문에 자본력을 갖춘 글로벌 기업이 사업성을 판단해 언제든 투자해 따라올 수 있는 부분”이라고 짚었다. 실제 오픈AI는 지난달 일본에 지사를 설립하고 일본어 성능을 향상한 맞춤형 GPT-4 모델을 출시했다.
자체 LLM 보유가 국가 안보와 직결된 문제인 만큼 사우디아라비아 등 전 세계는 소버린AI 구축에 열을 올리고 있다. 네이버는 사우디를 포함해 중동지역 국가들이 현지 문화와 언어에 최적화된 LLM을 구축할 수 있도록 지원하고 있다. 일본 소프트뱅크는 연내 파라미터가 3900억개에 달하는 모델을 완성하고 내년에 1조 파라미터 모델 개발에 착수한다. 이를 위해 3년간 약 1조5000억원을 쏟아 붓는다. 일본어에 특화된 챗GPT 대항마 개발을 목표로 한다. 이 밖에도 이탈리아에선 현지 통신 사업자 패스트웹이 이탈리아로 훈련된 자체 LLM 구축에 나섰다.
한국은 정부 차원에서 강력한 지원에 나서고 있다지만 분야별로 엇박자가 나는 모습이 목격된다. 이성엽 고려대 기술경영전문대학원 교수는 “자국민 데이터를 다른 국가AI가 수집· 분석해서 이 사람을 낱낱이 알게 된다는 것은 국가 안보적으로 위험하다”라며 “데이터나 규제는 (자국 AI가 없는) 유럽 수준으로 만들어놓고 기술력은 미국 기업을 따라가라고 하는 것은 어불성설”이라고 꼬집었다.
어떤 AI가 대중화될 것인지 여부는 각국 문화와 경제력 등에 영향을 줄 것이기에 그만큼 중요하다. AI 스타트업 포티투마루의 김동환 대표는 “일본에서 만든 AI가 널리 쓰일 경우를 가정한다면 ‘독도는 어느 나라냐’고 물었을 때 일본식으로 생각하고 답하게 될 것”이라며 “학생들이 이런 AI를 통해 교육받고 자라면 문화도 종속될 수밖에 없다”고 지적했다. 그는 “AI는 온갖 곳에 다 쓰일 텐데 그렇게 되면 일상 생활을 할 때마다 외국 기업에 로열티를 줘야하는 상황이 생길 수 있다. 지금은 오픈AI가 어차피 원가 이하로 서비스를 제공하기 때문에 전략적으로 가격을 더 낮출 수 있지만, 결국 AI가 보편화되면 가격을 정상화할 것이다”라고 경고했다.