이지은 한국IBM 최고기술책임자(CTO·전무)는 18일 서울 여의도 본사에서 기자들과 만나 “파운데이션 모델을 사용하면 AI를 학습시키기 위한 데이터 준비와 학습에 들어가는 시간과 비용을 크게 절감할 수 있다”며 “왓슨X는 조직이 다양한 파운데이션 모델을 쉽게 활용할 수 있도록 하는 라이브러리를 제공할 것”이라고 했다.
IBM 왓슨은 10여 년 전 미국 퀴즈쇼 ‘제퍼디’에서 사상 처음으로 인간 챔피언을 누르고 우승하며 주목받았다. 하지만, 당시 왓슨은 높은 비용 등으로 기업이 사용하기 어려웠던 면이 있었다.
|
|
◇5년 전 파운데이션 모델 개발
파운데이션 모델은 오픈AI의 ‘GPT-3’나 네이버 하이클로바처럼 라벨링되지 않은 방대한 양의 데이터를 사전에 학습한 AI 모델을 말한다. 이 전무는 “IBM도 이미 5년 전 파운데이션 모델을 만들었다”고 했다.
IBM의 전략은 기업이 이런 파운데이션 모델을 활용해 비즈니스를 위한 AI를 쉽게 구축하도록 하겠다는 것. 이 전무는 “기업은 다양한 AI 모델에 데이터를 학습시키고 유지 관리하는 데 상당한 어려움을 겪어왔다”며 “파운데이션 모델을 활용하면 라벨링 데이터를 이전보다 10~ 100배 적게 사용해 쉽게 적용할 수 있다”고 했다.
왓슨X 플랫폼은 파운데이션 모델을 제공하는 AI 개발 스튜디오 ‘왓슨X.ai’를 비롯해 데이터 저장소인 ‘왓슨X.데이터’, 자동화된 데이터·모델 수명 주기 솔루션 ‘왓슨X.거버넌스’ 등으로 구성됐다. 파운데이션 모델로는 현재 코드 생성 모델, 대규모 언어모델(LLM), 미 항공우주국(NASA)와 협업해 구축한 지리 공간 모델 등이 있다.
여기에 IBM은 허깅 페이스와 협력해 수천 개의 오픈소스 파운데이션 모델과 데이터 세트도 제공한다. 각각의 고객 비즈니스에 가장 적합한 모델과 아키텍처를 활용할 수 있도록 개방형 생태계를 구축하려는 접근 방식이다.
◇다양한 클라우드서 제공
특히 그는 IBM 파운데이션 모델의 차별성으로 “고품질의 데이터로 ‘선별’해 학습시켰다”는 점을 꼽았다. 기업이 쓰는 만큼 AI가 거짓 정보를 사실처럼 꾸며내거나 부적절한 언어를 사용하는 일이 적어야 하기 때문이다. IBM 파운데이션 모델은 언어뿐만 아니라 코드, 시계열 데이터, 표 형식 데이터, 지리공간 데이터, IT 이벤트 데이터 등 다양한 형식의 데이터를 학습하고 있다고 한다. 이 전무는 “왓슨X의 핵심은 신뢰”라고 했다.
이 전무는 “빅테크들이 컴퓨팅 비용은 고려하지 않은 채 더 많은 매개변수(파라미터)를 가지겠다는 식으로 접근하고 있는데, IBM은 파라미터 수를 늘리기보다 사전 학습 데이터의 품질, 기업 활용을 위한 플랫폼에 방점을 뒀다”고도 했다. 모델 크기가 너무 커지면 기업이 비용 문제로 활용하기 어렵다는 얘기다.
IBM은 왓슨X 플랫폼을 IBM이 아닌 다른 클라우드에서도 사용할 수 있게 할 계획이다. 이 전무는 “현재 시장의 트렌드는 하이브리드 클라우드”라며 “어떤 고객이든 하나의 클라우드만 사용하지 않고 있다는 상황을 고려한 것”이라고 설명했다. 현재 IBM은 마이크로소프트나 구글에 비해 클라우드 시장 점유율이 뒤진다.
IBM은 오는 3분기 왓슨 플랫폼을 베타 서비스로 제공한다. 오는 2025년까지 자사의 주요 AI 소프트웨어 제품 전반에 왓슨X.ai 기능을 도입할 예정이다.