트웰브랩스는 멀티모달 AI가 영상 콘텐츠에 대해서 인간 수준의 이해를 할 수 있는 기술을 개발한 스타트업이다. 트웰브랩스의 마렝고(Marengo)와 페가수스(Pegasus) 파운데이션 모델은 100개 이상의 언어로 텍스트 요약과 오디오 번역을 제공한다. 또 음성에서 말한 내용을 영상에 표시된 내용과 맞추는 등 단어, 이미지, 소리가 서로 어떻게 관련되는지 분석할 수 있다. 콘텐츠 제작자는 또한 자연어 검색을 통해 쇼나 게임 내의 정확한 순간, 각도 또는 이벤트에 접근할 수 있다.
|
이재성 트웰브랩스 공동 창업자이자 최고경영자(CEO)는 “AWS는 우리에게 멀티모달 AI의 과제를 해결하고 영상을 더 접근 가능하게 만들 수 있는 컴퓨팅 파워와 지원을 제공했으며, 우리가 혁신을 지속하고 전 세계로 확장해 나갈 앞으로의 큰 협력을 기대한다”고 말했다. 또한, “트웰브랩스는 모델 훈련을 가속화하고, 전 세계 수천 명의 개발자들에게 안전하게 솔루션을 제공하며, 컴퓨팅 비용을 통제할 수 있다. 이 모든 것이 생성형 AI를 사용한 영상 이해와 제작의 경계를 넓혀가는 과정에서 이루어진다”고 덧붙였다.
존 존스는 AWS 스타트업 부문 부사장 겸 글로벌 책임자는 “트웰브랩스는 클라우드 기술을 통해 방대한 양의 멀티미디어 데이터를 접근 가능하고 유용한 콘텐츠로 전환해 다양한 산업 분야의 개선을 이끌고 있다”며 “영상은 지금까지 대부분의 시청자들이 이용할 수 없었던 귀중한 정보로, AWS는 트웰브랩스가 관련성 높은 콘텐츠를 더 잘 이해하고 신속하게 제작하는 데 필요한 도구를 구축할 수 있도록 지원했다”고 말했다.
한편 외부 개발자들은 AWS 마켓플레이스에서 사용 가능한 트웰브랩스 기반 모델을 통해 의미론적 영상 검색 및 텍스트 생성을 위한 애플리케이션을 만들 수 있다. 대량의 영상에 의존하는 미디어, 엔터테인먼트, 게임, 스포츠 및 기타 산업에서 활용 가능하다. 예컨대 스포츠 리그는 이 기술을 사용해 방대한 경기 영상 라이브러리를 카탈로그화하는 과정을 간소화해 실시간 방송을 위한 특정 프레임을 더 쉽게 검색할 수 있으며, 코치들은 이러한 기반 모델을 사용해 수영 선수의 스트로크 기술이나 단거리 선수의 출발 블록 자세를 분석하고, 조정해 나은 성과를 도출할 수 있다는 게 트웰브랩스의 설명이다.
이재성 CEO는 “세계 데이터의 약 80%가 영상 형태이지만, 대부분은 검색이 불가능하다”면서 “이제 우리는 이 문제를 해결하고, 인간이 주변 세계를 보고, 듣고, 이해하는 방식과 유사하게 맥락에 맞는 영상을 통해 생생한 경험을 제공하고 있다”고 강조했다.