|
|
|
|
카카오의 인공지능(AI) 기술 자회사인 카카오브레인이 최근 이미지 생성 인공지능(AI)인 ‘칼로 2.0’을 공개했다. 내부 채널을 통해 응용프로그램인터페이스(API)도 공개했다. 칼로2.0은 올해 1월 공개한 베타버전의 업그레이드판이다. 실사(實寫)가 강조됐고, 영문과 국문 입력 모두를 지원한다. 칼로는 텍스트와 이미지 데이터셋을 학습해 이해한 문맥을 바탕으로 다양한 화풍과 스타일로 이미지를 만들어 준다.
한국어 입력 가능해진, 실사 같은 칼로2.0
김재인 카카오브레인부사장은 지난 6일 “오늘 오후에 채널(카카오디벨로퍼스 내 칼로 페이지)을 통해 칼로(Karlo)2.0의 API를 공개했다”면서 “예전에는 광고 이미지를 학습했는데 이번에는 실사같은 이미지를 위해 작품 같이 보이는 화풍으로 학습했다. 프롬프트(명령어)입력도 국문도 영문도 된다”고 말했다.
사실 카카오브레인은 지난 5월 ‘칼로2.0’ 개발을 완료했지만 최종 적용 테스트가 길어지면서 오픈이 한 달 이상 늦어졌다. 카카오는 왜 이미지 생성 AI부터 오픈한 걸까. 그리고, 코GPT 2.0(이름은 바뀔 예정)로 대표되는 한국어 특화모델 초거대AI는 공개를 11월로 늦춘 이유는 뭘까.
김 부사장은 “국내에서 이미지 초거대 AI 모델은 저희 밖에 안 해 자부심이 좀 있다”면서 “재작년에 GPT-2.0 수준의 코GPT를 공개했지만 빠르게 준비해서 시류에 타야 한다는 생각에 부족함이 있었다. 이젠 속도보다는 유의미한 품질로 내놓기로 했다. 내실을 다지면서 카카오 그룹이 AI로 한번 더 점프업되도록 기대하면서 개발중”이라고 했다.
칼로2.2는 미드저니 버전5와 경쟁
그의 말처럼 국내에서 이미지 생성 AI를 자체 모델로 서비스하는 회사는 카카오브레인 ‘칼로’가 유일하다.
토종 이미지 생성 AI인 라이언로켓의 ‘포킷’만 해도 대표적인 오픈소스 이미지 생성 AI인 ‘스테이블 디퓨전’ 등의 초거대 AI를 기반으로 만들었다. 그래서 ‘칼로’의 경쟁자는 ‘달리’나 ‘미드저니’다.
김재인 부사장은 “연내 공개될 칼로 2.2는 미드저니 버전5급으로 글로벌리 런칭할 예정”이라면서 “우리나라가 자체적으로 이미지생성 모델을 가져야 하는 이유는 이를테면 ‘한복’을 치면 기모노가 나오는 등 한국적인 것을 유지하고 발전시키기 위한 기술 확보가 국익에도 도움이 되기 때문”이라고 했다.
이용자 파인튜닝 막아 저작권 보수적으로
하지만, 이미지 생성AI는 세계적으로 저작권 침해 소송에 휘말려 있는 것도 사실이다. 스테이블 디퓨전 개발사인 스태빌리티AI는 이미지 판매 사이트인 게티이미지로부터 AI 모델의 사전 훈련과정에서 동의 없이 이미지를 가져다 썼다며 1조8000억 달러(약 2268조원)에 달하는 소송에 휘말렸다.
‘칼로’는 괜찮을까. 김 부사장은 “특정 화가 작품을 학습할 때는 그 작가와 계약하는 등 학습 데이터 활용에 보수적으로 접근하고 있다”면서 “칼로는 스테이블 디퓨전과 달리 모델 자체만 공개하고 이용자가 파인튜닝(미세조정)하지 못하게 하는 등 신중하게 하고 있다”고 답했다.
|
‘칼로’와 어도비의 ‘파이어플라이(Adobe Firefly)’는 시장이 겹치진 않을까. 그렇진 않을 전망이다. 칼로는 일반인, 마케터, 디자이너를 가리지 않고 활용 가능한 반면, 어도비 파이어플라이는 기존 어도비 소프트웨어(SW)의 기능에 생성형 AI를 결합한 것이어서 디자이너들이 타깃이다.
김 부사장은 “칼로100(Karlo 100X)프로그램을 이용해 저희는 기술에 집중하고 칼로를 활용하는 기업에 기술, 컨설팅, 인프라 등을 패키지로 지원하려 한다”면서 “일단 칼로부터 시작해 언어모델까지 (엑셀러레이팅이)가능해지도록 하겠다”고 했다.
추가 업데이트(카카오브레인 공식자료 배포)
기사 출고이후 10일, 카카오브레인이 ‘칼로 2.0’ 관련 공식 보도자료를 배포했습니다. 다음은 주요 내용
‘칼로(Karlo) 2.0’은 약 3억 장 규모의 텍스트-이미지 데이터셋을 학습한 초거대 AI 아티스트다.
|
글로벌 Top Tier 수준의 언어 이해력을 기반으로 완성도 높은 그림을 생성할 수 있는 성능을 갖췄다. 예를 들어 ‘밝은 파란 눈동자를 가진 고양이 (A cat has light blue eyes)’와 같은 복잡한 프롬프트(명령어)를 입력해도 이를 명확히 이해하고 그려낼 수 있다.
해상도는 최대 2048x2048을 지원한다. 생성하는 이미지의 해상도가 높을수록 다양한 이미지 사이즈로 작업이 가능해 사용자는 표현하고자 하는 이미지를 보다 심도 있고 섬세하게 그려낼 수 있게 됐다.
이미지 상의 공간감, 입체감, 동물의 털과 같은 텍스처를 디테일하게 표현하는 세밀함 등이 보강돼 실사에 가까운 고품질 이미지 생성이 가능하다. ‘모던 아티스트’ 등을 포함한 각종 화풍 구현 능력도 탁월하며, 이미지 생성 속도 역시 기존 모델 칼로 1.4 대비 단축돼, 3초 만에 사용자가 원하는 이미지를 만들어낼 수 있다.
국내 AI 생태계 발전을 위해 칼로 2.0 오픈 API(응용프로그램 인터페이스)도 카카오디벨로퍼스에 공개했다. 기존 칼로 1.4 모델로 제공하던 오픈 API를 칼로 2.0 모델로 업그레이드한 것. 칼로 2.0은 기존 칼로 1.4에 비해 다양한 크기 및 비율의 이미지 생성이 가능하며, 높은 프롬프트 이해도와 더불어 부정 명령어(Negative Prompt) 기능을 통해 이미지 생성 시 제외해야 하는 표현이나 키워드를 사전에 제어한다.
카카오브레인은 칼로 2.0 오픈 API를 선보이면서, 최대 500장까지 가능했던 무료 생성 이미지 수를 월 최대 60만 장까지 대폭 확대했다.
일반 스타트업 기업 또는 개발자가 사용할 수 있는 무료 이미지 생성 횟수를 글로벌 최대 규모로 확대함으로써 칼로 기술을 활용한 다양한 가치 창출을 지원하겠다는 카카오브레인의 의지가 담겨있다.
카카오브레인 김일두 각자 대표는 “인체 비율 및 구도, 공간감과 입체감을 표현하는 투시도 등 다양한 이미지 데이터 학습 및 기술 고도화 과정을 거쳐 칼로 2.0을 선보이게 됐다”며, “많은 데이터와 사용자 피드백을 학습시켜 실사 수준의 이미지를 생성하는 동시에 보다 다양한 사용자의 니즈를 반영할 수 있는 이미지 생성 모델로 발전시켜 나갈 것”이라고 말했다.
칼로 2.0 API에 대한 자세한 내용은 카카오디벨로퍼스 내 칼로 페이지에서 확인할 수 있다.