마이크로소프트, 질문에 답하고 그려주는 '비주얼챗GPT' 선보여

[이데일리 강민구 기자] 마이크로소프트(MS)가 언어를 이해해 답해주고, 그려주고, 수정해 시각화 이미지로 만들어주는 새로운 챗봇 모델을 공개했다.

MS는 최근 오픈소스 공유 플랫폼 ‘깃허브(GitHub)’에 ‘비주얼챗GPT’ 모델을 공개했다. 여러 시각화 모델을 통합한 비주얼기초모델(Visual Foundation Model)의 도움으로 ‘챗GPT’가 사용자가 원하는 시각적 방식으로 표현하도록 돕도록 했다.

‘비주얼챗GPT’ 구현 사례.(자료=‘Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models’ 논문 일부 갈무리)

사용자가 비주얼챗GPT에 이미지를 올리거나 질문을 문자로 입력하면 모델이 해당 이미지와 문자를 분석해 새로운 이미지나 텍스트로 만들어 준다.

가령 사용자가 푸른 옷을 입은 노인의 사진을 올린뒤 “노인이 입은 옷 색깔은 무엇입니까?”라고 물으면 ‘노인이 입은 옷은 파란색입니다.“라고 답해준다. 또는 “그림을 잘 못그리니 사과를 그려달라”라고 하면 사과가 그려진 사진을 만들어준다.

사진 내용 일부도 바꿀 수 있다. 개를 안고 있는 소녀 사진에 대해 “근사하게 보이지만, 개를 고양이로 바꿔달라”고 하면 개만 고양이로 변환된 그림으로 변환한다.

연구진은 “비주얼 기초 모델을 통합해 사용자가 챗GPT와 상호작용할 수 있는 모델을 만들었다”며 “여러 입·출력 모델과 시각적 피드백을 고려한 결과로, 챗GPT가 시각적 역할을 하도록 문을 열어준다”고 설명했다.

‘비주얼챗GPT’ 구현 화면.(자료=GitHub)