MS는 최근 오픈소스 공유 플랫폼 ‘깃허브(GitHub)’에 ‘비주얼챗GPT’ 모델을 공개했다. 여러 시각화 모델을 통합한 비주얼기초모델(Visual Foundation Model)의 도움으로 ‘챗GPT’가 사용자가 원하는 시각적 방식으로 표현하도록 돕도록 했다.
|
가령 사용자가 푸른 옷을 입은 노인의 사진을 올린뒤 “노인이 입은 옷 색깔은 무엇입니까?”라고 물으면 ‘노인이 입은 옷은 파란색입니다.“라고 답해준다. 또는 “그림을 잘 못그리니 사과를 그려달라”라고 하면 사과가 그려진 사진을 만들어준다.
사진 내용 일부도 바꿀 수 있다. 개를 안고 있는 소녀 사진에 대해 “근사하게 보이지만, 개를 고양이로 바꿔달라”고 하면 개만 고양이로 변환된 그림으로 변환한다.
연구진은 “비주얼 기초 모델을 통합해 사용자가 챗GPT와 상호작용할 수 있는 모델을 만들었다”며 “여러 입·출력 모델과 시각적 피드백을 고려한 결과로, 챗GPT가 시각적 역할을 하도록 문을 열어준다”고 설명했다.
|