"AI, 이미지 설명 만들 때 맥락파악 중요"..LG 워크숍에 구글·MS 모였다

by최영지 기자
2023.06.19 16:30:16

LG AI연구원, 'CVPR 2023' 앞서 '캡셔닝 AI' 워크숍 개최
'생성형 AI' 첫 상용화…이미지 보고 10초 내 5개 문장 생성
"양질 데이터로 환각 줄이고 지식학습 늘려야"

[벤쿠버=한국과학기자협회 공동취재단·이데일리 최영지 기자] “편견과 고정관념을 지우고 상식·지식과 맥락을 파악하는 이미지 캡셔닝 기술을 진화시켜야 합니다.”(애나 로르바흐 미국 버클리 캘리포니아대 연구원)

LG AI연구원이 20~22일(현지시간) 캐나다 벤쿠버 컨벤션센터에서 열리는 세계 최대 컴퓨터 비전 학회 ‘CVPR 2023’에 앞서 18일 개최한 워크숍에서 전문가들이 이같이 ‘캡셔닝 AI’의 중요성을 강조했다. LG AI연구원은 ‘CVPR 2023’에서 캡셔닝 AI를 첫 공개한다. 캡셔닝 AI는 AI가 인간처럼 처음 보는 물체나 장면에 대해 자연어로 설명할 수 있는 기술로, 평균적으로 10초 내에 5개 문장과 10개 키워드를 생성할 수 있어 향후 이미지 검색 시장에 변화를 가져올 것으로 전망된다.

18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 LG AI연구원 주관으로 열린 워크숍 현장 입구에서 참석자들이 대기하고 있다. (사진=LG)
이날 워크숍에 강연자로 참석한 글로벌 전문가들은 이미지 캡셔닝 AI모델을 보다 진보시키기 위한 기술적 과제가 필요하다는 목소리를 냈다. 이들은 전 세계에서 이미지 캡셔닝 연구를 주도하고 있다.

LG(003550) AI연구원은 학회 기간 중 LG 부스를 방문한 연구자들을 대상으로 캡셔닝 AI 서비스를 시연할 계획이다. 캡셔닝 AI는 ‘생성형 AI’ 상용화 서비스로, 사람처럼 처음 보는 이미지를 자연어로 설명할 수 있다. AI가 인간처럼 처음 보는 물체나 장면에 대해 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술을 적용했다는 게 LG 설명이다.

워크숍에선 이미지 캡셔닝 기술 구현의 조건과 어려움에 대한 이야기도 오갔다. 질 좋은 데이터로 맥락·지식 학습 늘려야 한다는 목소리도 나왔다. 애나 로르바흐 미국 버클리 캘리포니아대(UC버클리) 리서치 사이언티스트(연구원)는 “AI가 이미지를 이해하고 대표성을 확보한 설명을 만들어내려면 ‘맥락(Context)’ 선택이 중요하다”고 했다.

로르바흐 연구원은 이미지 캡셔닝 AI의 대표적인 문제로 꼽히는 ‘환각(Hallucination)’을 줄이는 기술도 필요하다고 강조했다. AI 분야에서 환각은 AI가 주어진 데이터 또는 맥락에 근거하지 않은 잘못된 정보를 생성하는 경우를 말한다. 거짓을 마치 사실처럼 제시하는 경우다.



코르델리아 슈미드 구글 리서치 프랑스 연구원이 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 LG AI연구원 주관으로 열린 워크숍에서 이미지 캡셔닝 전략에 대해 발표하고 있다. (사진=LG)
코르델리아 슈미드 프랑스 국립컴퓨터과학연구소 연구책임자 겸 구글 리서치 프랑스 연구원은 위키피디아 내 정보와 사진을 검색하며 지식을 늘려가는 방식으로 대규모 메모리를 만드는 이미지 캡셔닝 전략을 소개했다. 이를 활용하면 사진을 보고 지식이 필요한 질문을 할 때 컴퓨터가 정보를 빠르게 검색하고 답할 수 있다는 것이다.

슈미드 연구원은 “대규모 지식을 축적함으로써 시각적 질문에 대한 답변 뿐 아니라 이미지 캡셔닝에서도 최고 성능을 얻을 수 있다”고 말했다.

하미드 팔랑기 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수는 ‘이미지 캡셔닝 평가의 어려움’을 주제로 발표하며 “AI가 생성한 이미지 캡션의 맥락은 이해하기 복잡하고 어렵다”며 “이미지 캡셔닝 평가가 어려운 이유는 AI 언어 모델 자체의 문제일 수도 있고 데이터나 다른 기능 등 다방면에서 문제가 발생할 수 있기 때문”이라고 설명했다.

그러면서 “이같은 문제는 모든 AI 연구자들이 함께 풀어야 하는 문제”라면서 “더 정교한 AI 모델을 만들기 위해 더 많은 문제제기가 필요하다”고 말했다.

잭 헤셀 미국 앨런인공지능연구소 사이언티스트도 이미지 캡셔닝의 성능을 높이려면 AI가 상식을 뛰어넘는 추론을 할 수 있도록 정교해져야 한다고 강조했다. 그는 “대규모 어휘를 학습한 모델도 전체적인 장면 이해에 필요한 요소가 상식에 맞지 않아 놓치는 경우가 많다”며 “현상을 관찰해 가장 설득적인 설명을 만드는 귀추법 등을 적용할 필요가 있다”고 설명했다.