|
|
인류 역사상 가장 위대한 컴퓨터 프로그램으로 꼽히는 GPT-4의 다음 버전에선 사용자의 질문에 답변으로 도표를 받는 게 가능해질 것이란 전망이 나왔다.
오픈AI의 공동 설립자인 일리야 수츠케버(Ilya Sutskever)는 최근 엔비디아 AI 컨퍼런스인 ‘GTC2023’에서 젠슨황 엔비디아 CEO와 만나 이 같이 밝혔다.
일리아 수츠케버와 젠슨황은 먼저 GPT-4와 챗GPT(ChatGPT) 같은 생성형 AI 모델은 이미 역사상 가장 인기 있는 컴퓨터 애플리케이션이 됐다고 짚었다.
그러면서 수억 명의 사용자의 상상력을 사로잡고 있는 심층 신경망의 기능, 한계, 내부 작동 방식에 대해 이야기를 나눴다.
수츠케버는 “챗GPT와 비교했을 때 GPT-4는 여러 측면에서 상당한 개선이 이뤄졌으며, 새 모델은 텍스트뿐만 아니라 이미지도 읽을 수 있다”고 언급했다.
특히 그는 “향후 버전에서는 사용자가 응답으로 다이어그램(도표)을 돌려받을 수도 있을 것”이라고 했다.
GPT는 두단계 학습 사용
젠슨 황은 “챗GPT가 하나의 큰 언어 모델이라는 오해가 있지만, 그 안에는 여러 시스템이 존재한다”라고 말했다.
수츠케버는 “오픈AI가 두 단계의 학습을 사용한다”며 “첫 번째 단계는 일련의 다음 단어를 정확하게 예측하는 것이고 두번 째는 더 신뢰할 수 있게 만드는 것”이라고 했다. 그는 “신경망이 학습하는 것은 텍스트를 생성한 과정의 일부이며, 이는 세상을 투영한 것”이라며 “두 번째는 가드레일(보호막)을 포함해 우리가 원하는 것을 신경망에 전달하여 더 신뢰할 수 있고 정확해지도록 하는 것”이라고 설명했다.
창조의 순간에 함께
수츠케버는 대규모 데이터 세트로 훈련된 심층 신경망의 힘을 최초로 보여준 사람 중 한 명이다. 학술 경연 대회에서 AI의 선구자인 지오프 힌튼(Geoff Hinton)과 알렉스 크리제브스키(Alex Krizhevsky)와 함께 시연했던 알렉스넷(AlexNet) 모델은 인간보다 더 빠르게 이미지를 인식했다.
젠슨 황은 이들의 연구를 AI의 빅뱅이라고 불렀다.
황은 그 결과가 “매우 큰 차이로 기록을 깼고 여기에 불연속성이 있다는 것이 분명했다”라고 했다.
GPU 병렬 처리가 지닌 힘…‘확장’
이러한 혁신 중 일부는 그패픽처리장치(GPU)를 통해 모델에 적용한 병렬 처리에서 비롯됐다.
수츠케버는 “GPU에 매우 적합한 이미지넷 데이터 세트와 컨볼루션 신경망 덕분에 전례 없는 속도로 기존에 없던 새로운 것을 훈련시킬 수 있었다”고 말한다.
초기 작업은 토론토 대학교 실험실에서 몇 대의 지포스 GTX 580 GPU로 실행됐다.
최근에는 마이크로소프트 애저(Microsoft Azure) 클라우드 서비스에서 수만 대의 최신 엔비디아 A100 및 H100 텐서 코어(Tensor Core) GPU가 챗GPT(ChatGPT)와 같은 모델에 대한 학습 및 추론을 처리한다.
젠슨 황은 ”우리가 서로 알고 지낸 세월이 10년이다. 그동안 훈련한 모델은 약 백만 배의 성장을 이뤘다. 컴퓨터 과학 업계의 누구도 그 기간 동안 수행된 계산이 백만 배나 더 커질 것이라고는 믿지 않았을 것“이라고 했다.
수츠케버는 ”나는 보다 큰 것이 더 좋은 성능을 지닐 것이라는 강한 믿음을 가지고 있었고, 오픈AI(OpenAI)의 목표 역시 확장이었다“라고 했다.
최우선 순위는 AI 신뢰성
대화를 주고받으며 젠슨 황과 수츠케버 모두 웃음을 주고받았다. 수츠케버가 “인간은 한평생 10억 개의 단어를 듣는다”고 하자, 젠슨 황은 “내 머릿속으로 생각하는 단어도 거기에 포함되는지” 물었다. 그러자 수츠케버는 “그것까지 포함해 20억 개로 정정한다”고 웃으며 답했다.
두 사람은 AI의 전망에 대해 논의하며 한 시간 가까이 진행된 대담을 마무리했다.
GPT-4에 추론 능력이 있느냐는 질문에 수츠케버는 이 용어는 정의하기 어려우며, 아직은 개발 단계일 수 있다고 답했다.
그는 ”우리는 계속해 우리를 놀라게 할 수 있는 시스템을 보게 될 것이다. 최우선 순위는 신뢰성이며, AI가 무엇을 할 수 있는지에 대해 사람들이 믿음을 가지고, AI가 무언가를 모를 때 모른다고 말할 수 있는 지점에 도달해야 한다”고 덧붙였다.
황은 세션을 마무리하며 “오픈AI는 정말 놀라운 성과를 이뤘다. 박사 학위 수준을 넘어선, 대규모 언어 모델의 최첨단 기술에 대한 최고의 설명 중 하나”라고 했다.