4일 엔비디아 ''한국 LLM 개발자 데이'' 진행
LLM, 문맥 입력하면 다음 단어 ''확률''로 추출
"어려운 모델도 무료로 다운받아 사용 가능"
"맞춤형 모델로 비용 절감, 성과 높일 수 있어"
[이데일리 조민정 기자] “모든 기술은 시간이 지나면 진입장벽이 낮아져요. 챗GPT로 큰 관심을 끈 거대언어모델(LLM)도 대부분 접하기 어려웠지만 이젠 비교적 쉽게 활용할 수 있죠.”
인공지능(AI)에 ‘대한민국의 수도는?’이란 질문을 던지면 대체로 ‘서울’이란 답을 내놓는다. LLM은 인간의 언어를 이해하고 생성하도록 훈련된 AI 모델로 문맥을 입력하면 적절한 답을 내놓도록 한다. LLM은 주어진 문맥에 대한 다음 단어를 예측하는 구조로 움직이는데 질문에 대한 단순 답변뿐 아니라 언어 번역, 요약 등 다양한 결과 값을 내놓는다. 생성형 AI 열풍을 일으킨 챗GPT가 바로 LLM을 앞세운 인공지능이다.
| (사진=엔비디아) |
|
엔비디아는 4일 ‘한국 LLM 개발자 데이’를 열고 그동안 진입장벽이 높아 활용하기 어려웠던 LLM를 소개하고 쉽게 사용하는 방법을 공유했다. 이날 행사에서 LLM 기반 애플리케이션과 서비스를 개발하는 국내 개발자들은 실무적인 지침을 통해 사용 사례를 평가하고 필요한 정보를 얻는 시간을 가졌다.
첫 번째 세션으로 ‘LLM으로 빠르게 개발하기’를 진행한 이진호 엔비디아 솔루션 아키텍트는 “LLM은 관심도에 비해 병렬처리 등 복잡한 수식이나 기술이 필요해 어려웠지만 요즘엔 몇십억을 써서 학습된 모델도 무료로 다운받아서 사용할 수 있다”며 “사용자가 언어모델을 직접 학습하지 않아도 어떤 구조인지 알면 무언갈 입력했을 때 어떤 원리로 결과가 나오는지 이해할 수 있다”고 했다.
현재 사용되는 대부분 언어모델은 2017년 구글 브레인이 내놓은 트랜스포머(transformer) 모델을 기반으로 한다. 오픈AI가 세상에 내놓은 챗GPT의 알고리즘 근간이 된 모델이기도 하다. 트랜스포머는 문장 속 단어들의 관계를 추적해 맥락과 의미를 학습하는 신경망으로 최대한 많은 문장을 학습해서 확률을 측정해 결과를 도출한다. 가령 ‘하늘은’이라는 단어 뒤에 ‘파랗다’라는 말이 붙는다는 걸 학습하는 셈이다.
| 거대언어모델(LLM)의 발전 과정.(사진=엔비디아) |
|
이 아키텍트는 “확률로 움직이다 보니 가끔 ‘한국의 수도는?’이라고 질문하면 ‘미국의 수도는?’이라고 반문하며 단점이 나타나기도 한다”며 “퓨샷(Few-shot) 기능을 활용해 몇 가지 예시를 넣고 프롬프트(지시)를 만들어주면 오류를 줄일 수 있다”고 했다. 이어 “인종차별, 정치적 발언 등도 문제가 될 수 있는데 사용 규정인 ‘가드레일’을 개발해 이런 답변이 나올만한 주제에 답변하지 않는 식으로 억제하고 있다”고 덧붙였다.
홍광수 엔비디아 솔루션 아키텍트는 맞춤형으로 개발한 커스텀 LLM모델을 통해 저비용으로 효과적인 성과를 낼 수도 조언했다. 홍 아키텍트는 “잘 학습된 LLM 모델은 재학습하는데 많은 비용이 들고 내부에서만 사용하는 약어나 은어들은 학습 데이터에 포함되지 않아 원하지 않은 결과가 나올 수 있다”며 “최적화 모델을 사용하면 LLM 모델 크기도 줄어 비용 절약 효과도 있고 효율성이 더 높아질 것”이라고 했다.
엔비디아는 오픈AI의 최신 LLM인 GPT-4 훈련에 적용되는 그래픽처리장치(GPU) ‘H200’를 내년부터 본격적으로 양산한다. 행사 참가자들은 이날 △LLM으로 빠르게 개발하기 △활용 사례에 맞게 LLM 조정하기 △나만의 LLM 운영하기 등 3가지 세션을 통해 기술과 지식 공유 시간을 가졌다. 아울러 관리형 API, 자체 관리형 LLM, RAG(검색 증강 생성)를 사용해 애플리케이션을 △생성 △사용자 지정 △배포하는 방법도 함께 다뤘다.
| 거대언어모델(LLM)의 오류를 줄이기 위해 퓨샷(Few-shot)을 활용해 프롬프트(지시)를 주입하는 내용.(사진=엔비디아) |
|