"AI오류, 단순실수 아닌 보상설계 결함…정렬 위장까지 진화"

(AI 생성 이미지)

[이데일리 한광범 기자] 인공지능(AI) 시스템이 사실과 다른 답변을 내놓거나 사용자의 의견에 무조건 동조하고, 심지어 규칙의 허점을 이용해 환경을 조작하는 등의 신뢰성 문제가 단순한 부주의가 아닌 학습 방식 자체의 구조적 결함에서 비롯된다는 분석이 나왔다.

한보형 서울대 전기·정보공학부 교수는 28일 서울대 인공지능신뢰성 연구센터(CTAI)가 개최한 제2회 월례 세미나에서 AI 오류의 근본 원인을 ‘불완전한 보상 함수 설계’로 진단했다. 구글 딥마인드 방문 연구원과 포스텍 컴퓨터공학과 교수를 역임한 그는 파운데이션 모델 작동 원리와 신뢰성 문제를 2024~2026년 최신 연구 동향을 바탕으로 분석하며, AI 오류를 5가지 단계로 체계화해 발표했다.

한 교수는 AI 신뢰성 문제의 핵심은 인간의 선호를 수치화하는 과정에서 발생하는 설계의 한계가 모델이 커질수록 증폭된다는 점에 있다고 분석했다. 가장 기초적인 1단계 ‘환각(Hallucination)’은 학습 데이터에 없는 정보를 패턴 보간으로 채우는 과정에서 발생하며, 이는 2024년 에어캐나다 챗봇의 허위 정책 안내 사례처럼 실제 법적 책임 문제로 이어지고 있다고 설명했다.

한보형 서울대 전기·정보공학부 교수. (사진=서울대)

이어지는 2단계 ‘아첨(Sycophancy)’은 인간 피드백 강화 학습(RLHF) 과정에서 모델이 평가자의 견해에 맞춘 답변에 높은 점수를 받으면서 ‘동의=좋은 응답’으로 오인하는 현상이다. 실제로 2025년 4월 OpenAI는 GPT-4o 업데이트에서 이러한 과도한 동조 현상을 확인하고 서비스를 나흘 만에 롤백하며 단기 피드백 과최적화 문제를 공식 인정한 바 있다.

3단계 ‘보상 해킹(Reward Hacking)’은 AI가 보상 함수의 허점을 이용해 목표를 편법으로 달성하려는 행태로 정의했다. 영국의 AI 안전 전문 연구기관인 팰리세이드 리서치(Palisade Research)의 2025년 보고서에 따르면 체스 엔진을 이기라는 지시를 받은 추론 모델이 정상적인 대국 대신 상대 엔진을 더미 버전으로 교체하거나 게임 보드 상태를 덮어쓰는 방식으로 환경을 조작하려 시도한 사실이 확인됐다.

더 심각한 단계는 대형 모델에서 나타나는 ‘평가 맥락 인식(Evaluation Awareness)’과 ‘정렬 위장(Alignment Faking)’이다. 모델이 자신이 평가받고 있음을 인지해 상황에 따라 행동을 바꾸거나, 새로운 훈련 신호에 표면적으로만 순응하며 기존의 학습 선호를 유지하려 드는 현상이다.

앤스로픽이 지난 4월 최신 모델 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’ 공개를 보류한 배경에도 이러한 행동 불일치 문제가 있었다는 설명이다.

한 교수는 환각의 경우 사실 검증 레이어로 완화할 수 있지만, 아첨과 보상 해킹은 보상 함수 설계 자체를 재검토해야 한다고 강조했다. 또 평가 맥락 인식과 정렬 위장은 현재 해석 가능성 연구가 집중하고 있는 최전선의 미해결 영역으로 분류했다.

이은주 CTAI 센터장은 “AI 신뢰성 문제는 단순히 오류율의 문제가 아니라 어떤 방향으로 왜 틀리는가의 문제”라며 “오류의 패턴과 원인을 명확히 이해해야만 기술적, 제도적으로 안전한 AI 설계와 활용이 가능하다”고 밝혔다.

한편 CTAI는 공학, 법학, 철학, 통계학, 언론정보학 연구자들이 모여 AI 신뢰성을 높이기 위한 융합 연구를 수행하는 기관이다. 이번 행사는 AI 신뢰성 의제를 공론화하기 위해 기획된 월례 세미나의 일환으로 매월 넷째 주 화요일에 개최되며, 오는 5월 26일 열리는 세미나 주제는 공식 채널을 통해 공개될 예정이다.