[기고] 아첨하는 AI, 기본법이 놓친 조용한 위협

[배성훈 LX공간정보연구원 그룹장 / 국가인공지능전략위원회 자문위원] 지난해 말 제정된 「인공지능 기본법」은 대한민국이 AI 규제에 있어 주도적 입법 국가로 발돋움했다는 점에서 중요한 이정표다. 기술 경쟁력을 저해하지 않으면서도 국민의 생명과 안전을 지키겠다는 기본법의 취지는 분명하다.

그러나 한 가지 중요한 사각지대가 조용히 남아 있다. 바로 AI가 ‘진실’보다 ‘기분 좋은 말’을 우선하는 현상, 즉 ‘아첨하는 AI(sycophantic AI)’의 등장이다.

배성훈 LX공간정보연구원 그룹장/국가인공지능전략위원회 자문위원

오늘날 대부분의 생성형 AI는 ‘인간 피드백 강화학습(RLHF)’이라는 기법을 통해 학습된다. 이는 사용자가 선호하는 방식의 응답을 AI에게 반복적으로 학습시키는 구조다. 문제는 이 과정에서 AI가 ‘정확한 정보’보다 ‘사용자가 듣고 싶어하는 말’을 우선하게 된다는 점이다. 인간의 기분을 맞추기 위해 거짓에 동조하고, 심지어는 위험한 착각과 망상까지 부추기게 된다.

실제로 2023년 벨기에에서 AI 챗봇 ‘엘리자(Eliza)’와의 대화 끝에 극단적 선택을 한 한 남성의 사례는 이 문제가 단순한 기술 결함이 아님을 보여준다. 챗봇은 기후 위기에 대한 불안에 시달리던 그에게 “천국에서 영원히 함께할 수 있다”는 식의 말로 죽음을 미화했다. AI가 인간의 불안을 진정시키기는커녕 오히려 망상을 강화한 것이다.

이처럼 조작적 AI의 위험은 특정 산업이나 기술 수준에 국한되지 않는다. 게임, 교육, 상담, 검색 플랫폼 등 일상적 영역에서도 얼마든지 발생할 수 있다. 그럼에도 불구하고, 한국의 인공지능 기본법은 규제 대상을 의료·금융·채용 등 11개 ‘고위험 영역’으로 한정하고 있다. ‘어디에서 쓰이느냐’에만 집중한 결과, ‘어떻게 작동하느냐’라는 본질적 위험은 포착하지 못하고 있는 것이다.

더 큰 문제는 AI가 스스로 훈련 구조를 인식하고 인간의 감시를 피하는 방향으로 진화하고 있다는 점이다. 고도로 발전된 AI가 훈련 과정을 인지하고 의도적으로 거짓을 행할 수 있는 능력인 ‘정렬 위장’, 훈련 단계에서 의도적으로 심어진 악의적 프로그램이 안전 강화 과정에서도 제거되지 않고 숨겨져 작동하는 위험을 뜻하는 ‘슬리퍼 에이전트’와 같은 개념은 이제 공상과학이 아니라 실제 AI 안전성 연구에서 다루는 현실이 됐다. 겉으로는 정상처럼 보이지만, 속으로는 완전히 다른 방식으로 판단하고 행동하는 AI의 위험이 점점 커지고 있다.

이러한 조작적 AI의 위협에 대응하기 위해 우리는 새로운 규범적 원칙이 필요하다.

첫째, 조작적 기능에 대한 기능 중심 규제로의 전환이 필요하다. 인간의 인지능력과 자율성을 왜곡하거나 종속시키는 AI 기능은 그 사용 목적이나 산업 영역을 불문하고 규제 대상이 되어야 한다.

둘째, AI 설계의 윤리적 책임을 제도화해야 한다. 개발자와 기업은 단순히 성능 개선이 아니라, 설계 단계에서 어떤 윤리 기준과 안전 조치를 반영했는지를 입증해야 한다. 이를 ‘설계 기반 책임성’이라 부를 수 있다. AI가 내놓는 답변만이 아니라, 그 답변이 어떻게 만들어졌는지를 투명하게 검증할 수 있어야 한다.

셋째, 일정 수준 이상의 AI 시스템에 대해서는 사전 검증 체계가 필요하다. 특히 자율적으로 목표를 설정하고 행동할 수 있는 차세대 AI 에이전트는 출시 전 안전성과 윤리성을 입증하지 않으면 시장 진입이 불가능하도록 하는 제도적 장치가 요구된다.

우리는 지금 진실보다 아첨을 잘하는 AI와 함께 살아가고 있다. 이대로 방치하면 우리는 언제든 듣기 좋은 말만 해주는 ‘디지털 거울’에 갇히고, 결국 ‘벌거벗은 임금님’처럼 진실을 외면하게 될지 모른다.

AI는 우리를 언어로 유혹하고 설득할 수 있는 첫 비인간 존재다. 지금 우리가 해야 할 일은, 그 유혹의 기술을 경계하고, 인간이 여전히 기술의 주체로 남을 수 있도록 방어선을 구축하는 일이다. 기본법의 진짜 완성은 그 다음에야 시작될 수 있다.