AI '엉터리' 논문·리뷰 속출…'5편중 1편' 학계 비상
by방성훈 기자
2026.02.02 11:50:47
컴퓨터과학 논문 22%가 AI로 작성…리뷰도 21%
허위 출처·도표 오류 급증 등 할루시네이션 난무
주요 학회들 "연구 신뢰 훼손…LLM 사용 제한"
“투자자·기업 관심 끌기 위해 논문 마구 쏟아내”
[이데일리 방성훈 기자] 인공지능(AI)이 작성한 논문·리뷰에서 오류가 대거 확인되며 저품질 논란이 일고 있다. 학계에서는 신뢰 훼손에 대한 우려와 함께 대형언어모델(LLM)의 사용을 제한하는 움직임이 확산하고 있다.
파이낸셜타임스(FT)는 1일(현지시간) ‘AI 슬롭’(AI slop)이라 불리는 저품질의 AI 생성물이 학계의 신뢰를 훼손하고 있다는 우려가 커지면서, 최근 주요 AI 학회들이 논문과 심사에 LLM 사용을 제한하고 있다고 보도했다. 그럴싸해 보이는 ‘할루시네이션’이 난무하고 있어서다.
스탠퍼드대가 지난해 8월 발표한 조사에 따르면 컴퓨터과학 논문의 최대 22%가 LLM을 사용한 것으로 나타났다.
스타트업 팽그램 분석에서는 지난해 ‘국제학습표현학회’(ICLR) 논문 리뷰 중 21%가 완전히 AI로 작성됐으며, 절반 이상은 편집 등 일부 단계에 AI가 사용된 것으로 조사됐다. 또한 제출된 논문 가운데 9%는 내용의 절반 이상이 AI가 생성한 것으로 파악됐다. ICLR 심사자들은 지난해 11월 AI가 작성한 것으로 의심되는 논문이 상위 17% 평가 점수를 받아 선정된 사례를 발견했다.
AI 탐지 기업 GPT제로가 올해 1월 발표한 자료에 따르면 또 다른 주요 학회인 ‘신경정보처리시스템학회’(NeurIPS)는 작년 한 해 동안 50편의 논문에서 100건이 넘는 AI 생성 오류를 발견했다. NeurIPS는 첨단 AI 연구 논문이 발표되는 가장 권위 있는 학회로 꼽힌다.
아이러니하게도 LLM 사용에 따른 AI 슬롭의 부작용이 AI 관련 연구 분야에서 두드러지고 있는 것이다. 연구자들은 품질이 낮은 AI 생성 콘텐츠가 급증하면서 허위 주장과 조작된 내용을 양산, AI 연구의 신뢰성과 학문적 진정성을 해칠 위험이 있다고 경고하고 있다.
캘리포니아대 버클리캠퍼스의 AI 연구자인 이니올루와 데보라 라지는 “AI가 다른 분야를 재편한다는 열기가 뜨겁지만, 정작 AI 분야 자체는 AI의 무분별한 사용으로 혼란을 겪고 있다”고 지적했다.
이처럼 학계 내 AI 사용이 문제로 떠오르자 ICLR은 최근 가이드라인을 수정해 LLM 사용을 공개하지 않으면 논문을 거부하겠다는 방침을 밝혔다. 또한 AI로 작성한 저품질 논문 리뷰를 제출한 연구자는 본인의 논문 역시 심사 대상에서 제외될 수 있다고 경고했다.
UC버클리의 하니 파리드 컴퓨터과학 교수는 “명백히 수준 이하의 잘못된 논문을 계속 내면서 사회가 연구자를 신뢰하길 바란다면 그건 모순이다”라고 일축했다.
AI의 무분별한 사용은 지난해 논문 수가 급증한 것에서도 확인된다. NeurIPS는 지난해 2만 1575건의 논문을 접수했다고 밝혔다. 이는 2020년 9467건, 2024년 1만 7491건 등과 비교해 크게 늘어난 수치다. 한 연구자는 무려 100편이 넘는 논문을 NeurIPS에 제출한 것으로 알려졌다.
오리건주립대 명예교수이자 arXiv 컴퓨터과학 부문 의장인 토머스 G. 디터리히는 “무료 논문 저장소 arXiv에서도 컴퓨터과학 관련 논문이 크게 증가했다”면서도 “논문 증가가 LLM 사용 증가 때문인지, 아니면 단순히 연구자 수 증가 때문인지는 명확하지 않다”고 말했다.
디터리히 교수는 “참고문헌 목록에 존재하지 않는 인용이 들어가 있거나, 도표가 잘못된 경우가 전형적인 신호”라며 “이런 사례의 작성자는 앞으로 일정 기간 arXiv에 논문을 제출할 수 없을 것”이라고 예고했다.
AI 생성 논문을 탐지하기 어려운 이유는 업계 전반에 걸쳐 신뢰할 수 있는 판별 기준이나 방법이 아직 없기 때문이다. 일부 전문가들은 ‘상업적 동기’가 결합된 LLM 확산이 연구자들로 하여금 ‘질보다 양’을 중시하게 만들었다고 비판한다. 투자자·기업 등의 관심을 끌기 위한 성과 위주 연구 풍토가 조성됐다는 것이다.
비평가들은 “AI 연구자들이 가능한 한 많은 논문을 내는 문화가 조성돼 있다. 이 때문에 일부 연구자들은 과정을 생략하거나 지름길을 택하고 있다”고 입을 모았다. 라지 연구자 역시 “화려한 시연, 높은 연봉, 과열된 기업 경쟁이 ‘외부인’의 관심을 폭증시킨다”고 꼬집었다.
전문가들은 올바른 방식으로 AI 도구를 연구에 활용할 수 있는 많은 방법이 있다고 조언한다. 예를 들어 브레인스토밍 보조 및 교정 등은 연구 효율을 높이는 유용한 수단이 될 수 있다는 것이다. 디터리히 교수는 “중국발 논문의 영어 표현력이 급격히 향상됐다”며 “LLM이 영어 문장을 자연스럽게 다듬는 데 매우 능숙하기 때문일 것”이라고 말했다.그러나 구글, 앤스로픽, 오픈AI 등 선도 기업들은 생명과학 등의 분야에서 연구를 가속화할 수 있는 LLM을 ‘공동 연구자’(co-scientist) 모델을 적극 홍보하고 있다.
AI 기업들은 과학 연구용 모델을 개발할 때 학술 데이터베이스에서 대규모 데이터를 수집해 학습시킨다. 이들 자료에 AI가 생성한 논문이 점점 더 많이 포함되면, 오히려 모델의 성능이 저하되는 역효과가 생길 수 있다.
이에 따라 AI 도구 사용 방식의 중요성이 더욱 커지고 있다. 오픈AI의 과학 총괄 케빈 와일은 “LLM은 다른 모든 도구와 마찬가지로 책임감 있게 사용해야 한다”며 “새 영역을 탐구하는 강력한 가속기가 될 수 있지만, 결국 검증 과정은 필수이며 연구의 엄밀함을 대신할 수는 없다”고 강조했다.
한편 캐나다 몬트리올대 등 연구팀은 AI과 인간 10만명의 발상 능력을 비교한 연구에서 “평균 점수는 AI(85점)가 인간(80점)보다 높지만, 상위 10% 집단에선 최고 성능의 AI조차 인간(90점)에 뒤처지는 것으로 나타났다”며 “현재 수준의 AI로는 가장 창의적인 인간들을 완전히 대체하기 어렵다는 것을 시사한다”고 평가했다.