프롬프트 넘어 하네스로…‘기업 AI’ 새 국면

[이데일리 신영빈 기자] 기업 인공지능(AI) 도입 경쟁이 거대언어모델(LLM) 자체 성능에서 데이터·업무 프로세스·권한·검증 체계를 설계하는 역량으로 이동하고 있다. 생성형 AI와 AI 에이전트 도입이 확산되고 있지만, 실제 기업 현장에서는 범용 모델을 그대로 붙이는 것만으로는 성과를 내기 어렵다는 인식이 커지고 있다.

11일 업계에 따르면 국내 IT서비스·클라우드 기업들은 AI를 업무 시스템과 안전하게 연결하는 ‘AI 하네스’에 주목하고 있다. AI 하네스는 범용 AI 모델이 기업 내부 데이터와 정책, 권한, 검증 기준 안에서 작동하도록 만드는 운영 체계다. 어떤 LLM을 쓰느냐보다 AI가 어떤 데이터를 참조하고, 어떤 도구를 호출하며, 어떤 답변은 사람이 검토해야 하는지를 설계하는 것이 핵심이다.

주민식 LG CNS AI선행기술연구소장이 6일 서울 코엑스에서 열린 ‘AI 테크’ 행사에서 발표하고 있다. (사진=신영빈 기자)

주민식 LG CNS(LG씨엔에스(064400)) AI선행기술연구소장은 지난 6일 서울 코엑스에서 열린 ‘AI 테크’ 행사에서 기업 AI 도입의 현실적 한계를 짚었다. 주 소장은 실제 기업 현장에서는 LLM 단독 적용보다 그래프 검색증강생성(RAG), 온톨로지, 멀티에이전트, 휴먼 인 더 루프(Human-in-the-loop) 구조가 중요하다고 설명했다.

주 소장은 “기업 AI는 LLM 하나로 끝나는 문제가 아니다. 제조 비전검사나 데이터센터 최적화 사례에서도 실제 성과를 좌우한 것은 모델 자체보다 골든 데이터셋, 안전 임계치, 전문가 가드레일, 검증 파이프라인이었다”며 “엔터프라이즈 AI에서는 AI가 어떤 기준 안에서 일하게 할 것인지를 설계하는 하네스 엔지니어링이 필수”라고 강조했다.

제조 현장의 비전검사 사례가 대표적이다. 기존 AI 비전 모델은 이미 학습한 불량 유형은 잘 분류하지만, 공정이나 재료 변화로 새로운 불량이 발생하면 이를 기존 분류 중 하나로 처리하는 경우가 있다. 이 경우 신규 불량을 즉시 인지하지 못하고 수율 저하가 나타난 뒤에야 사람이 원인을 분석하게 된다.

주 소장은 이 과정에서 AI 에이전트를 활용하면 모니터링과 모델 재학습 공수를 줄일 수 있지만, LLM 하나로 해결되는 문제가 아니라고 봤다. 실제로는 비전언어모델(VLM), 자동화 머신러닝(AutoML), 샘플링 모델, 비전 모델 등이 결합된 복합 파이프라인이 필요하다는 설명이다.

데이터센터 냉각 최적화 사례에서도 비슷한 메시지를 제시했다. 운영 중인 데이터센터에서는 냉각 팬을 임의로 끄고 켜며 실험하기 어렵다. AI가 최적 제어를 수행하려면 알고리즘뿐 아니라 전문가가 선별한 골든 데이터셋, 안전 온도, 임계치, 운영 제약 조건을 함께 설계해야 한다. 주 소장은 엔터프라이즈 AI에서는 모델 성능보다 이 같은 가드레일과 도메인 지식이 더 중요하다는 취지로 설명했다.

주 소장은 ‘AI 사이언티스트’ 실험도 언급했다. 문헌 조사, 보고서 작성, 데모 개발 등 연구 보조 업무는 AI가 상당 부분 단축할 수 있지만, AI가 스스로 결과를 평가하거나 새로운 개념을 창출하는 데는 한계가 있다는 것이다. 결국 기업 AI는 완전 자동화보다 사람이 중간에 검수·승인·수정하는 휴먼 인 더 루프 구조가 현실적이라는 진단이다.

AI 활용 방식은 프롬프트를 잘 쓰는 단계(2022~2024)에서, 다양한 정보를 맥락 안에 넣어 관리하는 컨텍스트 엔지니어링 단계(2025)로 이동했고, 이제는 AI가 실제 업무를 수행하는 전체 실행 환경을 설계·통제하는 하네스 엔지니어링 단계(2026)로 확장되고 있다는 의미다. 특히 에이전트 AI의 신뢰성을 확보하려면 단순 입력값 조정이 아니라 데이터, 도구, 권한, 검증, 로그 등 실행 전반을 관리하는 체계가 필요하다는 설명이다. (사진=Qianyu Meng 외, Agent Harness for Large Language Model Agents: A Survey 2026)

삼성SDS(삼성에스디에스(018260))도 유사한 문제의식에서 ‘AI 하네스’ 개념을 제시하고 있다. 최성철 삼성SDS IT트렌드 전문가는 지난 8일 삼성SDS 공식 홈페이지에 “AI가 회사의 업무 기준 안에서 작동하도록 만드는 ‘AI 하네스’ 체계가 필요하다”고 분석했다.

최 전문가는 AI 하네스에 대해 범용 AI를 기업 업무에 안전하게 연결하기 위해 데이터, 프롬프트, 모델, 권한, 검증, 로그, 피드백 루프를 하나의 업무 기준 안에서 관리하는 체계로 설명했다. 기업이 여러 AI 모델을 함께 쓰게 될수록 각 성능 차이보다 회사 기준 안에서 일관되게 작동하도록 통제하는 역량이 중요해진다는 의미다.

그는 AI 하네스의 목적이 답변 표현을 획일화하는 것이 아니라, AI가 같은 데이터와 권한, 정책, 검증 기준 아래에서 업무를 수행하도록 만드는 데 있다고 봤다. 기업 AI에서 중요한 것은 그럴듯한 답변보다, 해당 답변이 회사가 승인한 최신 정보와 업무 기준에 근거했는지를 확인할 수 있는 구조라는 설명이다.

국내 주요 IT서비스·클라우드 기업들의 전략도 이 흐름과 맞물려 있다. 삼성SDS는 패브릭스(FabriX)와 브리티(Brity)를 앞세워 기업 업무에 AI 에이전트를 연결하는 전략을 강화하고 있다.

LG CNS는 AX 플랫폼을 통해 기업 데이터를 기반으로 생성형 AI와 업무 시스템을 연결하는 사업을 확대하고 있다. SK AX는 제조·물류 AX 영역에서 현장 데이터와 운영 프로세스를 AI와 결합하는 방향을 제시하고 있으며, 네이버클라우드는 공공 업무에 특화한 행정 AI 에이전트 전략을 내세우고 있다.

업계에서는 기업 AI 경쟁이 단순한 모델 도입을 넘어 운영 체계 구축 경쟁으로 확장될 것으로 보고 있다. 범용 LLM 성능이 빠르게 상향 평준화되는 상황에서 실제 차별화는 내부 데이터, 업무 맥락, 권한 관리, 검증 절차, 운영 로그를 얼마나 촘촘하게 엮느냐에 달려 있다는 것이다.

결국 기업 AI의 성패는 “어떤 LLM을 쓰느냐”보다 “AI를 어떤 기준 안에서 일하게 만들 것인가”에 달릴 전망이다. AI 에이전트가 실제 업무를 수행하는 단계로 진입할수록 하네스 엔지니어링은 기업 AI 도입의 핵심 인프라로 부상할 가능성이 크다.