|
ARES는 기존 엔비디아(NVIDIA) GPU 인프라를 그대로 활용하면서도 추론 속도, 메모리 효율, 에너지 소비를 동시에 개선하는 하드웨어·소프트웨어 융합형 AI 가속 솔루션이다. 소테리아의 독자 기술인 ‘오프로딩 어텐션 실행(Offloaded Attention Execution)’과 ‘레이어 단위 프리패칭(Layer-wise Prefetching)’을 통합한 전용 가속기 LLMA(LLM Accelerator)를 탑재했다.
이 기술은 GPU-CPU 간 데이터 전송 병목과 KV 캐시 메모리 과점 문제를 해소해 GPU 메모리 활용 효율을 극대화하고 LLM 추론 지연(Latency)을 대폭 단축한다. 이를 통해 대규모 모델의 안정적 운영과 비용 절감을 동시에 실현할 수 있다.
엑스포 현장에서 ARES는 AI 데이터센터 및 글로벌 솔루션 기업들로부터 “즉시 상용화 가능한 실질적 LLM 최적화 기술”이라는 평가를 받으며, 소테리아의 기술 리더십과 사업 확장 가능성을 입증했다.
김종만 소테리아 대표이사는 “ARES는 연구실 기술이 아닌, 현장에서 즉시 효용이 입증되는 실질적 솔루션”이라며 “기술은 결국 고객이 체감해야 가치가 있다. 우리는 시장이 원하는 방향으로 기술을 발전시켜, 글로벌 AI 인프라 생태계의 효율 혁신을 선도하겠다”고 말했다.





