키사이트가 헤비리딩과 공동으로 발표한 ‘AI 클러스터 네트워킹 보고서 2025’는 전 세계 통신 및 클라우드 서비스 제공업체 전문가 103명을 대상으로 한 설문조사 결과를 바탕으로 작성되었다. 이 보고서는 AI 산업이 단순한 ‘성능 경쟁’의 시대를 지나 ‘지능적 최적화’의 시대로 전환하고 있음을 명확히 보여준다. AI 기술의 발전 속도가 인프라 확충 속도를 앞지르면서, 이제는 단순히 인프라를 늘리는 것이 아니라 기존 자원을 얼마나 더 똑똑하게 활용하는지가 핵심 과제로 떠올랐다.
보고서에서 드러난 주요 이슈는 다음과 같이 크게 세 가지로 요약할 수 있다.
1. 확장과 절약의 딜레마: ‘최적화’로의 전략 선회
AI 인프라 시장의 가장 큰 특징은 공격적인 투자 기조와 심각한 예산 압박이 공존한다는 점이다. 보고서에 따르면 응답자의 89%가 내년에도 AI 인프라 투자를 유지하거나 확대할 계획이라고 밝혔지만, 동시에 59%는 예산 제약을 가장 큰 걸림돌로 꼽았다.
이러한 모순적인 상황은 AI 인프라 운영 전략의 근본적인 변화를 이끌고 있다. 새로운 설비를 증설하기보다, 응답자의 62%는 추가 투자 없이 기존 인프라에서 더 많은 가치를 창출하는 것을 목표로 삼고 있다고 답했다. 이는 “더 빠르게(Faster)”가 아닌 “더 똑똑하게(Smarter)”라는 업계의 새로운 방향성을 보여준다. 성능 향상이 더 이상 새로운 하드웨어 도입만으로는 이루어질 수 없으며, 기존 자원의 효율을 극대화하는 최적화 능력이 곧 경쟁력이 되는 시대가 온 것이다.

2. 새로운 병목지대, ‘네트워크’
과거 AI 인프라의 성능이 GPU 등 컴퓨팅 자원에 의해 좌우되었다면, 이제는 ‘네트워크’가 새로운 병목 현상의 진원지가 되고 있다. AI 모델의 규모와 복잡성이 기하급수적으로 증가하면서 데이터 전송을 담당하는 네트워크 패브릭이 한계에 부딪히고 있는 것이다.
보고서에 따르면, 이미 응답자의 55%가 400G 네트워크를 도입했으며, 차세대 AI 워크로드를 지원하기 위해 800G(34%)와 1.6T(22%) 기술을 도입하거나 시험하고 있는 것으로 나타났다. 특히 주목할 점은 울트라 이더넷(Ultra Ethernet)과 같은 AI 및 고성능 컴퓨팅(HPC)에 특화된 새로운 네트워킹 기술에 대한 높은 관심이다. 응답자의 58%가 울트라 이더넷을, 62%가 소프트웨어 정의 네트워킹(SDN)을 고려하고 있다고 답해, 기존의 인피니밴드(InfiniBand)를 넘어 더 개방적이고 효율적인 표준을 찾으려는 움직임이 본격화되고 있음을 시사한다.

3. 현실과 동떨어진 테스트: ‘워크로드 에뮬레이션’의 부재
AI 인프라의 안정성과 성능을 보장하기 위해 실제와 같은 환경에서 테스트하는 것의 중요성은 아무리 강조해도 지나치지 않다. 응답자의 95%가 실제와 같은 AI 워크로드 에뮬레이션(모사)이 중요하다고 답한 것이 이를 증명한다. 에뮬레이션은 실험실 환경과 실제 운영 환경 간의 간극을 메우고, 실제와 유사한 트래픽 패턴을 통해 숨겨진 병목 현상이나 오류를 사전에 파악할 수 있게 해준다.
하지만 현실은 녹록지 않다. 다수의 응답자들이 실제 운영 환경 수준의 AI 워크로드를 효과적으로 복제할 도구가 부족하다고 지적했다. 가장 큰 테스트 과제로 ‘표준화된 벤치마킹 도구의 부재(56%)’와 ‘실제 AI 워크로드 재현의 어려움(56%)’이 꼽혔다. 이는 많은 기업들이 이론적 성능과 실제 운영 성능 사이의 불확실성 속에서 인프라를 구축하고 있음을 의미하며, 예측 가능하고 신뢰성 높은 AI 서비스를 제공하는 데 큰 걸림돌로 작용하고 있다.

결론적으로, AI 시대의 인프라 경쟁은 단순히 더 많은 장비를 도입하는 것을 넘어, 한정된 자원 안에서 최고의 효율을 뽑아내고, 네트워크 병목을 해결하며, 실제와 같은 환경에서 철저한 사전 검증을 수행하는 능력에 의해 좌우될 것이다. 보고서의 제목처럼, 이제 업계는 ‘병목 현상(Bottleneck)’을 넘어 이를 ‘지렛대(Leverage)’로 활용하는 지혜를 발휘해야 할 시점이다.