특허 출원 중인 이상 감지 및 네트워크 격리 멀티 테넌시 기능으로 AI 및 HPC 클러스터의 최대 성능 유지 및 보안 리소스 공유 구현

고성능 컴퓨팅(HPC) 및 인공지능(AI) 인프라 솔루션의 선도 기업인 펭귄 솔루션(Penguin Solutions)이 최신 버전의 클러스터 관리 소프트웨어인 ‘ICE ClusterWare™ 13.0’을 출시했다고 발표했다. 이 새로운 버전은 프로덕션 규모의 AI 및 HPC 환경에서 발생하는 두 가지 중요한 과제, 즉 최대 클러스터 성능 유지와 다양한 사용자 그룹에 대한 단일 클러스터의 안전한 프로비저닝을 해결하는 강력한 신규 기능을 도입했다.
펭귄 솔루션의 소프트웨어 엔지니어링 부사장인 Sharri Parsell은 “AI가 실험적인 파일럿 단계에서 기업 규모의 배포로 지속적으로 진화함에 따라, 조직은 운영 우수성을 주도하고 기업 전체에서 AI 성공을 가능하게 하는 강력하고 지능적인 인프라를 필요로 한다”고 강조했다.
이상 감지 및 멀티 테넌시로 운영 효율성 극대화
ICE ClusterWare 13.0은 AI 배포가 고립된 파일럿 프로젝트에서 기업 전체의 프로덕션 환경으로 전환되면서 심화되는 운영 요구사항을 해결하기 위해 내장된 이상 감지 및 자동 복구 기능과 네트워크 격리 멀티 테넌시 기능을 제공한다.
- 특허 출원 중인 이상 감지 및 자동 복구 기술:
이 기술은 기존의 진단 도구가 놓치는 숨겨진 성능 저하를 지속적으로 모니터링하고 감지하여 최대 클러스터 성능과 리소스 가용성을 보장한다. 성능 저하가 감지되면, 시스템은 실시간으로 성능이 저하된 노드를 자동으로 격리하고 복구를 시작하여 검증된 고성능 노드에만 워크로드가 스케줄링되도록 한다. 이 사전 예방적 접근 방식은 관리 부담을 줄이고, 예상치 못한 다운타임을 방지하며, 클러스터의 사용 가능 용량을 극대화하여 작업 재시작 및 손실을 줄임으로써 모델 학습 시간을 크게 단축시킨다. - 네트워크 격리 멀티 테넌시:
새로운 선택적 기능인 네트워크 격리 멀티 테넌시는 조직이 고가치 GPU 클러스터를 안전하고 효율적으로 공유할 수 있게 하며, 다양한 부서, 프로젝트 또는 GPUaaS(GPU-as-a-Service) 고객을 지원하기 위한 전용 서브 클러스터를 생성한다. 이를 통해 테넌트(사용자 그룹)는 격리된 환경에서 자신의 워크로드 관리자를 선택하고, 사용자를 관리하며, 데이터 및 운영이 분리되고 안전하게 유지된다는 확신을 가지고 워크로드를 실행할 수 있는 자율성을 얻는다.
이 기능은 클라우드 서비스 제공업체 및 하이퍼스케일러, 내부 비즈니스 그룹에 AI 컴퓨팅을 제공하는 기업 및 연구 기관, 그리고 최고 수준의 보안 및 리소스 격리가 필요한 정부 기관에 필수적이다. 알버트 아인슈타인 의과 대학의 정보 기술 부학장 Shailesh Shenoy는 펭귄 솔루션과의 협력을 통해 생체 인식, 생명 과학 및 의료 연구에 필요한 AI 및 HPC 인프라를 구축하고 최적화하여 연구자들이 중단 없이 획기적인 연구를 계속할 수 있도록 지원했다고 밝혔다.
이처럼 보안 및 리소스 활용 충돌을 줄여 별도의 클러스터 구축이 강제되었던 문제를 해소함으로써 가치 실현 시간(time to value)을 획기적으로 개선한다. ICE ClusterWare 13.0 소프트웨어는 2025년 12월 2일에 일반 공급(General Availability)될 예정이다.
























![[그래프] 국회의원 선거 결과 정당별 의석수 (19대-22대) 대한민국 국회의원 선거 결과(정당별 의석 수)](https://i0.wp.com/icnweb.kr/wp-content/uploads/2025/04/main-image-vote-flo-web-2.jpg?resize=324%2C160&ssl=1)






