[기고] 서버팜, 시대에 뒤떨어지게 되다: 생성형 AI와 데이터센터

188

2024년 10월 24일

생성형 AI 애플리케이션을 실행하기 위해서는 고성능 컴퓨팅(HPC)이 중요하다. HPC 아키텍처는 다중의 컴퓨트 노드를 활용함으로써 복잡한 연산의 병렬 처리를 가능하게 한다

서버팜의 시대는 지났다.. 생성형 AI 기술이 데이터센터 모습 바꾼다

글_ 브랜든 루이스(Brandon Lewis) / 마우저 일렉트로닉스(Mouser Electronics)

[기고] 서버팜, 시대에 뒤떨어지게 되다: 생성형 AI와 데이터센터 — (image. microsoft copilot 이미지 생성)

기존 데이터 센터는 거대한 서버 팜들이 주름을 잡았는데, 생성형 AI의 등장으로 지각 변동을 맞게 되었다. AI에 대한 수요가 늘어남으로써, 기존의 서버 중심적 모델은 빠르게 시대에 뒤떨어지게 되었다. 이러한 변화는 단지 하드웨어를 업그레이드하는 것만의 문제가 아니라 데이터 센터를 어떻게 구축하고 가동할지를 재정의하는 것이기도 하다. 이 글에서는 이러한 변화를 가능하게 하는 기술들을 알아본다.

전통적 하드웨어에서 탈피

정교한 AI 모델이 자연어 처리(NLP)나 이미지 생성 같은 것들로 가능성의 한계를 끌어올리고 있으며, 이것은 데이터 센터를 자신의 한계 너머로 밀어붙이고 있다.

ChatGPT에 앞서 나온 GPT-3을 예로 들어보자. GPT-3은 1750억 개라고 하는 엄청난 숫자의 파라미터를 특징으로 함으로써, 효율적으로 가동하기 위해서 최소한 2,048개 GPU로 이루어진 분산형 시스템을 필요로 했다.[1] GPT-4는 정확한 파라미터 숫자가 얼마인지 OpenAI가 공개적으로 밝히고 있지는 않으나, 다수의 믿을 수 있는 출처와 전문가들의 추측에 따르면, 대략 1조7천억~1조8천억 개의 파라미터를 사용해서 작동할 것으로 추산된다.[2] 복잡성에 있어서 이와 같은 폭발적 증가는 단지 숫자 게임으로 그치지 않는다. 데이터 센터 아키텍처에 대한 전면적 재고를 필요로 하기 때문이다.

컴퓨팅 속도는 컴퓨팅 용량만큼이나 중요하다. 가상 현실 환경으로 시각적 콘텐츠를 생성하는 애플리케이션을 생각해 보라. 이러한 애플리케이션은 어지러움을 줄이기 위해서 90fps의 프레임 레이트를 필요로 한다. 다시 말하면 컴퓨팅 자원이 1초의 1/90에 콘텐츠를 생성할 수 있을 만큼 충분히 강력해야 한다는 뜻이다.[3] 이러한 요구는 첨단 데이터 센터로 저-지연 고-쓰루풋 시스템의 중요성을 말해준다. 실시간 프로세싱에 의존하는 애플리케이션으로 특히 그렇다.

이러한 새로운 요구들이 부상함으로써 CPU 중심적 서버 팜의 시대도 얼마 남지 않은 것으로 보인다. 이러한 기존의 틀이 효과가 점점 줄어드는 벽에 부딪힘으로써, 업계는 컴퓨팅, 메모리, 저장 자원을 분리시키는 이종 아키텍처를 향해서 나아가고 있다. 이러한 변화는 생성형 AI 워크로드의 고유의 요구에 따라서 자원을 좀더 세밀하고도 효율적으로 할당할 수 있도록 한다.

GPU 골드 러시와 그 이후

생성형 AI 애플리케이션을 실행하기 위해서는 고성능 컴퓨팅(HPC)이 중요하다. HPC 아키텍처는 다중의 컴퓨트 노드를 활용함으로써 복잡한 연산의 병렬 처리를 가능하게 한다.[4]

그래픽 프로세싱 유닛(GPU)이 본질적으로 이러한 접근법에 잘 맞는다. GPU는 병렬로 실행되는 수백 혹은 수천 개의 실행 유닛을 포함함으로써 AI 워크로드를 힘들이지 않고 처리할 수 있다.[5] 그런데 암호화폐 마이닝 같은 다양한 분야들로 GPU에 대한 수요가 폭증하고 있다는 것이 데이터 센터 디자이너들에게 큰 과제를 제기한다.[6] 가격이 상승하고 있으며 수급이 문제가 되고 있다.

이러한 수급 부족의 결과로서 여타의 전문적 프로세싱 유닛들에 대한 관심이 높아지고 있다:

FPGA(필드 프로그래머블 게이트 어레이): 이 유연한 칩은 낮은 지연시간과 하드웨어 차원의 병렬 처리를 특징으로 하므로, 특정한 데이터 중심적 분석 작업으로 최대 100배까지 더 빠를 수 있다.[7] AI 워크로드가 다양해지고 전통적 CPU가 효율적으로 처리할 수 없는 좀더 특수한 프로세싱 능력을 필요로 함에 따라서 FPGA가 갈수록 더 타당해지고 있다.

DPU(데이터 프로세싱 유닛): DPU는 암호화와 데이터 압축 같은 작업을 떠맡음으로써 CPU와 GPU가 좀더 집중적 워크로드를 처리하도록 작업 부담을 덜 수 있다. 그럼으로써 전반적인 전력 소모를 낮출 수 있다.[8] 전문적 저전력 코어들, 코프로세서, 고속 인터페이스를 사용해서 암호화, 데이터 압축, 서비스 품질(QoS) 관리 같은 작업을 처리할 수 있다. 이와 같은 작업들을 떠맡음으로써 성능을 최적화할 뿐만 아니라 전력 사용을 줄임으로써 데이터 센터의 총 유지비용을 낮추도록 한다.

NPU(신경망 프로세싱 유닛): 신경망의 구조와 기능으로부터 영감을 받은 NPU는 AI 및 머신 러닝 알고리즘을 가속화하고 최적화하도록 설계되었다. 이미지 인식과 자연어 처리 같은 작업에 탁월하므로 생성형 AI 애플리케이션에 유용하다.[9]

에너지 소비 증가

생성형 AI의 컴퓨팅 요구는 에너지 소비를 늘리는 것으로 이어진다. 평균적으로 ChatGPT 질의는 표준적 구글 검색보다 10배 더 많은 에너지를 소모한다는 점을 감안했을 때, 생성형 AI의 결과로서 2030년에 이르러 데이터 센터 전력 요구량이 왜 160퍼센트까지 폭증할 것으로 전망되는지 쉽게 이해할 수 있다.[10] 이러한 큰 폭의 증가는 가동 비용은 물론이고 성능과 지속가능성 사이에서 균형을 이루고자 하는 데이터 센터 사업자들에게 중대한 과제를 제기한다.

전기에 대한 이러한 갈망을 완화할 수 있는 한 가지 접근법이 전문적인 칩-대-칩 통신 프로토콜을 개발하는 것이다. NVIDIA의 직접적 칩-대-칩 인터커넥트 같은 이러한 프로토콜이 IC들 사이에 데이터 전송을 최적화함으로써 에너지 소비를 줄이도록 할 것이다.[11]

전망

생성형 AI 혁신은 단지 알고리즘을 개선하는 것만의 문제가 아니라 우리의 디지털 세상을 구동하는 물리적 인프라를 근본적으로 변화시키고 있다. 앞으로 데이터 센터는 이러한 AI 모델의 전례 없는 요구를 충족하도록 진화해야 할 것이며 그러면서 또한 중요한 에너지 효율 및 지속가능성 문제를 해결해야 할 것이다.

미래의 데이터 센터는 전문적인 프로세싱 유닛과 혁신적인 통신 프로토콜을 결합한 이종 아키텍처가 경이로움을 가져올 것이다. 이러한 전환을 성공적으로 헤쳐가는 기업이 경쟁에서 이기고 차세대 디지털 인프라로 표준을 정립할 것이다.

우리가 이러한 전환의 시대로 들어서려고 하는 이 때 확실한 것은, 미래의 데이터 센터는 자신이 호스팅하는 AI 모델의 능력만큼 지능적이고 유능할 것이라는 것이다. 바야흐로 컴퓨팅 능력과 효율에 있어서 새로운 장이 열리고 있다.

참조

[1] https://ieeexplore.ieee.org/document/10268594

[2] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

[3] https://ieeexplore.ieee.org/document/10268594

[4] https://www.netapp.com/data-storage/high-performance-computing/what-is-hpc/

[5] https://www.nvidia.com/en-us/glossary/high-performance-computing/

[6] https://www.ciodive.com/news/nvidia-gpu-data-center-revolution-jensen-huang/708273/

[7] https://www.dataversity.net/future-data-center-heterogeneous-computing/

[8] https://www.kalrayinc.com/blog/dpus-gpus-and-cpus-in-the-data-center/

[9] https://www.purestorage.com/knowledge/what-is-neural-processing-unit.html

[10] https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand

[11] https://developer.nvidia.com/blog/strategies-for-maximizing-data-center-energy-efficiency/

저자 소개

브랜든 루이스(Brandon Lewis)는 10년 넘게 소프트웨어 스타트업과 세계적인 반도체 회사와 그 사이의 모든 회사들을 위해서 딥 테크 저널리스트, 스토리텔러, 테크니컬 라이터로 활동하고 있다. 주로 다루는 영역은 전자 시스템 통합, IoT/인더스트리 4.0 구축, 에지 AI 활용 사례와 관련한 임베디드 프로세서, 하드웨어, 소프트웨어, 툴이다. 인정받는 팟캐스터, 유투버, 행사 사회자, 컨퍼런스 진행자이기도 하며, 다수의 전자 엔지니어링 전문 잡지에서 편집장과 테크놀로지 편집자를 역임했다.

제공: 마우저일렉트로닉스