CEVA, AI/ML 추론 워크로드를 위한 프로세서 아키텍처 뉴프로-M 발표-아이씨엔매거진

인공지능 및 머신러닝(AL/ML) 추론 워크로드를 위한 최신 프로세서 아키텍처 NeuPro-M(뉴프로-M)

무선 커넥티비티 및 스마트 센싱 기술의 선두적인 라이선스 기업 CEVA가 인공지능 및 머신러닝(AI/ML) 추론 워크로드를 위한 최신 프로세서 아키텍처 NeuPro-M(뉴프로-M)을 발표했다.

CEVA NeuPro-M은 광범위한 엣지 AI(Edge AI)와 엣지 컴퓨팅(Edge Compute) 시장을 대상으로 하는 독립적인 이종 아키텍처이다. 심층 신경망의 다양한 워크로드를 동시에 원활하게 처리하는 다중의 특화 코프로세서(co-processor)이자, 설정 변경이 가능한 하드웨어 가속기로 이전 모델 대비 하드웨어의 성능을 5-15배 향상시킨다.

여기에 업계 최초로 시스템온칩(SoC)과 이종 시스템온칩(HSoC)의 확장성을 모두 높이고 최대 1,200TOPS(초당 10조회의 연산 속도)에 달하는 성능을 발휘토록 했다. 또한 강력한 보안 부팅 및 엔드 투 엔드(end-to-end) 데이터 개인 정보 보호 옵션을 제공한다.

NeuPro-M은 기존의 모든 신경망 아키텍처를 처리한다. 변압기, 3D 콘볼루션(convolution), 셀프 어텐션(Self-attention) 및 모든 유형의 순환 신경망(recurrent neural networks, RNN)과 같은 차세대 네트워크에 대해 준비가 되어 있으며, 250개 이상의 신경망과 450개 이상의 AI 커널 및 50개 이상의 알고리즘을 처리하는데 최적화되었다.

또한 내장형 벡터 프로세싱 유닛(VPU)은 새로운 신경망 토폴로지와 AI 워크로드의 발전에 대해 미래에 사용 가능한(future proof) 소프트웨어 기반의 지원을 보장한다. 특히 CDNN(CEVA Deep Neural Network) 오프라인 압축 툴은 정확도에 미치는 영향을 최소화하면서 일반적인 벤치마크에 대해 NeuPro-M의 FPS/와트를 5-10배까지 높인다.

점점 더 많은 데이터가 생성되고 센서 기반 소프트웨어 워크로드가 성능과 효율성을 향상시키고자 신경망으로 이동함에 따라, 엣지 AI와 엣지 컴퓨팅에 대한 AL/ML 프로세싱 수요가 빠르게 증가하고 있다. 따라서 우리는 기기에 대한 전력 소모를 증가시키지 않고 점점 더 정교해지는 시스템에서 엣지 AI를 활용할 수 있는 새로운 방법을 찾아야 한다.

CEVA 비전 비즈니스 유닛 부문 부사장이자 제너럴 매니저인 랜 스니르(Ran Snir)는 “NeuPro-M은 드론에서 보안 카메라, 스마트폰, 오토모티브 시스템에 이르는 수백만 대의 기기에 AI 프로세서와 가속기를 탑재한 자사의 경험을 바탕으로 설계되었다. 혁신적인 분산형 아키텍처와 공유 메모리 시스템 컨트롤러는 대역폭과 지연 시간을 최소화하고 전체 사용률과 전력 효율성을 극대화한다.”고 밝히고, “시스템온칩과 칩렛(Chiplet)에서 다수의 NeuPro-M 컴플라이언트 코어를 연결해 가장 까다로운 AI 워크로드를 해결할 수 있으므로, 고객은 스마트 엣지 프로세서 설계를 한 단계 더 업그레이드할 수 있게 되었다”라고 말했다.

NeuPro-M 프로세서는 사전 구성된(pre-configured) 코어가 우선 릴리즈될 계획이다.

1. NPM11 – 1.25GHz에서 최대 20TOPS에 달하는 단일 NeuPro-M 엔진

2. NPM18 – 1.25GHz에서 최대 160TOPS에 달하는 8개의 NeuPro-M 엔진

최첨단 성능을 지닌 단일 NPM11 코어는 ResNet50 신경망(convolutional neural network, CNN)을 처리할 때, 이전 모델에 비해 성능은 5배 향상시키고 메모리 대역폭은 1/6로 감소시켜 와트당 최대 24TOPS의 탁월한 전력 효율을 제공한다.

NeuPro-M 아키텍처 주요 기능

2-16비트의 다양한 정확성을 갖춘 4K MACs(Multiple And Accumulates)으로 구성된 메인 그리드 어레이
Weights 및 activations를 위한 위노그라드(Winograd) 변환 엔진의 탑재로 콘볼루션 시간을 ½로 단축하고, 정밀도 저하가 0.5% 미만인 8비트 콘볼루션 프로세싱 가능
희소성(Sparsity) 엔진을 통해 제로 밸류(zero-value)를 갖는 layer별 weights 혹은 activations 작업을 생략하여 최대 4배의 성능을 향상시킴과 동시에 메모리 대역폭과 전력 소비량을 감소
새로운 신경망 아키텍처는 32비트의 부동 소수점(Floating Point)에서 2비트 이진신경망(Binary Neural Networks)에 이르는 모든 데이터 유형을 지원. 이를 처리하는 완전하게 프로그래밍할 수 있는 벡터 프로세싱 유닛
메모리 대역폭을 절감하기 위해 메모리를 저장하는 동안 가변적 Weight과 데이터 압축으로 2비트까지 낮추고, 데이터를 읽는 동안 실시간 압축 해제 가능
외부 SDRAM으로 데이터를 전송하는데 소비되는 전력을 최소화하도록 동적으로 구성된 2단계 메모리 아키텍처

NeuPro-M 아키텍처의 이러한 혁신적인 기능을 입증하기 위해 위노그라드 변환과 희소성 엔진 및 저해상도 4×4 비트 활성화의 직교 기법을 동시에 사용하면, Resnet50와 Yolo V3와 같은 테스트에서 네트워크의 처리 속도를 3배 이상 증가시킬 수 있다.

더불어 신경망 Weights와 Biases, 데이터 세트와 네트워크 토폴로지가 소유자의 핵심 지적 재산이 됨에 따라, 이를 무단 사용하는 것으로부터 보호해야 할 필요성이 대두되었다. 이에 NeuPro-M 아키텍처는 선택적 신뢰 루트, 인증 및 암호화 가속기 형태의 안전한 액세스를 지원한다.

또한 오토모티브 시장의 경우에는 NeuPro-M 코어와 CDNN(CEVA Deep Neural Network) 딥러닝 컴파일러 및 소프트웨어 툴킷은 ISO26262 ASIL-B 기능 안전 표준을 준수하고 있으며 엄격한 품질 보증 표준인 IATF16949와 A-Spice를 충족한다.

NeuPro-M은 CEVA의 신경망 컴파일러인 CDNN과 강력한 소프트웨어 개발 환경과 함께, 고객이 AI 성능을 극대화할 수 있도록 완전하게 프로그래밍할 수 있는 하드웨어/소프트웨어 AI 개발 환경을 제공해 준다. CDNN에는 고객의 NeuPro-M 맞춤형 하드웨어를 충분히 활용해 전력과 성능, 대역폭을 최적화할 수 있는 혁신적인 소프트웨어가 포함되어 있다. 메모리 감소와 최적의 부하 균형 기법을 위한 메모리 매니저를 포함하며, ONNX(Open Neural Network Exchange), Caffe, 텐서플로우(TensorFlow), 텐서플로우 라이트(TensorFlow Lite), 파이토치(Pytorch) 등을 포함한 다양한 네트워크 포맷을 광범위하게 지원한다. 또한 Glow, tvm, Halide, 텐서플로우 등 일반적인 오픈소스 프레임워크와 호환되며, 정밀 보존 방법을 사용하면서 ‘레이어 퓨전(layer fusion)’과 ‘후 트레이닝 양자화(post training quantization)’와 같은 모델 최적화 기능을 모두 포함한다.

NeuPro-M은 현재 선두업체 대상으로 라이선스 사용이 가능하며, 오는 2022년 2분기에는 일반 기업도 라이선스 사용이 가능할 예정이다. NeuPro-M를 이용하는 고객은 CEVA의 HSoC 설계 서비스를 통해 시스템 설계와 칩렛 개발을 통합하고 지원하는 데에 도움을 받을 수 있다. 보다 자세한 내용은 https://www.ceva-dsp.com/product/ceva-neupro-m에서 확인할 수 있다.

CEVA, AI/ML 추론 워크로드를 위한 프로세서 아키텍처 뉴프로-M 발표

이 기사 공유하기:

관련

Join our Newsletter

Related articles

기자의 추가 기사

IIoT

추천 기사