엔비디아, ‘나만의 AI’ 시대를 앞당기다… 네모트론 3와 언슬로스로 로컬 미세 조정 혁신

37

2025년 12월 17일

엔비디아는 단순한 하드웨어 공급을 넘어, '나만의 AI'를 로컬 환경에서 구축할 수 있는 소프트웨어 생태계를 완성해 나가고 있다. 언슬로스와 결합된 엔비디아 GPU는 미세 조정의 진입 장벽을 낮추었으며, 네모트론 3 모델은 효율성을 극대화했다.

RTX AI PC와 DGX 스파크에서 구현하는 맞춤형 AI 어시스턴트, 언슬로스 프레임워크로 속도와 효율 ‘두 마리 토끼’ 잡다

엔비디아, ‘나만의 AI’ 시대를 앞당기다… 네모트론 3와 언슬로스로 로컬 미세 조정 혁신 — 엔비디아 네모트론 3(Nemotron 3) (image. NVIDIA)

생성형 AI의 시대가 도래했지만, 여전히 많은 기업과 개인 개발자들은 ‘범용 모델’이 아닌 ‘나에게 꼭 맞는 모델’을 갈구하고 있다. 제품 지원 챗봇이든, 개인 비서든, 특정 도메인에 특화된 AI는 결국 미세 조정(Fine-tuning)이라는 관문을 통과해야만 완성되기 때문이다.

AI 컴퓨팅 기술의 선두주자 엔비디아(NVIDIA)가 이 갈증을 해소할 강력한 도구를 꺼내 들었다. 엔비디아는 네모트론 3(Nemotron 3) 오픈 모델 제품군을 공개하고, 오픈소스 프레임워크인 언슬로스(Unsloth)와의 협업을 통해 거대 언어 모델(LLM)의 미세 조정 속도를 획기적으로 높였다고 밝혔다. 이제 거대 데이터센터가 아닌 RTX AI PC와 DGX 스파크(DGX Spark) 같은 로컬 환경에서도 정교한 맞춤형 AI를 구축할 수 있는 길이 열린 셈이다.

언슬로스(Unsloth), 엔비디아 GPU를 만나 학습 속도 2.5배 퀀텀 점프

미세 조정은 AI 모델에게 일종의 ‘집중 과외’를 시키는 과정이다. 하지만 이 과정은 막대한 메모리와 연산 능력을 요구하는 고비용 작업이다. 엔비디아는 이 문제를 해결하기 위해 세계적으로 널리 쓰이는 LLM 미세 조정 프레임워크인 ‘언슬로스’에 주목했다.

언슬로스는 복잡한 수학적 연산을 효율적인 맞춤형 GPU 커널로 변환하여 AI 훈련을 가속화하는 데 특화된 기술이다. 엔비디아 GPU 환경에서 허깅페이스 트랜스포머 라이브러리의 성능을 최대 2.5배까지 향상시킨다. 이는 지포스 RTX 데스크톱과 노트북은 물론, RTX PRO 워크스테이션, 그리고 세계에서 가장 작은 AI 슈퍼컴퓨터인 DGX 스파크에 이르기까지 다양한 하드웨어에서 VRAM 사용량을 줄이면서도 최고 수준의 성능을 낼 수 있게 해준다.

엔비디아는 개발자들이 목표에 따라 ▲모델의 일부만 업데이트해 효율을 높이는 ‘파라미터 효율적 미세 조정(LoRA, QLoRA)’ ▲모델 전체를 재학습시키는 ‘완전 미세 조정’ ▲피드백을 통해 스스로 성능을 개선하는 ‘강화 학습’ 등 다양한 방식을 선택할 수 있도록 지원한다. 이는 곧 AI 연구자와 개발자 커뮤니티가 더 쉽고 빠르게 자신만의 AI 모델을 확보할 수 있음을 의미한다.

네모트론 3 오픈 모델: 하이브리드 MoE 아키텍처로 효율성의 정점 찍다

도구(언슬로스)가 준비되었다면, 그 재료가 될 모델도 중요하다. 엔비디아가 공개한 ‘네모트론 3’ 제품군은 나노(Nano), 슈퍼(Super), 울트라(Ultra) 세 가지 라인업으로 구성된다. 핵심은 ‘하이브리드 전문가 혼합(Mixture-of-Experts, MoE)’ 아키텍처다.

특히 주목할 만한 것은 ‘네모트론 3 나노 30B-A3B’ 모델이다. 현존하는 라인업 중 가장 컴퓨팅 효율이 높은 이 모델은 추론 토큰을 최대 60% 감소시켜 운영 비용을 크게 절감한다. 또한 100만 토큰의 컨텍스트 윈도우를 지원해, 장시간의 작업이나 복잡한 다단계 업무에서도 앞선 정보를 잊지 않고 유지하는 능력을 보여준다. 이는 소프트웨어 디버깅이나 콘텐츠 요약과 같은 실무 작업에 최적화된 성능이다.

엔비디아는 나노 모델을 시작으로, 멀티 에이전트 애플리케이션을 위한 ‘네모트론 3 슈퍼’와 복잡한 AI 애플리케이션용 ‘네모트론 3 울트라’를 2026년 상반기에 순차적으로 출시할 예정이다.

DGX 스파크: 책상 위의 AI 슈퍼컴퓨터, 클라우드 없는 로컬 학습 실현

로컬 환경에서의 미세 조정을 가로막는 가장 큰 장벽은 메모리 용량이었다. 엔비디아의 ‘DGX 스파크’는 이 문제를 해결하는 컴팩트한 데스크톱 슈퍼컴퓨터다. 엔비디아 그레이스 블랙웰(Grace Blackwell) 아키텍처를 기반으로 한 이 장비는 최대 1페타플롭(FP4)의 AI 성능과 128GB의 통합 메모리를 자랑한다.

일반 소비자용 GPU의 VRAM 용량을 초과하는 300억 개 이상의 파라미터를 가진 거대 모델도 DGX 스파크에서는 여유롭게 돌아간다. 개발자들은 클라우드 인스턴스를 대여하고 기다릴 필요 없이, 책상 위에서 보안이 유지된 상태로 연산 집약적인 작업을 즉시 실행할 수 있다.

엔비디아의 이번 발표는 AI 기술의 ‘민주화’와 ‘최적화’라는 흐름을 잘 보여준다. 누구나 자신의 PC나 워크스테이션에서 강력한 AI 모델을 미세 조정하고 소유할 수 있는 시대, 엔비디아가 그 문을 활짝 열어젖혔다.