엔비디아, AI 추론 운영체제 공개하며 AI 팩토리 프로덕션 전환 가속

2026-03-18 김미혜 기자, elecnews@elec4.co.kr

GPU 성능 최대 7배 향상...클라우드·AI 기업 전반으로 확산, 대규모 추론 인프라 최적화

엔비디아가 ‘GTC 2026’에서 대규모 생성형·에이전틱 AI 추론을 위한 오픈소스 소프트웨어 ‘다이나모(Dynamo) 1.0’을 공개했다. 업체 측에 따르면, 다이나모 1.0은 AI 팩토리 환경에서 추론 워크로드를 효율적으로 운영하기 위한 분산형 ‘운영체제(OS)’ 개념의 플랫폼으로, 글로벌 클라우드와 AI 기업 전반에서 빠르게 확산되고 있다.

최근 에이전틱 AI가 실제 프로덕션 환경으로 확장되면서 데이터센터 내 추론 워크로드는 복잡성과 변동성이 크게 증가하고 있다. 다양한 요청과 성능 요구가 동시에 발생하는 환경에서 자원 관리와 오케스트레이션이 핵심 과제로 부상했다.

엔비디아 다이나모 1.0은 이러한 문제를 해결하기 위해 클러스터 전반의 GPU와 메모리 자원을 유기적으로 조율하는 역할을 수행한다. 컴퓨터 운영체제가 하드웨어와 애플리케이션을 관리하듯, 다이나모는 AI 팩토리 내 분산 인프라를 통합적으로 제어해 복잡한 추론 워크로드를 처리한다는 설명이다.

엔비디아에 따르면 다이나모는 최근 벤치마크에서 블랙웰 GPU 기반 추론 성능을 최대 7배까지 향상시키며, 토큰 처리 비용 절감과 대규모 GPU 환경에서의 수익성 확보를 동시에 지원한다.

엔비디아 창립자 겸 CEO 젠슨 황은 “추론은 인텔리전스의 핵심 엔진이며, 다이나모는 AI 팩토리를 위한 최초의 운영체제”라며, “생태계 전반으로의 빠른 확산은 에이전틱 AI 시대가 본격적으로 시작됐음을 보여준다”고 밝혔다.

다이나모 1.0은 고도화된 트래픽 제어 기능과 GPU·스토리지 간 데이터 이동 최적화를 통해 추론 작업을 여러 GPU에 효율적으로 분산한다. 특히 에이전틱 AI 환경에서는 이전 단계에서 생성된 ‘단기 메모리’를 가장 적합한 GPU로 라우팅하고, 필요 시 이를 외부로 오프로드함으로써 연산 효율을 높인다는 것이다.

이와 함께 엔비디아는 텐서RT-LLM(TensorRT-LLM) 최적화 기술을 랭체인, vLLM, SGLang 등 주요 오픈소스 프레임워크에 통합해 추론 성능을 향상시키고, 생태계 확장을 가속하고 있다. 또한 지능형 메모리 관리(KVBM), GPU 간 고속 데이터 이동(NIXL), 스케일링 자동화(Grove) 등 핵심 기능을 모듈 형태로 제공해 다양한 환경에서 유연한 확장이 가능하도록 설계했다.

엔비디아 추론 플랫폼은 현재 AWS, 마이크로소프트 애저, 구글 클라우드 등 주요 클라우드 서비스 제공업체를 비롯해 코어위브, 알리바바 클라우드, 투게더 AI 등 다양한 파트너와 AI 기업에 채택되고 있다.

또한 퍼플렉시티, 커서 등 AI 네이티브 기업과 베이스텐, 파이어웍스 등 추론 서비스 기업, 그리고 바이트댄스, 페이팔, 핀터레스트 등 글로벌 엔터프라이즈까지 폭넓게 활용되며 생태계를 확대하고 있다.

엔비디아는 다이나모 1.0을 통해 AI 추론을 단순한 모델 실행 단계를 넘어, 대규모 인프라 운영 관점에서 최적화하는 새로운 패러다임을 제시한다는 전략이다.