隆重推出 NVIDIA Dynamo：用于扩展推理AI模型的低延迟分布式推理框架

NVIDIA 今天在 GTC 2025 宣布发布 NVIDIA Dynamo 。NVIDIA Dynamo 是一个高吞吐量、低延迟的开源推理服务框架，用于在大规模分布式环境中部署生成式 AI 和推理模型。在 NVIDIA Blackwell 上运行开源 DeepSeek-R1 模型时，该框架最多可将请求数量提升 30 倍。NVIDIA Dynamo 与 PyTorch、SGLang 等开源工具兼容， NVIDIA TensorRT-LLM 和 vLLM，加入不断扩大的推理工具社区，助力开发者和 AI 研究人员加速 AI。

NVIDIA Dynamo 引入了几项关键创新，包括：

分解预填充和解码推理阶段，提高每个 GPU 的吞吐量
根据不断变化的需求动态调度 GPU，以优化性能
可感知 LLM 的请求路由，以避免 KV 缓存重新计算成本
加速 GPU 之间的异步数据传输，缩短推理响应时间
跨不同内存层次结构的 KV 缓存卸载，以提高系统吞吐量

从今天开始，NVIDIA Dynamo 可供开发者在 ai-dynamo/dynamo GitHub 存储库中使用。对于希望缩短生产时间并获得企业级安全性、支持和稳定性的企业，NVIDIA Dynamo 将包含在 NVIDIA NIM 微服务中，这是 NVIDIA AI Enterprise 的一部分。

本文介绍了 NVIDIA Dynamo 的架构和关键组件，重点介绍了它们如何促进从单个 GPU 到数千个 GPU 的生成式 AI 模型的经济高效的分解服务和扩展。

视频 1。了解 NVIDIA Dynamo 如何将整个 AI 模型的性能提升高达 30 倍

在多节点部署中加速 AI 推理

AI 推理将帮助开发者将推理模型集成到其工作流中，从而创建新的突破性应用，使应用能够以更直观的方式理解用户并与之交互。然而，这也会产生巨大的经常性成本，对于那些希望经济高效地扩展模型以满足对 AI 永无止境的需求的人来说，这带来了巨大的挑战。

2018 年，NVIDIA 首次推出了 NVIDIA Triton Inference Server，其目标是加速 AI 创新并降低推理成本。 Triton 是首款将定制框架特定的推理服务 (包括 TensorFlow、PyTorch、ONNX、OpenVINO 等) 整合到单个统一平台的开源 AI 推理服务器，可显著降低推理成本并加快新 AI 模型的上市时间 (TTM)。

Triton 已从 NVIDIA NGC 下载超过 100 万次，目前已被一些世界领先的组织用于在生产环境中部署 AI 模型，包括 Amazon 、 Microsoft 、 Oracle Cloud 、 DocuSign 、 Perplexity 、 Snap 等。

自 Triton 发布以来，开源模型的规模已大幅增长 (几乎增加了 2000 倍) ，并且现在越来越多地集成到需要与多个其他模型交互的代理式 AI 工作流中。在生产环境中部署这些模型和工作流需要将它们分布到多个节点上，这需要在大型 GPU 集群中进行仔细的编排和协调。由于引入了新的分布式推理优化方法 (如 disaggregated serving) ，将对单个用户请求的响应分散到不同的 GPU，因此复杂性进一步加剧。这使得二者之间的协作和高效数据传输更具挑战性。

为应对分布式生成式 AI 推理服务的挑战，我们将发布 NVIDIA Dynamo。NVIDIA Dynamo 是 Triton 的后续产品，基于其成功经验，提供了一种新的模块化架构，旨在为多节点分布式环境中的生成式 AI 模型提供服务。

NVIDIA Dynamo 支持跨 GPU 节点和动态 GPU 工作负载分配无缝扩展推理工作负载，以高效响应不断变化的用户需求，并处理多模型 AI 工作流中的流量瓶颈。NVIDIA Dynamo 支持所有主要的 LLM 框架，包括 NVIDIA TensorRT-LLM、vLLM 和 SGLang。它融合了先进的 LLM 推理服务优化技术，例如 disaggregated serving，将不同的推理阶段分离到不同的 GPU 设备上，以提高推理性能。

将 NVIDIA GB200 NVL72 的推理性能提升 30 倍

传统的 LLM 部署将推理的预填充和解码阶段放在单个 GPU 或节点上，尽管每个阶段都有不同的资源需求。这种方法阻碍了性能优化，并使开发者无法充分利用 GPU 资源。

预填充阶段处理用户输入以生成第一个输出令牌，且受计算限制，而解码阶段则生成后续令牌并受内存限制。将这些阶段共同放置在同一 GPU 或 GPU 节点上会导致资源使用效率低下，尤其是对于长输入序列而言。此外，每个阶段的不同硬件需求限制了模型并行的灵活性，导致错过性能机会。

为解决这些问题，解服务将预填充和解码阶段分离到不同的 GPU 或节点上。这使得开发者能够独立优化每个阶段，应用不同的模型并行策略，并为每个阶段分配不同的 GPU 设备（图 1）。

Two diagrams side-by-side. On the left: ‘Traditional Serving’ shows where the input for multi-GPU is sent to prefill and the first token is then sent to the Compute Bound stage while the remaining tokens are sent to decode and channeled to Memory bound stage for KV Cache. On the right: ‘Disaggregated Serving’ shows where the input is sent to prefill and the first token is then partitioned out while the remaining tokens are transferred as KV cache to another group of GPUs and then decoded. — *图 1。分离服务在不同的 GPU 上分离预填充和解码，以优化性能*

例如，低张量并行可用于预填充阶段，以减少通信开销，而高张量并行可改善解码阶段的内存操作。这种方法可以更高效地分配资源，降低推理服务成本，并更好地控制服务水平目标（SLO），例如 TTFT 和令牌间延迟（ITL）。

在基于 NVIDIA GB200 NVL72 为开源 DeepSeek-R1 模型提供服务时，NVIDIA Dynamo 使用解耦服务将所服务的请求数量增加了多达 30 倍。NVIDIA Dynamo 在 NVIDIA Hopper 上为 Llama 70B 模型提供服务时，吞吐量性能提高了一倍以上。

Bar chart showing NVIDIA Dynamo throughput performance when running DeepSeek-R1 671B model on NVIDIA GB200 NVL72 boosting performance by 30x. It more than doubles performance on the Llama 70B model running on NVIDIA Hopper GPUs. — 图 2。在 NVIDIA GB200 NVL72 上运行 DeepSeek-R1 671B 模型时，NVIDIA Dynamo 可提供卓越的吞吐量性能，将性能提升 30 倍。与在 NVIDIA Hopper GPU 上运行的 Llama 70B 模型相比，其性能提高了一倍以上。

左图：TensorRT-LLM，FP4，ISL/OSL：32K/8K。不使用 Dynamo：Inflight Batching，TEP16PP4DP4。使用 Dynamo：Disaggregated Serving，Context：EP4DP16，Generation：EP64DP3。预测性能可能会发生变化。右侧：vLLM，FP8，ISL/OSL：3K/50。不使用 Dynamo：Inflight Batching，TP8DP2。使用 Dynamo：Disaggregated Serving，Context：TP2DP4，Generation：TP8。

为实现大规模分布式和解式推理服务，NVIDIA Dynamo 包含四项关键创新：

NVIDIA Dynamo 规划器
NVIDIA Dynamo 智能路由器
NVIDIA Dynamo 分布式 KV 缓存管理器
NVIDIA 推理传输库 (NVIDIA Inference Transfer Library, NIXL)

Diagram of NVIDIA Dynamo Architecture begins with the API Server, then smart router, disaggregated serving (which includes prefill worker and decode worker) and then finally ends with NVIDIA Inference Transfer Engine (NIXL) for low-latency interconnect-agnostic multi-node data transfer. — *图 3。NVIDIA Dynamo 架构*

NVIDIA Dynamo Planner：针对分布式推理优化 GPU 资源

在大规模分布式和解耦服务推理系统中，高效管理 GPU 资源对于最大限度地提高吞吐量和降低延迟至关重要。虽然解耦服务可以显著提高推理吞吐量和效率，但对于每个传入的请求，它可能并不总是最有效的解决方案。

想象一下这样的场景：大量具有长输入序列长度（ISL）但短输出序列长度（OSL）的摘要请求使预填充 GPU 不堪重负。虽然解码 GPU 仍未得到充分利用，但预填充 GPU 成为瓶颈。在这种情况下，允许解码 GPU 以传统聚合方式执行预填充和解码任务，或允许切换解码 GPU 以执行预填充任务，可能会更高效。这种方法有助于平衡负载，减轻预填充 GPU 的压力，并最终提高整体吞吐量。

在确定解和聚合服务之间，或为每个阶段分配多少个 GPU 时，需要仔细考虑几个因素。这些因素包括在预填充和解码 GPU 之间传输 KV 缓存所需的时间、GPU 对传入请求的队列等待时间，以及分解和聚合配置的预计处理时间。在拥有数百个 GPU 的大规模环境中，这些决策可能会很快变得非常复杂。

这正是 NVIDIA Dynamo Planner 发挥作用的地方。它持续监控分布式推理环境中的关键 GPU 容量指标，并将其与应用 SLO（例如 TTFT 和 ITL）相结合，以做出明智的决策，决定是否通过或不通过分解来服务传入的请求，或者是否应在这两个阶段中添加其他 GPU。NVIDIA Dynamo Planner 可确保在预填充和解码之间高效分配 GPU 资源，从而适应不断变化的工作负载，同时保持峰值系统性能。

User requests are input to the Dynamo GPU planner - where GPU capacity metrics are integrated - and then sent to disaggregated serving, shift GPUs between prefill and decode, and traditional serving. — *图 4。GPU Planner 会分析 GPU 容量指标，以便就如何服务传入请求或分配 GPU 工作者做出最佳决策*

NVIDIA Dynamo 智能路由器：减少 KV 缓存的昂贵重新计算

在响应用户提示之前，LLMs 必须构建对输入请求（称为 KV 缓存）的上下文理解。此过程是计算密集型过程，会随着输入请求的大小而进行二次扩展。重用 KV 缓存可避免从头开始重新计算，从而减少推理时间和计算资源。这在经常执行相同请求的用例中尤为有利，例如系统提示、单用户多圈聊天机器人交互和代理式工作流。需要一个高效的数据管理机制来检查何时以及何处可以重复使用 KV 缓存。

NVIDIA Dynamo 智能路由器可在多节点和解部署中追踪大型 GPU 集群中的 KV 缓存，并高效路由传入的请求，从而最大限度地减少对昂贵的重新计算的需求。它对传入的请求进行哈希处理，并将其存储在 Radix Tree 中，以便在大规模分布式推理环境中跟踪 KV 位置。它还利用专门的算法进行 KV 缓存插入和移除，确保保留最相关的块。

Two side-by-side bar charts. The chart on the left shows TTFT speedup with and without NVIDIA Dynamo Smart Router. The chart on the right shows average request latency speedup with and without NVIDIA Dynamo Smart Router. — *图 5。NVIDIA Dynamo 智能路由器可避免 KV 缓存重新计算，从而加快模型响应时间并增强用户体验*

2 个 HGX-H100 节点。8 块 DeepSeek-R1-Distill-Llama-70B。vLLM、FP8、Tensor 并行：2 D 数据源： 10 万个真实 R1 请求，平均 ISL/OSL：4K/800

当新的推理请求到达时，NVIDIA Dynamo 智能路由器会计算传入请求与分布式集群中所有 GPU 的所有内存中已处于活动状态的 KV 缓存块之间的重叠分数。通过考虑重叠分数和整个 GPU 车队中的工作负载分配，它可以智能地将请求路由到最合适的工作节点，最大限度地减少 KV 缓存的重新计算，同时确保整个集群的负载均衡。

与循环或基于负载的路由不同，这种方法通过考虑缓存命中率、工作负载平衡和 GPU 容量来优化整体系统性能，确保高效的请求处理并消除资源瓶颈。通过减少不必要的 KV 缓存重新计算，NVIDIA Dynamo Smart Router 释放了 GPU 资源。这使 AI 服务提供商能够响应更多用户请求，更大限度地提高加速计算投资的回报。

NVIDIA Dynamo 分布式 KV 缓存管理器：将 KV 缓存卸载到经济高效的存储中

为用户请求计算 KV 缓存需要大量资源，因此成本高昂。重复使用 KV 缓存以最大限度地减少对其重新计算的需求是常见的做法。然而，随着 AI 需求的增加，必须存储在 GPU 内存中以便重复使用的 KV 缓存量可能会迅速变得过于昂贵，令人望而却步。这给试图在不超过预算的情况下高效管理 KV 缓存重用的 AI 推理团队带来了重大挑战。

NVIDIA Dynamo KV Cache Manager 功能通过将较旧或较不频繁访问的 KV 缓存块卸载到更具成本效益的内存和存储解决方案 (例如 CPU 主机内存、本地存储或网络对象存储) 来解决这一挑战。这种能力使组织能够存储高达 PB 的 KV 缓存数据，而成本仅为 GPU 内存中的一小部分。通过将 KV 缓存卸载到其他内存层次结构，开发者可以释放宝贵的 GPU 资源，同时仍然保留和重复使用历史 KV 缓存，以降低推理计算成本。

A triangular diagram shows a hierarchy with GPU memory at the very top, then host memory, local SSD, and finally, shared network storage at the bottom. A note on the side shows an arrow scaling down from the top to bottom with the text ‘Dynamo Distributed KV Cache Manager - offloading KV cache to cost effective storage.’ — *图 6。NVIDIA Dynamo 分布式 KV 缓存管理器将访问频率较低的 KV 缓存卸载到更经济的内存层次结构中*

NVIDIA Dynamo KV Cache Manager 使用高级缓存策略，优先将频繁访问的数据放置在 GPU 内存中，而访问较少的数据则移动到共享 CPU 主机内存、SSD 或网络对象存储。它包含智能拆迁策略，可在过度缓存 (可能会导致查找延迟) 和不足缓存 (导致漏查和 KV 缓存重新计算) 之间取得平衡。

此外，此功能可以管理跨多个 GPU 节点的 KV 缓存，支持分布式和分解推理服务，并提供分层缓存功能，在 GPU、节点和集群级别创建卸载策略。

NVIDIA Dynamo KV Cache Manager 设计为与框架无关，可支持各种后端 (包括 PyTorch、SGLang、TensorRT-LLM 和 vLLM) ，并可使用 NVIDIA NVLink 、 NVIDIA Quantum 交换机和 NVIDIA Spectrum 交换机促进跨大型分布式集群扩展 KV 缓存存储。

NVIDIA Inference Transfer Library (NIXL)：低延迟、与硬件无关的通信

大规模分布式推理利用模型并行技术，如 Tensor、pipeline 和 expert 并行，这些技术依赖于节点间和节点内、低延迟、高吞吐量的通信，利用 GPUDirect RDMA。这些系统还需要在解服务环境中的预填充和解码 GPU 工作者之间快速传输 KV 缓存。

此外，它们必须支持与硬件和网络无关的加速通信库，能够跨 GPU 和内存层次结构（包括存储）高效移动数据（例如 CPU 内存以及块、文件和对象存储），并与一系列网络协议兼容。

A diagram showing the NIXL API at the top which intakes post requests and deploys request completion on one side. NIXL Core including metadata and memory is in the center and on the bottom is the Backend API which supports KV data intakes and out-takes over UCX, GDS, S3, and custom backend communication libraries. From the NIXL core memory, four arrows extend to the right pointing to different data storage options: DRAM, HBM, file storage, and object storage. — *图 7。NVIDIA 推理传输库 (NIXL) 简化了跨异构内存和存储设备的数据移动的复杂性*

NVIDIA 推理传输库 (NVIDIA Inference Transfer Library, NIXL) 是一个高吞吐量、低延迟的点对点通信库，可提供一致的数据移动 API，以便使用相同的语义在不同的内存和存储层之间快速异步地移动数据。它专门针对推理数据移动进行了优化，支持各种类型的内存和存储之间的非阻塞和非连续数据传输。

NIXL 支持异构数据路径、不同类型的内存和本地 SSD，以及来自 NVIDIA 的主要存储合作伙伴的网络存储。

借助 NIXL，无论传输是通过 NVLink (C2C 或 NVSwitch) 、InfiniBand、RoCE 还是 Ethernet 进行，NVIDIA Dynamo 都能使用通用 API 与其他通信库交互，例如 GPUDirect Storage、UCX 和 S3。NIXL 与 NVIDIA Dynamo 策略引擎相结合，可自动选择最佳后端连接，并抽象出多种类型的内存和存储之间的差异。这是通过通用的“内存部分”实现的，这些“内存部分”可以是 HBM、DRAM、本地 SSD 或网络存储 (Block、Object 或 File)。

开始使用 NVIDIA Dynamo

现代 LLM 在参数大小、推理能力方面进行了扩展，并且越来越多地嵌入到代理式 AI 工作流中。因此，它们在推理过程中会生成更多的 token，并且需要在分布式环境中进行部署，从而导致成本增加。因此，优化推理服务策略以降低成本并支持分布式环境中的无缝扩展至关重要。

NVIDIA Dynamo 在其前代 NVIDIA Triton 的成功基础上构建，具有新的模块化架构、分布式推理功能以及对解服务的支持，使其能够在多节点部署中提供出色的扩展性能。

部署新生成式 AI 模型的开发者现在可以从 ai-dynamo/dynamo GitHub repo 开始。AI 推理开发者和研究人员受邀在 GitHub 上为 NVIDIA Dynamo 做出贡献。加入新的 NVIDIA Dynamo Discord 服务器，这是 NVIDIA 官方服务器，面向分布式推理框架 NVIDIA Dynamo 的开发者和用户。

使用 SGLang、TensorRT-LLM 或 vLLM 作为后端的 Triton 用户可以在 NVIDIA Dynamo 中部署这些后端，以在大规模部署中获得分布式和解耦的推理服务的优势。拥有其他 AI 后端的 Triton 用户可以探索 NVIDIA Dynamo，并使用 GitHub 上的技术文档指南和教程创建将 AI 工作负载过渡到 NVIDIA Dynamo 的迁移计划。使用 Triton 的 NVIDIA AI Enterprise 客户将继续获得针对其现有 Triton 部署的生产分支支持。NVIDIA Dynamo 计划由 NVIDIA AI Enterprise 提供支持，并通过 NVIDIA NIM 微服务提供，以实现快速轻松的部署。

隆重推出 NVIDIA Dynamo：用于扩展推理AI模型的低延迟分布式推理框架

在多节点部署中加速 AI 推理

将 NVIDIA GB200 NVL72 的推理性能提升 30 倍

NVIDIA Dynamo Planner：针对分布式推理优化 GPU 资源

NVIDIA Dynamo 智能路由器：减少 KV 缓存的昂贵重新计算

NVIDIA Dynamo 分布式 KV 缓存管理器：将 KV 缓存卸载到经济高效的存储中

NVIDIA Inference Transfer Library (NIXL)：低延迟、与硬件无关的通信

开始使用 NVIDIA Dynamo

相关资源

标签

关于作者

隆重推出 NVIDIA Dynamo：用于扩展推理AI模型的低延迟分布式推理框架

在多节点部署中加速 AI 推理

将 NVIDIA GB200 NVL72 的推理性能提升 30 倍

NVIDIA Dynamo Planner：针对分布式推理优化 GPU 资源

NVIDIA Dynamo 智能路由器：减少 KV 缓存的昂贵重新计算

NVIDIA Dynamo 分布式 KV 缓存管理器：将 KV 缓存卸载到经济高效的存储中

NVIDIA Inference Transfer Library (NIXL)：低延迟、与硬件无关的通信

开始使用 NVIDIA Dynamo

相关资源

标签

关于作者

相关文章

NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中实现出色性能

相关文章

在大型语言模型时代，通过消息量化和流式传输实现高效的联邦学习

宣布推出基于 CUDA 评估 LLM 的开源框架 ComputeEval

NVIDIA Llama Nemotron 超开放模型实现突破性的推理准确性

使用先进的开放式 NVIDIA Llama Nemotron 推理模型构建企业 AI 智能体

初创公司利用人工智能改善孕产期和新生儿护理服务