Token成为AI工厂新“kpi”,NVIDIA围绕“每瓦Token”展开全栈升级

发布时间:2026-06-02 17:35  浏览量:1

作者:毛烁

过去几年,外界看AI基础设施,习惯了先看GPU的性能、HBM容量、先进封装、单卡峰值算力和整机柜密度。而到了Agentic AI阶段,这套方法开始有了局限性。

原因很简单。模型停留在生成回答时,GPU吞吐和显存是主要问题;但是,模型开始调用工具、执行代码、访问数据库、检查结果并继续推理以后,系统压力会向外扩散。CPU调度、内存带宽、网络互连、安全运行时、电力管理、本地终端和物理仿真,都会进入同一条任务链路。

Agent是Agentic AI的核心执行单元。Agent一出现,AI基础设施的短板就从单卡性能扩展到了整个系统。

黄仁勋在GTC台北提到一句话:“Agentic AI has arrived”。这句话的背后的含义也指向的是AI负载的变化。AI正在从问答界面进入任务流程。一次Agent任务包含计划、工具调用、沙箱执行、结果回传、再次推理等多个步骤。计算资源能否稳定产出Token,比单张芯片参数更接近客户每天要算的运营指标。

在GTC台北上,NVIDIA在产品技术更新中,透露出的一个变化也在这方面。其实,NVIDIA的业务口原本就覆盖服务器、PC、机器人、自动驾驶等。但是当Agent成为新负载以后,这些业务被重新收拢,并指向同一个路径——怎样让有限的能源、芯片、软件和终端设备,持续转化为可收费、可交付、可验证的Token产出。

这也是黄仁勋经常提到的“五层蛋糕”中的核心理念之一。

01 重估Token“KPI”,从“生成”到“任务完成度”

Agentic AI执行的并非是某一次回答,而是一连串动作。

当模型开始规划步骤、调用工具、执行代码、访问数据库,再把结果送回模型继续推理,一个任务被拆成多少轮,每一轮消耗多少Token,工具调用有没有走弯路,CPU和外部系统让GPU等了多久,都会影响最终的任务完成时间。

这也是Token需要在Agentic AI阶段被重新定义的原因。对云服务商来说,Token关系到API、订阅和算力服务的计费;对企业来说,Token会进入代码生成、数据查询、客服工单、研发验证、仿真评估等流程。只有这些任务能稳定跑起来,Token才会从模型输出变成可衡量的生产力。

简单来说,企业要算的不是“生成了多少字”,而是“完成了多少任务”。

于是,NVIDIA把这条工程链路拆成了Agentic inference循环。GPU负责生成下一步动作,CPU负责执行工具调用和沙箱任务,外部系统返回结果以后,模型再继续推理。循环越短,Agent完成任务越快。同样的芯片和电力,也就能支撑更多任务。强化学习系统也一样,单位时间内完成的评估越多,模型改进的速度才会更快。

沿着这条工程链,Agent的软件栈也可以拆开来看。模型负责推理,Harness负责让模型协调浏览器、终端、存储和子Agent,工具负责具体执行,skills规定工具应该怎样调用,运行时则管理权限、安全和长时间任务。这里的每一层都会影响Token成本,因为Agent一旦走错步骤,就会多消耗一次推理、多等待一次外部系统,也多占用一段算力。

这也是为什么企业落地Agent时,通常不会先做一个万能助手。就比如,Cadence、CrowdStrike和ServiceNow这些企业,分别把Agent用于芯片设计、安全运营和IT服务管理。它们对应的都是具体岗位、具体流程和明确工具链。Agent越专用,执行路径就越重要;路径越清楚,Token消耗和任务时延才越容易控制。

NVIDIA Skills优化的就是这段路径。NVIDIA Skills 是NVIDIA 构建的AI智能体能力生态系统,包含三大核心组件:面向大模型能力增强的NeMo Skills、面向智能体安全治理的Verified Agent Skills,以及2026年GTC 刚发布的物理AI技能库。其解决了 AI 智能体“能做什么” 和“怎么安全地做” 两大核心问题,是NVIDIA Agentic AI 战略的关键落地载体。

NVIDIA Skills可为CUDA-X库、数据科学优化、企业知识、模型构建、AI、物理仿真和量子等方向,提供可由Agent读取的任务说明。对Agent来说,Skill的作用是告诉它调用什么工具、按什么步骤执行、怎样减少无效尝试。

截取自:NVIDIA

坦白讲,少走一步弯路,就少烧一段Token。

具体来看以CUDA-Q Skill为例,运行在Claude Agent中的工作流速度提升30%,步骤减少40%;NeMo Evaluator Skill可以把评估配置速度提升10倍,把自定义基准从数天压缩到数分钟。这些数字对应是任务路径被压短以后,Token消耗、等待时间和人工介入一起下降。

再往下,Token成本还关乎电力问题。传统数据中心通常按最大峰值签订电力合同,峰值里包含计算峰值、冷却冗余和突发负载预留。但AI负载并不总在满功率运行,预留电力如果没有用于Token生成,就会变成空置产能。

NVIDIA更新的DSX MaxLPS处理的正是这类问题。其可以实时监测每块GPU、每个机架和每排设备的功耗与配置,让运营方在固定电力包络内安全部署更多GPU。NVIDIA给出的数字是,同样电力包络内最多可多部署40%的GPU,对应40%更多计算、Token和收入。

截取自:NVIDIA developer

黄仁勋在现场说:“如今,AI已成为利润引擎,也是GDP引擎。”这句话放到AI工厂里,含义是,芯片采购价解释的是初始投入,单位电力能否稳定产出更多Token,系统故障和生命周期会不会抬高单位Token成本,这才是AI工厂运营者需要长期计算的部分。

02 消除GPU空转,Vera全面投产,打破AI工厂的“木桶短板”

Agent任务变长以后,GPU生成只是第一步。

代码要编译,数据库要查询,沙箱要运行,外部系统要回传结果,安全系统还要判断Agent能不能读取数据。这些工作大多发生在CPU和系统软件侧。原因在于,GPU擅长并行生成和矩阵计算,但Agent每生成一个动作以后,后续步骤往往要进入操作系统、数据库、网络、存储和安全策略。CPU要负责调度这些任务,执行大量分支判断和I/O操作,再把结果送回模型继续推理。

如果CPU处理这些步骤的速度跟不上,GPU就只能等待下一轮上下文和执行结果。这个等待放在单次任务里可能很短,放到大规模Agent和强化学习系统里,就会变成吞吐损失。

GPU负责生成下一步,CPU要把下一步尽快执行出来。

在GTC台北上,NVIDIA宣布Vera已经全面投产,并将从今年秋季开始由系统构建商和云合作伙伴陆续推出。

Vera面向的正是智能体AI、强化学习和数据处理等。NVIDIA给出的数字是,Vera的任务完成速度比传统x86 CPU快1.8倍。Anthropic、OpenAI、Space、xAI等AI实验室,以及字节跳动、CoreWeave、Lambda、Nebius、Nscale和OCI等云服务商,都已计划采用Vera。

截取自:NVIDIA

具体来看,Vera采用88个NVIDIA自研的Olympus核心,单核心每周期指令数相比Grace提升50%,配备1.2TB/s LPDDR5X内存带宽,并通过3.4TB/s片上互连让核心访问其他核心和缓存。在Python、代码分析、代码编译等常见Agentic工具上,Vera相比x86提供1.8倍性能。

如果把Vera放到Agent的任务链路中看。其88个Olympus核心决定的是并发能力,Olympus的单核心每周期指令数相比Grace提升50%,意味着每个核心在同样时钟周期内能处理更多指令。对Agent来说,这会影响Python执行、代码分析、代码编译和工具调度这些高频任务。

内存带宽同样重要。Vera配备1.2TB/sLPDDR5X内存带宽,作用是让CPU核心更快拿到数据。Agent运行时会频繁读取上下文、脚本、工具返回结果和外部数据,如果内存带宽不足,CPU核心即使数量很多,也会因为取不到数据而持续等待。另外,Vera通过3.4TB/s片上互连,让核心访问其他核心和缓存。

此外,Vera是Vera Rubin平台的主机CPU。通过NVLink-C2C让CPU与GPU之间实现高达1.8TB/s的相干带宽。所谓相干带宽,意思是CPU和GPU共享数据时,可以保持缓存和内存视图一致,减少反复复制和同步开销。Agent任务循环越多,CPU和GPU之间交换上下文、执行结果和中间状态的次数越多,这条通道就越重要。

截取自:NVIDIA

这一方式,对Agent很重要。Agent任务会在CPU和GPU之间来回切换:GPU推理,CPU执行工具,CPU拿到结果后再交给GPU继续推理。CPU和GPU之间的数据通道越快,任务循环越容易缩短。

在安全上,Vera把NVIDIA机密计算扩展至机架规模。机密计算保护的是数据在执行过程中的安全,而不只是存储或传输时的安全。Agent会代表用户访问敏感数据、调用高权限工具,如果安全只靠事后审计,风险发生时已经晚了。而把保护能力放进执行路径,才能在Agent读取数据、调用工具、跨节点运行时减少越权和数据暴露。

此次更新的Vera BlueField-4 STX锚定的是网络、存储和安全部分。其把Vera CPU与网络、存储加速和芯片级安全能力结合起来,为AI原生数据平台提供支撑。

放到场景里,Agent需要频繁检索数据、保存中间状态、调用外部服务,如果这些I/O任务的全部压力都在主CPU上,CPU会被数据搬运拖住。BlueField-4 STX的作用,就是把一部分网络、存储和安全工作从主CPU里分担出来,让CPU把更多时间留给任务执行。

再往集成层看,Vera负责CPU侧执行和调度,Rubin GPU负责大规模推理与训练,Vera BlueField-4 STX处理数据、网络和安全,Spectrum-6 SPX以太网机架处理AI工厂内部的网络流量。

截取自:NVIDIA

这或许才是Vera Rubin的重点。其把Agent任务经过的几段路径提前放到同一套系统里设计。任务链越长,客户越不能只靠机房里的临时拼接来解决性能、可靠性和运维问题。

量产能力方面,Vera Rubin平台已经进入全面生产阶段。NVIDIA表示,其量产体系依托超过150家供应链合作伙伴,覆盖数百个制造站点和数百万平方英尺工厂空间。

这背后对应的是AI工厂建设周期的问题。

因为AI工厂并不是采购芯片之后就能立即产生Token。客户还需要完成系统组装、测试验证、部署上线以及后续稳定运行。供应链规模越大、协同能力越强,系统交付的不确定性就越低,客户从建设到投产的周期也越容易控制。

为了进一步缩短这一周期,NVIDIA还重新设计了机架结构。

过去,组装一套Grace Blackwell机架大约需要两小时。Vera Rubin机架通过减少电缆和液冷软管数量,并采用定制PCB直接连接机架两侧,将装配时间压缩到约5分钟。组装流程越简单,连接点越少,潜在故障点也越少,系统上线速度随之提升。

从这个角度看,5分钟缩短的是客户开始产生计算产出、启动业务回报的时间。

而当系统真正投入运行后,关注点会从建设阶段转向运营阶段。

为此,NVIDIA推出了面向AI工厂运营的模块化开源软件平台DSX OS,用于基础设施的配置、运行和监测。其中,DSX Exchange负责打通计算、供电和冷却系统,通过统一API实现协同管理;DSX Flex把数据中心负载与电网信号连接起来,使AI工厂能够根据电力供应情况动态调整负载;DSX MaxLPS则在既定电力预算下提升可部署GPU数量,减少电力资源闲置带来的浪费。

如果把Vera CPU、Vera Rubin平台以及DSX软件体系放在一起看,会发现Vera解决的是计算节点,Vera Rubin负责系统级集成,DSX则负责数据中心的运营和调度。它们共同覆盖了AI工厂从建设、部署到运行的完整链路。

这背后对应的也是Agentic AI带来的变化。当AI执行任务,决定效率的是整个系统能否持续、稳定地完成任务流转。CPU、GPU、网络、存储、电力以及供应链等环节,都会影响任务完成速度,并最终影响单位Token成本。

03 Agent“下沉”,走向“云端协同”

数据中心解决的是大规模Token产出,但企业日常任务还有另一段路径。

Agent要处理任务,还要在权限边界内访问本地数据。但是其很多动作不能完全留在云端完成。原因很简单,云端可以提供模型能力,但企业流程发生在用户的设备、应用、账号和权限体系里。Agent如果进不去这些路径,就很难真正替用户完成工作。

所以,企业Agent,仅靠模型本身并不够。模型擅长推理和生成内容,但执行任务还需要能够调用浏览器、终端、文件系统、代码工具以及各种外部服务。负责协调这些能力的框架,被称为Harness。

可以把Harness理解为Agent的执行层。没有它,模型只能给出建议;有了它,模型才有机会把建议拆解成一系列可执行动作。Agent从“会说”走向“会做”,中间依赖的正是这类协调机制。

NVIDIA Agent Toolkit瞄准的就是这一层能力。其整体方案包含Nemotron模型、Agent开发库、Skills能力模块、NemoClaw蓝图以及OpenShell运行时环境。

在这套体系中,Nemotron负责推理和决策,决定下一步应该执行什么任务;NemoClaw帮助开发者基于OpenClaw、Hermes等开放Harness构建Agent;Skills定义Agent如何调用不同工具和服务;OpenShell则负责运行时管理,对敏感数据和高权限工具的访问进行控制。

换句话说,NVIDIA提供的是一套让模型能够接入工具、执行任务并安全运行的Agent基础设施。

Nemotron负责解决Agent的执行效率问题,OpenShell处理的则是Agent进入生产环境后的安全问题。

长时间运行的Agent会代表用户访问企业数据、调用数据库、读取文件甚至执行代码。传统软件的权限体系主要围绕人和应用设计:用户发起一次操作,系统完成一次授权和审计。但Agent可在几分钟内连续执行数百次工具调用,如果仍然依赖事后审计,很难跟上它的执行速度。

因此,Agent的安全控制需要从应用层下沉到运行时和操作系统层。

OpenShell承担的正是这一角色。它被集成到Canonical Ubuntu、Red Hat OpenShift以及Microsoft Windows等平台中,使Agent在访问文件、调用工具和执行代码时,能够直接受到操作系统权限体系和安全策略的约束。

(OpenShell 的自主代理架构其核心组件包括沙箱、策略引擎和隐私路由器)

截取自:NVIDIA developer

而当运行时安全问题得到解决后,Agent才具备大规模部署的基础。目前,Windows生态覆盖超过10亿台活跃设备,Red Hat OpenShift则广泛运行于大型企业环境之中。对于NVIDIA而言,把OpenShell嵌入这些平台,实际上是在为Agent进入现有企业基础设施铺路。

Nemotron和Agent Toolkit解决的是Agent如何完成任务,OpenShell解决的是Agent如何安全完成任务,那么接下来的问题则是:这些任务的执行载体是什么?

其实,并非所有Agent的任务都适合在数据中心完成。

当Agent需要理解屏幕内容、处理本地文件、调用操作系统权限、响应语音指令时,数据往返AI工厂会带来额外的网络延迟、数据传输,以及安全问题。对于很多实时交互任务而言,执行位置本身已经成为效率的一部分。

因此,Agent时代的计算架构开始从单纯依赖云端推理,转向云端与本地协同。

在这一背景下,NVIDIA把RTX Spark和RTX Station放进了Agent体系里。

RTX Spark是面向个人智能体PC。NVIDIA表示,其可让轻薄Windows笔记本和紧凑型桌面主机具备1 Petaflop AI性能,由MediaTek联合打造,运行微软Windows系统,面向始终在线、始终本地运行的个人Agent。RTX Spark的作用,就是把部分Agent执行能力留在本地,让云端模型能力与个人工作流形成协同。

截取自:NVIDIA

面向企业团队,NVIDIA也进一步更新了DGX Station(for Windows)。

与个人终端不同,企业研发、设计和软件开发团队往往需要同时运行多个模型和多个Agent,并持续共享代码、数据和中间状态。此时,瓶颈不再只是推理能力,而是模型、数据和Agent之间能否高效协同。

DGX Station基于GB300架构,将Grace Blackwell级基础设施带入Windows生态,最高支持748GB一致性内存、20 Petaflops FP4计算性能以及800Gb/s ConnectX网络,可运行万亿参数模型并编排数百个Agent。

在多Agent协作场景下,模型、代码和数据需要频繁共享上下文。如果CPU与GPU之间无法高效访问同一份数据,系统就需要不断进行数据复制和搬运。DGX Station优化的,正是这种本地协同成本。

04 物理AI落地,先过数据、验证“两道关”

如果说Agent AI解决的是数字世界里的任务执行,那么物理AI面对的则是另一个问题:如何让机器人、车辆和工业系统学会在真实世界中行动。

与语言模型主要学习人类已经产生的知识不同,物理AI需要学习的是现实世界的运行规律。机器人迈出一步后是否会失去平衡,车辆变道后周围交通会如何变化,机械臂抓取物体时目标会不会滑落,这些问题都不是语言问题,而是物理世界状态变化的问题。

因此,物理AI需要的不仅是模型,更需要一套覆盖数据生成、环境构建、模型训练、策略验证和边缘部署的完整开发体系。

为此,NVIDIA此次更新了开源物理AI技能与工具集合。其中,Omniverse负责构建基于OpenUSD的仿真与数字孪生环境;Cosmos负责物理世界的推理与生成;Isaac面向机器人仿真和学习;Metropolis提供视觉AI能力;Alpamayo服务自动驾驶开发;Jetson则负责将训练完成的模型部署到边缘设备运行。

这些产品看起来分散,但实际上对应着物理AI开发链路上的不同环节。

而在整条链路中,Cosmos 3是最核心的基础模型之一。

截取自:Github

Cosmos 3是一款面向物理AI的开放世界模型,采用混合Transformer架构,能够同时处理文本、图像、视频、声音、观察数据以及动作信息,并预测未来场景的发展变化。

在此基础上,NVIDIA提出了“世界推理(World Reasoning)”能力。

简单来说,世界推理回答的是这样一个问题:如果执行某个动作,接下来会发生什么?

例如机器人向前迈一步会不会跌倒,自动驾驶车辆变道后周围车辆会如何响应,工厂设备调整参数后是否会影响后续工序。

而“世界动作模型(World Action Model)”则进一步把这种预测转化为可学习的经验,让机器人、车辆和工业系统能够从中学习如何决策。

事实上,对于物理AI而言,这种能力的重要性在于解决训练数据的问题。因为物理AI所需的数据,与互联网时代的大模型截然不同。

机器人需要学习抓取和移动,自动驾驶需要学习道路交互,工业系统需要学习设备运行状态。而很多极端场景在现实世界里既昂贵又难以采集。真实道路上的危险驾驶场景不会每天发生,工厂里的异常故障也不可能为了训练模型反复制造。

所以,NVIDIA将Cosmos与Omniverse结合,开发者能够生成大量原本难以获得的训练样本,用合成数据扩大训练覆盖范围,并减少真实环境中的数据采集和人工标注成本。

这条路径目前已经进入实际产业场景。

和硕利用缺陷图像生成技能,将模型训练和部署时间缩短67%;台达电子利用合成缺陷数据检测金属母线过度焊接,检测率提升17%;英业达将笔记本电脑机箱制造中的缺陷数据收集工作量减少30%;Foxconn则与DeepHow合作,将一次通过率提升约3%。

这些场景中,均是先利用生成式AI扩大训练覆盖范围,再减少真实产线上的数据采集和标注负担。

数据只是第一步,对于自动驾驶、机器人以及先进制造而言,更大的挑战在于验证。因此,物理AI还需要一个能够反复试错的数字世界,这也是Omniverse和数字孪生体系存在的原因。

辅助驾驶场景就是典型案例。

理想汽车、千里科技和元戎启行正在利用Omniverse NuRec进行神经场景重建和渲染,每天生成超过1000个重建场景以及30多万次渲染与仿真。

这一过程中,Omniverse NuRec的作用,是把真实车队采集到的道路数据重建为可交互、可仿真的三维环境。

Omniverse NuRec(截取自:NVIDIA)

这样一来,开发团队就能够在同一个路口、同一段道路上反复测试不同的传感器配置、驾驶策略以及长尾场景,而不必每次都重新回到真实道路采集数据。

先进制造业同样遵循这一逻辑。NVIDIA透露,台积电还在探索基于Omniverse构建FabTwin数字孪生晶圆厂。

当数据和环境都具备之后,就来到了物理AI最关键的难关——让系统学会决策。这是开环训练与闭环训练的差别。开环训练检验的是模型面对历史数据时预测是否准确;闭环训练则会把模型做出的动作重新反馈到环境中,让下一轮观察受到这个动作影响。

现实世界里的错误往往会不断累积,因此闭环训练比单纯预测更接近真实环境。

针对这一环节,对应的是NVIDIA即将更新的Alpamayo 2 Super和AlpaGym。

Alpamayo 2 Super是一款320亿参数的开放推理模型,用于自动驾驶场景中的推理、规划、标注和评估;AlpaGym则提供开源闭环强化学习框架,让开发者能够在仿真环境中持续训练和优化自动驾驶策略。

场景上,NVIDIA与宇树科技联合推出Unitree H2 Plus人形机器人参考设计,搭载先进五指灵巧手(Sharpa Wave 触觉五指手,22 自由度)、Jetson Thor以及Isaac GR00T相关能力,并计划于10月推出。

截取自:NVIDIA

05 “AI工厂”开始比拼运行逻辑

到这里,GTC 台北 2026的核心逻辑已然逐渐清晰。

过去几年,AI基础设施竞争讨论最多的是芯片。行业习惯比较参数、比较算力规模、比较集群数量。算力越强,似乎就意味着竞争力越强。

但Agentic AI的出现,正在改变这套逻辑。一个Agent完成任务的过程中,需要访问数据、调用工具、执行代码、与其他Agent协同,并不断根据环境变化调整行动。此时,决定效率的因素是整个系统能否稳定地完成任务流转。

这也是为什么黄仁勋在整场演讲中反复强调Token。

Token产生得越快、成本越低、质量越稳定,AI工厂的运营效率就越高。从这个角度看,AI工厂的竞争也正在发生变化。固定电力预算下能够产生多少计算产出,任务执行过程中有多少等待时间,资源利用率能做到多高,系统扩展时会不会影响稳定性,安全治理能否跟上自主Agent的执行速度,这些问题开始变得和芯片性能同样重要。

因为对于企业而言,采购只是一次性支出,而运营才是长期成本。企业最终关心的,仍然是投入的资源,能够转化为多少实际业务价值。

而这恰恰也是AI工厂与传统数据中心最大的区别。

前者衡量的是容量,后者衡量的是产出。

因此,当下的产业逻辑是,当AI进入Agent时代之后,基础设施竞争开始从“谁拥有更强的算力”,逐渐转向“谁能够把算力变成持续运行的生产力”。

而后者,正在成为下一阶段AI产业竞争的新起点!