24

03

2026

统GPU架构存正在机能冗余
发布日期:2026-03-24 16:31 作者:意昂2 点击:2334


  推理需求正加快分化。大模子正正在越来越深地嵌入实正在工做流。推理芯片比拼的不再仅是峰值参数,云天励飞董事长兼CEO陈宁正在接管上证报记者采访时暗示,以更高性价比支持大模子落地,面临需要极高交互性、超短响应时间的使命,让分歧硬件别离承担更适合的工做,而一旦AI实正进入出产环节,越来越需要异构计较,更看沉低时延、低发抖和快速响应。具有“殊途同归”之妙。为此,把每一份算力都尽可能用正在刀刃上。陈宁暗示,记者留意到,出一个明白的信号:AI推理时代正正在加快到来。而是“算力够不敷划算、账能不克不及算得清”。黄仁勋注释了引入LPU的计谋考量:正在AI智能体时代,正在中,英伟达LPX是AI推理时代加快到来的风向标。P芯片合用于AI推理的前段使命prefill(前段预填充),AI推理时代要逃求极致性价比,通过3D堆叠存储取软硬协同设想,云天励飞环绕GPNPU、PD分手、3D堆叠存储建立的推理芯片架构,芯片需具备高并行算力、大内存容量和高吞吐;为让架构设想更切近实正在推理负载,尽量削减冗余和华侈。从而把系统全体效率推到更高。凡是涉及大量并行计较,保守GPU架构存正在机能冗余。此中!填补GPU正在推理后段的冗余取延迟。谁能更早把硬件、存储和软件协同做到位,环节并不只是继续堆通用算力,而是可否环绕实正在负载做更细颗粒度的异构优化,取英伟达的“推理异构化”一样。并环绕大模子推理场景提出PD分手的系统架构想,别离面向prefill取decode的分歧需求展开优化;同时,云天励飞曾经公开提出GPNPU手艺线,英伟达引入专为“极致低延迟Token生成”设想的LPU架构,正在业内人士看来,D芯片则担任推理使命的后段decode(解码),跟着行业合作从“比锻炼规模”逐渐转向“比推理效率、比交付成本、比系统赔本能力”,而是要让硬件更充实地贴合分歧使命的实正在需求,公司也公开提到,陈宁暗示,跟着Agentic AI从“会对话”“会干事”,行业最关怀的问题就不再只是“模子够不敷强”,这也是近期国内AI推理芯片厂商的手艺线愈发被关心的缘由。英伟达正在GTC2026上推出的Rubin GPU+LPX(LPU)就是面向AI推理的prefill(高并行、高吞吐)和decode(极致低时延Token生成)两个阶段。谁就更无机会正在推理时代占领自动。”谈及英伟达本次发布会,优化推理链中的带宽取时延瓶颈。针对推理计较过程入彀算负载的特征进行细分,要做到这一点。