开发者生态
morning
全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75%降价与字节锁单
2026-06-17
1 阅读
四月
距离正式上线华为云还有两个月,华为的最新 AI 芯片昇腾 950DT,已经被提前放到了显微镜下。 近日,华尔街知名半导体研究机构 SemiAnalysis 已经率先拿到样机,围绕 950 系列运行 DeepSeek V4 的推理链路进行了 Trace 级拆解。 从芯片架构、并行调度、融合算子到 MoE 通信,报告深度解构了华为这款国产高端 AI 芯片是如何压榨极致性能,承接 DeepSeek V4 的核心推理负载需求的。(注:芯片的 Trace 分析是指利用专用软硬件记录芯片内部程序的运行轨迹、时序和性能数据) 值得注意的是,这不是一次普通的“适配”分析。SemiAnalysis 在报告中明确提到,DeepSeek V4 的部分架构,是为华为昇腾推理进行协同设计的,“in part co-designed for Huawei Ascend inference”。 也就是说,昇腾 950DT 并非在模型发布之后被动接入 DeepSeek V4,而是更早参与到了模型推理路径、硬件执行方式和软件栈优化的共同打磨中。 这也是 950 系列真正值得关注的地方。它有望成为推动 DeepSeek 从英伟达底座 转向 国产昇腾底座的关键节点,而这种迁移与转向往往是不可逆的。 过去,国产 AI 芯片一直被放在“能不能替代英伟达”的叙事下讨论。但 DeepSeek V4 把问题往前推了一步:它不是简单证明国产芯片能跑大模型,而是开始验证国产芯片能否支撑得起顶级模型的低成本、高并发推理。 DeepSeek V4 把 950DT 推向前台 在 DeepSeek V4 官方技术报告中,昇腾 950 已经与英伟达 H100/H800 一起进入硬件验证名单。950 系列可分为两个版本:950PR 面向 Prefill 和推荐场景,950DT 则面向 Decode 和训练场景。 前者解决当下供给,后者瞄准大模型推理里最烧钱的一段。 在训练端,由于此次 V4 放弃了多头注意力机制 MLA(Multi-head Latent Attention),首次采用了全新的压缩稀疏注意力机制 (CSA) 、高度压缩注意力机制 (HCA)架构。对此,华为官方直言“离不开昇腾 950 超节点的协同”。 推理端,V4 把百万上下文的价格打到 2 毛钱,较 Anthropic 便宜 50 倍左右,这背后同样少不了双方在底层芯片、推理框架、低精度计算和通信优化的共同作用。 换句话说,DeepSeek 的“价格屠夫”标签,不只是模型侧的胜利没,更是一场由模型架构、芯片带宽、编译器、融合算子、推理框架和云服务共同参与的成本战役。 昇腾 950DT 的含金量,正体现在它进入了 DeepSeek 这套成本结构的核心环节。 而这种成本优势,反映到市场上则是极具竞争力的商业价值。根据 Vercel 最新发布的 5 月 AI Gateway 生产指数,随着 4 月 DeepSeek V4 上线,DeepSeek 的 Token 流量份额从不足 1% 快速升至 17%,超越 OpenAI,位居第三,在一众海外模型中杀出重围。 流量爆发的背后,价格是最直接的驱动力。 DeepSeek 早些时候在官网明确指出:“预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。” 随后,便宣布 DeepSeek-V4-Pro API 永久降价至原价格的四分之一。这也直接印证了 V4 的 API 正深度依赖 950 部署,且成本结构仍有极大的优化空间。 DeepSeek V4 的强大背书,给了 950DT “产品层面可验证”的底气,随即点燃了互联网大厂的采购热情。(注标题里的 BAT 指字节、阿里与腾讯) 4 月以来,昇腾 950 系列订单持续升温。据此前路透社报道,字节已拿下一半产能,阿里、腾讯分别跟进数十万颗。中国移动在 2026-2027 年度 AI 超节点设备集采清单中,也指定了 776 套昇腾节点设备,折合 6208 张 AI 加速卡。 所以,SemiAnalysis 的这份报告,不仅是全网首份在 950DT 正式上市之前、对其推理架构进行 trace 级别拆解的分析,也是 DeepSeek 与昇腾强耦合研发、国产大模型基于国产芯片进行原生开发的首次揭秘。 芯片架构:四个核心计算单元 950 系列共用同一颗 Ascend 950 Die,采用双 Die UMA(统一内存访问)架构——两颗 Die 通过高带宽总线直连,在操作系统层面呈现为单一设备,而不是两块需要显式通信的独立芯片。 由于采用了不同的封装内存方案,950 系列分两个版本:950PR 和 950DT。 • 950PR(Prefill and Recommendation):今年 3 月已量产,面向推理预填充阶段和推荐系统,侧重成本优化 • 950DT(Decode and Training):搭载华为自研 HiZQ 2.0 内存,144GB 容量,带宽 4TB/s,专为 Decode 阶段和大模型训练设计,8 月上线华为云 Decode 阶段是典型的访存密集型任务,模型每次生成一个 token 都需要从内存里读大量 KV cache,带宽的提升直接对应吞吐的提升。这也是 950DT 命名里 "D" 的意义所在。 值得一提的是,华为在 CANN 内部代码库中,把昇腾 950 系列的代号定为 "David"。这个名字在多处源码文件中都有引用。 在某种程度上,也可以解读为,华为自己选择了”巨人对少年“的隐喻:弱者拒绝在强者最强的维度上竞争,用一个精准的点,打中对方的软肋。事实上,“以小博大”的精髓在昇腾和 DeepSeek 两个团队身上都有极致的展现。 (注:David 出自《圣经·撒母耳记》。以色列少年牧童大卫(David)面对的是非利士人的巨人武士歌利亚(Goliath),身高近三米、全身铠甲。大卫没有跟他正面硬拼,而是用一根弹弓投出一颗石子,精准击中歌利亚额头,当场将其击倒。) 从芯片内部看,Ascend 950 Die 包含四类关键执行单元,后面所有优化都建立在这套分工之上。 第一类是 AI Cube,也就是 AIC。 它负责大模型里最重的矩阵和张量计算,包括矩阵乘 GEMM、注意力投影 attention projection、FFN 线性层等。相当于英伟达架构里的 Tensor Core,或 谷歌 TPU 里的 MXU。 第二类是 AI Vector,也就是 AIV。 它负责逐元素向量操作,比如激活函数、归一化 RMSNorm、类型转换,以及矩阵计算前后的后处理。 昇腾在这里做了一个关键设计选择:AIC 和 AIV 是分离的独立核心,各自可以加载自己的代码段,并支持双主并行模式 dual-master mode,不需要互相等待。 这种分离让矩阵计算和向量计算能真正并发,而不是排队。 第三类是 AI CPU。 它是一颗独立的、设备端 ARM64 核,直接挂在设备内存上,专门处理 SIMD/SIMT 核心不擅长的工作,比如分支密集的控制流、标量逻辑、动态 shape 处理,以及内核执行前需要根据实时数值计算的调度元数据。 这里最关键的是“设备侧”。 关键在"设备端"三个字:这类控制流如果