全网首份指令级拆解：看华为昇腾 950DT 芯片如何撬动 DeepSeek 75%降价与字节锁单

距离正式上线华为云还有两个月，华为的最新 AI 芯片昇腾 950DT，已经被提前放到了显微镜下。近日，华尔街知名半导体研究机构 SemiAnalysis 已经率先拿到样机，围绕 950 系列运行 DeepSeek V4 的推理链路进行了 Trace 级拆解。从芯片架构、并行调度、融合算子到 MoE 通信，报告深度解构了华为这款国产高端 AI 芯片是如何压榨极致性能，承接 DeepSeek V4 的核心推理负载需求的。（注：芯片的 Trace 分析是指利用专用软硬件记录芯片内部程序的运行轨迹、时序和性能数据）值得注意的是，这不是一次普通的“适配”分析。SemiAnalysis 在报告中明确提到，DeepSeek V4 的部分架构，是为华为昇腾推理进行协同设计的，“in part co-designed for Huawei Ascend inference”。也就是说，昇腾 950DT 并非在模型发布之后被动接入 DeepSeek V4，而是更早参与到了模型推理路径、硬件执行方式和软件栈优化的共同打磨中。这也是 950 系列真正值得关注的地方。它有望成为推动 DeepSeek 从英伟达底座转向国产昇腾底座的关键节点，而这种迁移与转向往往是不可逆的。过去，国产 AI 芯片一直被放在“能不能替代英伟达”的叙事下讨论。但 DeepSeek V4 把问题往前推了一步：它不是简单证明国产芯片能跑大模型，而是开始验证国产芯片能否支撑得起顶级模型的低成本、高并发推理。 DeepSeek V4 把 950DT 推向前台在 DeepSeek V4 官方技术报告中，昇腾 950 已经与英伟达 H100/H800 一起进入硬件验证名单。950 系列可分为两个版本：950PR 面向 Prefill 和推荐场景，950DT 则面向 Decode 和训练场景。前者解决当下供给，后者瞄准大模型推理里最烧钱的一段。在训练端，由于此次 V4 放弃了多头注意力机制 MLA（Multi-head Latent Attention），首次采用了全新的压缩稀疏注意力机制 (CSA) 、高度压缩注意力机制 (HCA)架构。对此，华为官方直言“离不开昇腾 950 超节点的协同”。推理端，V4 把百万上下文的价格打到 2 毛钱，较 Anthropic 便宜 50 倍左右，这背后同样少不了双方在底层芯片、推理框架、低精度计算和通信优化的共同作用。换句话说，DeepSeek 的“价格屠夫”标签，不只是模型侧的胜利没，更是一场由模型架构、芯片带宽、编译器、融合算子、推理框架和云服务共同参与的成本战役。昇腾 950DT 的含金量，正体现在它进入了 DeepSeek 这套成本结构的核心环节。而这种成本优势，反映到市场上则是极具竞争力的商业价值。根据 Vercel 最新发布的 5 月 AI Gateway 生产指数，随着 4 月 DeepSeek V4 上线，DeepSeek 的 Token 流量份额从不足 1% 快速升至 17%，超越 OpenAI，位居第三，在一众海外模型中杀出重围。流量爆发的背后，价格是最直接的驱动力。 DeepSeek 早些时候在官网明确指出：“预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。” 随后，便宣布 DeepSeek-V4-Pro API 永久降价至原价格的四分之一。这也直接印证了 V4 的 API 正深度依赖 950 部署，且成本结构仍有极大的优化空间。 DeepSeek V4 的强大背书，给了 950DT “产品层面可验证”的底气，随即点燃了互联网大厂的采购热情。（注标题里的 BAT 指字节、阿里与腾讯） 4 月以来，昇腾 950 系列订单持续升温。据此前路透社报道，字节已拿下一半产能，阿里、腾讯分别跟进数十万颗。中国移动在 2026-2027 年度 AI 超节点设备集采清单中，也指定了 776 套昇腾节点设备，折合 6208 张 AI 加速卡。所以，SemiAnalysis 的这份报告，不仅是全网首份在 950DT 正式上市之前、对其推理架构进行 trace 级别拆解的分析，也是 DeepSeek 与昇腾强耦合研发、国产大模型基于国产芯片进行原生开发的首次揭秘。芯片架构：四个核心计算单元 950 系列共用同一颗 Ascend 950 Die，采用双 Die UMA（统一内存访问）架构——两颗 Die 通过高带宽总线直连，在操作系统层面呈现为单一设备，而不是两块需要显式通信的独立芯片。由于采用了不同的封装内存方案，950 系列分两个版本：950PR 和 950DT。 • 950PR（Prefill and Recommendation）：今年 3 月已量产，面向推理预填充阶段和推荐系统，侧重成本优化 • 950DT（Decode and Training）：搭载华为自研 HiZQ 2.0 内存，144GB 容量，带宽 4TB/s，专为 Decode 阶段和大模型训练设计，8 月上线华为云 Decode 阶段是典型的访存密集型任务，模型每次生成一个 token 都需要从内存里读大量 KV cache，带宽的提升直接对应吞吐的提升。这也是 950DT 命名里 "D" 的意义所在。值得一提的是，华为在 CANN 内部代码库中，把昇腾 950 系列的代号定为 "David"。这个名字在多处源码文件中都有引用。在某种程度上，也可以解读为，华为自己选择了”巨人对少年“的隐喻：弱者拒绝在强者最强的维度上竞争，用一个精准的点，打中对方的软肋。事实上，“以小博大”的精髓在昇腾和 DeepSeek 两个团队身上都有极致的展现。（注：David 出自《圣经·撒母耳记》。以色列少年牧童大卫（David）面对的是非利士人的巨人武士歌利亚（Goliath），身高近三米、全身铠甲。大卫没有跟他正面硬拼，而是用一根弹弓投出一颗石子，精准击中歌利亚额头，当场将其击倒。）从芯片内部看，Ascend 950 Die 包含四类关键执行单元，后面所有优化都建立在这套分工之上。第一类是 AI Cube，也就是 AIC。它负责大模型里最重的矩阵和张量计算，包括矩阵乘 GEMM、注意力投影 attention projection、FFN 线性层等。相当于英伟达架构里的 Tensor Core，或谷歌 TPU 里的 MXU。第二类是 AI Vector，也就是 AIV。它负责逐元素向量操作，比如激活函数、归一化 RMSNorm、类型转换，以及矩阵计算前后的后处理。昇腾在这里做了一个关键设计选择：AIC 和 AIV 是分离的独立核心，各自可以加载自己的代码段，并支持双主并行模式 dual-master mode，不需要互相等待。这种分离让矩阵计算和向量计算能真正并发，而不是排队。第三类是 AI CPU。它是一颗独立的、设备端 ARM64 核，直接挂在设备内存上，专门处理 SIMD/SIMT 核心不擅长的工作，比如分支密集的控制流、标量逻辑、动态 shape 处理，以及内核执行前需要根据实时数值计算的调度元数据。这里最关键的是“设备侧”。关键在"设备端"三个字：这类控制流如果

订阅66必读