推荐系统进入“大模型时刻”：昇腾NPU如何支撑千亿级生成式推荐落地

导语：在推荐系统跨入大模型时代的当下，如何利用国产算力底座支撑起千亿级参数模型的高效训推，已成为工业界关注的核心课题。本文基于华为主任工程师郭威在 2025 AICon 全球人工智能开发与应用大会·北京站的演讲《基于昇腾NPU的生成式推荐Scaling Law落地实践》，他深度复盘了华为在推荐技术演进中的前沿探索——从早期对特征工程与模型结构螺旋式上升的探索，到生成式推荐时代的全面转向。文章详尽披露了FuXi-α、β系列模型的设计思路，揭示了如何通过极致系统优化，解决大规模分布式训练和低时延推理难题。更具工程参考价值的是，他首次公开分享了华为在“多阶段统一建模”领域的突破性进展，以及针对推荐系统定制的 Performance Law（性能定律）。该定律通过引入“真实熵”度量，精准修正了传统 Scaling Law 在推荐场景下的预测偏差，为极低成本下的参数寻优提供了科学依据。以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）背景介绍 2024年之前的深度学习推荐技术，主要沿两大路径演进：一是特征交叉建模，以DeepFM、DCN等为代表，核心依托特征交叉模块，自动挖掘或人工构造高阶交叉特征，实现特征间复杂依赖关系的建模；二是行为序列建模，早期研究聚焦短序列场景，借助DIN模型的目标注意力机制及Transformer结构刻画用户短期兴趣。2021至2022年，长序列建模成为行业研究热点，普遍采用两阶段检索方式，从超长行为序列中萃取关键信息，完成用户兴趣表征。进入生成式推荐系统阶段后，技术演进依旧分化为两条核心路径。第一条为端到端模型Scaling Law，以探索模型规模上限为核心，依托生成式架构对用户全量行为序列进行统一建模，以单一大模型替代传统推荐系统召回、粗排、精排、重排多环节架构，达成推荐全流程端到端建模；第二条自2025年下半年起逐步获得业界重视，核心以大语言模型重构底层技术底座，搭建用户行为与大模型的对齐表征空间，借助大模型的逻辑推理能力赋能推荐效果升级。如图所示，展示了2025年业界生成式推荐技术的全景概览。可以看到，2025年是生成式推荐技术快速爆发的一年：不仅有十余家知名机构相继发布标志性成果，相关研究工作也呈现出持续涌现的态势。整体来看，该领域已经形成较为清晰的技术演进脉络，并可以归纳为三大显著趋势。首先，模型结构的持续创新。技术演进路径从早期的 HSTU 序列规模化（Scaling），逐步发展到 RankMixer 所代表的特征交互规模化，演进至近期 OneTrans 与 Meta GEM 等模型所采用的融合规模化方案。华为在此领域也贡献了华为FuXi- α 、β 及 DLF 等工作。其次，训练范式的革新。随着模型参数规模的扩大及其表征能力的增强，业界开始尝试利用单一模型统一推荐系统中的多个阶段，推动了从单阶段建模向多阶段联合训练的范式转变。这一趋势的典型代表包括华为的UniGRF、快手的OneRec-V1与OneRec-V2，以及腾讯近期推出的GPR。最后，训练方式逐步从“从零训练”转向基于大语言模型的增量式训练。该方向的代表性工作包括谷歌 PLUM 以及快手 OneRec-Think。该范式的核心优势在于引入 LLM 的通用知识与推理能力，从而增强模型对用户行为序列与意图语义的理解能力，并提升整体推荐质量与泛化能力。模型架构探索首先从模型结构的探索展开，重点介绍FuXi- α 、β 模型。自2024年2月Meta发布HSTU以来，推荐系统领域迎来了属于自己的 “ChatGPT 时刻”，业界发现推荐系统同样具备Scaling Law。受到大语言模型的启发，我们深入开展了基于自回归Transformer的序列建模研究。通过对GPT、Llama、SASRec 以及 HSTU等典型模型结构，进行复现与对比分析。实验结果表明，传统的SASRec和GPT在推荐系统场景中不具备规模化效应，而Llama和HSTU则能够呈现出该效应。通过分析其核心原因，我们发现模型结构中的残差连接方式与归一化策略起着关键作用。以 Llama 和 HSTU 为代表的结构，将归一化置于注意力机制之前，使特征分布更加稳定与均匀，从而更好支持大规模模型训练。基于上述分析，我们对经典的SASRec模型进行了优化，通过改进其残差结构，并引入时间建模，使其成功展现出规模化效应。这一研究结果表明，规模化效应的核心在于通过合理的结构设计约束表征空间，从而实现模型的更好收敛。在对现有结构进行充分评估后，我们发现了新的研究挑战：其一，Llama虽在语言建模任务中表现优异，却缺失了推荐系统中至关重要的时间信息；其二，以HSTU为代表的架构虽融合了语义、时间与位置信息，但由于其处理方式较为简单，导致特征交互深度不足，且关键特征的重要性易被掩盖。此外，HSTU为追求极致的加速效果，舍弃了FFN模块，进而忽略了特征之间的隐式交互。针对上述局限，华为提出FuXi-Alpha架构，其核心设计理念为特征交互增强，具体设计方案如下：其一，引入自适应多通道显式特征交互增强机制。相较于HSTU通过简单叠加语义、位置及时间信息所导致的信息丢失问题，FuXi-Alpha通过构建三个独立通道分别开展特征交叉操作，后续进行拼接处理，可更完整地保留多维特征的表达能力。其二，设计并引入多阶段前馈网络（FFN），以强化隐式特征交互建模。借鉴DeepFM与DCN等经典模型的成功实践经验，深度神经网络模块对推荐系统捕获复杂模式具有重要意义，因此FuXi-Alpha构建了两阶段FFN结构。该两阶段FFN结构的具体功能的为：第一阶段负责多通道信息的深度融合，第二阶段则执行隐式特征的交叉建模。上述设计具备显著优势：一方面能够确保特征交叉建模的充分性；另一方面，由于FFN的核心操作主要基于矩阵乘法，具有极高的硬件计算亲和性，可有效提升模型的MFU。如图所示的实验结果表明，在 2 层及 8 层配置下，Fuxi Alpha 均展现出优于 Llama 与 HSTU 的性能表现。实验数据进一步验证，显式特征交互与隐式特征交互两项技术创新，能够显著增强模型整体效果。基于大规模真实工业数据集的评测结果，我们观察到 Fuxi Alpha 具备优异的 Scaling 潜力，模型效果随网络深度增加呈持续提升趋势，目前已成功验证至 32 层。在进一步扩展至 64 层的过程中，由于当时显存优化方案尚未完全成熟，训练过程中出现 NPU 显存溢出（OOM）问题，但整体性能演进趋势依然清晰且稳定。目前，该模型已在召回场景实现全量上线，并取得显著业务收益。具体数据显示，歌曲播放次数提升 4.67%，播放时长增长 5.1%。为了更深入地理解 Fuxi Alpha 的内部机制，我们对其 Attention Map 进行了可视化分析。在热力图矩阵中，横轴与纵轴分别对应注意力计算中的 Query 与 Key，其数值大小用于表征不同特征之间的交互强度。分析结果显示，语义通道的最大注意力权重仅为 0.07，而时间与位置通道分别达到 0.15 与 0.25。其中，时间通道呈现出较为显著的全局性高权重分布特征，而位置通道的注意力分布则相对稀疏，但在

订阅66必读