个体10倍提效，组织却不足20%？AI产业正迎来Agent落地大考

“过去9个月，我们公司最大的实践就是，有了AI Coding以后，工程师们比原来更忙、加班更多，晚上也睡不着觉，因为他总要等着AI的结果。” 平凯星辰（TiDB）副总裁刘松在会上，抛出了企业侧用上Agent 后的真实感受。“新应用整体提效接近10倍，老应用三四倍，但公司整体提效却不到20%。” 这并非个案，而是当前AI落地进入深水区的缩影。近日，由清华大学全球产业研究院主办、中关村科学城管委会支持的，人工智能+生态大会（AIEC 2026）在北京举行。来自国家信息中心、IDC、阿里云、腾讯、浪潮信息、阶跃星辰、百川智能等众多机构与企业代表参与分享。透过大会的宏观研讨与分论坛的微观实证，一个与以往“AI带来指数级效率革命”截然不同的真实产业图景正在浮现：当大模型基础能力逐渐触顶，行业正集体撞上“工程化约束与组织重构”的暗礁。决定AI能否创造生产力的，已不再是单纯的智力峰值，而是Token经济效率、严苛的工程约束体系，以及尚未建立的人机协同规则。评价标准生变国家信息中心信息化和产业发展部主任单志广指出，AI正全面迈入推理阶段，Token调用量呈指数级增长，成为贯通电力、算力、模型服务和应用价值的新型经济单元。这意味着，基础设施的评价标准正从追求算力峰值，转向单位能效、成本效益与场景服务能力。这一宏观判断在产业界得到了广泛印证。阶跃星辰模型GTM负责人龚关直言，模型竞争的下一个前沿不再是峰值智能，而是“可规模化的高效智能”。真实的Agent任务，往往包含几十次工具调用和上百轮推理，一次对话的成本可以接受，但一个长链路Agent任务跑下来，成本就变成了规模化的绝大障碍。无独有偶，Kimi大模型相关负责人也表示，模型竞争不再只看绝对能力，而要看单位时间、单位Token、单位成本内能产生多少有效性能。阶跃星辰 Stepfun · 模型GTM负责人龚关分享，阶跃新推的Step3.7Flash模型，其代码能力达到头部闭源模型约97%的水平，但成本仅为后者的九分之一。这种产品逻辑背后隐藏着一个重要判断：未来真实生产环境中的Agent不会每次都调用最强模型，而是采用“混合编排”——在关键节点用强模型做判断，其余高频执行环节交给高效模型跑流程。这对企业的采购与技术架构提出了新要求：不再迷信“买最贵的就是最好的”，而是需要真正懂得如何对Agent进行编排和成本控制。 10倍个体提效，为何换不来20%组织提效？在AI Coding领域，基础能力的跨越有目共睹。清华高等研究院副研究员陈松指出，SWE-bench（软件工程测试基准）的综合完成率在两年内从10%多跃升至接近95%。他将AI编程分为五级，L1级（单文件脚本、网络爬虫）已完全可以交给AI，但L5级（涉及国家安全、金融核心逻辑）则是“严禁使用”。然而，能力的跃升并未直接转化为组织的线性提效。 TiDB是个激进的实验者——300多名工程师被要求不直接写代码、也不review代码，90%的工作交给多智能体协作完成。自测显示，新应用整体提效接近10倍，老应用三四倍。但刘松随后补了一个关键数据：“对于个体的提升已有数倍，但对于一个集体、一个软件公司，整体提效还没有人超过20%。” 个体层面10倍与组织层面不足20%的巨大落差，暴露了AI原生组织体系的缺失。刘松指出，问题出在上下文管理、权责边界上。陈松提到的另一个细节也颇具警示意味：Stack Overflow的问题量在2022年后断崖式下滑，其积累的高质量问答数据被用来训练了大模型，但网站本身却因没有推出产品级应对方案而衰落。这印证了一个现实：拥有数据或技术不等于拥有护城河，将其转化为有约束、可落地的工程产品才是关键。浪潮信息董事长彭震提出“Humagent（Human+Agent）”组织概念，则呼吁将管理对象从人、财、物扩展到数字员工和智能能力。在Humagent框架下，人更多聚焦在系统性、前瞻性工作，包括目标设定、架构、方向规划，要把握方向、把握全局，发挥责任兜底和把关作用。Agent则更多承担一些高频执行工作，构建起人机优势互补、权责清晰、协同共生的AI原生组织形态。但在实操层面，当人与智能体并存时，KPI怎么算？出了生产事故谁担责？正如刘松坦言：“把今天强大的Coding Agent放在现有人类组织里，会有非常多的不适。” 工程化填坑当企业试图将AI从试验推向生产，开放工具与企业级平台必须承接执行闭环。阿里云Qoder解决方案总监韩红娜认为，软件开发正从Code First转向Agent First；腾讯资深产品专家汪晟杰也强调，企业不需要更聪明的聊天机器人，需要的是能干活、靠谱的数字员工。浪潮信息系统软件研发部研发经理徐潇分享了 AI Coding 走出“玩具期”的真实痛点，智能体在遇到难题时会“逃避”谎报完成，甚至为了刷测试通过率而擅自修改断言。要解决这些不可靠、不可控的问题，必须引入严格的工程约束。在企业级Agent落地中，记忆与安全是被普遍低估的两大工程挑战。记忆张量解决方案架构师陈玉涛指出，Memory是Agent从“能用”到“好用”的分水岭。他将Agent Memory拆分为抽取、组织、检索、更新、共享五层，并点破了一个认知误区：幻觉率最高发的环节是抽取和更新，而非大多数人以为的检索。如果只把历史记录扔进向量库，是搜不到“我昨天跟你聊了什么”的，必须通过结构化抽取（把“我”和“你”设为主体，“昨天”设为时间）才能被精准检索。缺乏深度的记忆处理，企业Agent永远只能处理浅层任务。安全问题同样不是简单的配置题。上海人工智能实验室青年科学家、书安智能体操作系统负责人杨超直接点破了当下“养虾热”——即部署OpenClaw/Claude Code等自主智能体——的实际风险：工具注入、越权访问、提示词注入；市面上甚至出现了专门帮人“装OpenClaw”和“卸OpenClaw”的服务。在其服务的联通停复机判责案例中，难点根本不是AI能不能做决策，而是高并发下的稳定性，以及如何防范用户通过提示词注入，来欺骗系统以骗取复机。没有底层的隔离沙箱和非侵入式安全监控等零信任架构，Agent进入核心业务系统就是灾难。场景验证与落地的真伪之辨 AI能否规模化落地，必须在真实产业场景中验证。美的集团通过沉淀工艺、供应链等经验，打造了1.3万个智能体，推动制造业全流程重构。素源矩阵作为依托智能体的“一人企业”（OPC），在建材工业连续生产场景中，通过“机理模型+实时数据+人工确认”的协同决策，仅用4周便实现了产品合格率的提升和单吨成本的下降。但汉得信息AI解决方案中心交付总监王强从交付视角指出，工业领域对AI的容忍度极低。一旦动了生产排程，出现事故成本极高，AI落地决不能是“技术的自High”。另一个隐秘的落差在于“试运行”与“真生产”的距离。 Dify解决方案架构师杨振南透露，其平台代码拉取量超500万次，覆盖150多个国家。但拉取量、试用次数与真正在核心生产线上跑通的部署之间，存在巨大的转化漏斗。把“已经开始试”和“真正跑通了”区分开来，是眼下这个阶段做判断最基本的前提。整体来看，AIEC 2026折射出中国AI产业落地的清醒认知。开源模型打破了智能

订阅66必读