开发者生态
evening
个体10倍提效,组织却不足20%?AI产业正迎来Agent落地大考
2026-06-18
1 阅读
四月
“过去9个月,我们公司最大的实践就是,有了AI Coding以后,工程师们比原来更忙、加班更多,晚上也睡不着觉,因为他总要等着AI的结果。” 平凯星辰(TiDB)副总裁刘松在会上,抛出了企业侧用上Agent 后的真实感受。“新应用整体提效接近10倍,老应用三四倍,但公司整体提效却不到20%。” 这并非个案,而是当前AI落地进入深水区的缩影。 近日,由清华大学全球产业研究院主办、中关村科学城管委会支持的,人工智能+生态大会(AIEC 2026)在北京举行。来自国家信息中心、IDC、阿里云、腾讯、浪潮信息、阶跃星辰、百川智能等众多机构与企业代表参与分享。 透过大会的宏观研讨与分论坛的微观实证,一个与以往“AI带来指数级效率革命”截然不同的真实产业图景正在浮现:当大模型基础能力逐渐触顶,行业正集体撞上“工程化约束与组织重构”的暗礁。 决定AI能否创造生产力的,已不再是单纯的智力峰值,而是Token经济效率、严苛的工程约束体系,以及尚未建立的人机协同规则。 评价标准生变 国家信息中心信息化和产业发展部主任单志广指出,AI正全面迈入推理阶段,Token调用量呈指数级增长,成为贯通电力、算力、模型服务和应用价值的新型经济单元。这意味着,基础设施的评价标准正从追求算力峰值,转向单位能效、成本效益与场景服务能力。 这一宏观判断在产业界得到了广泛印证。 阶跃星辰模型GTM负责人龚关直言,模型竞争的下一个前沿不再是峰值智能,而是“可规模化的高效智能”。真实的Agent任务,往往包含几十次工具调用和上百轮推理,一次对话的成本可以接受,但一个长链路Agent任务跑下来,成本就变成了规模化的绝大障碍。 无独有偶,Kimi大模型相关负责人也表示,模型竞争不再只看绝对能力,而要看单位时间、单位Token、单位成本内能产生多少有效性能。 阶跃星辰 Stepfun · 模型GTM负责人龚关分享,阶跃新推的Step3.7Flash模型,其代码能力达到头部闭源模型约97%的水平,但成本仅为后者的九分之一。这种产品逻辑背后隐藏着一个重要判断:未来真实生产环境中的Agent不会每次都调用最强模型,而是采用“混合编排”——在关键节点用强模型做判断,其余高频执行环节交给高效模型跑流程。 这对企业的采购与技术架构提出了新要求:不再迷信“买最贵的就是最好的”,而是需要真正懂得如何对Agent进行编排和成本控制。 10倍个体提效,为何换不来20%组织提效? 在AI Coding领域,基础能力的跨越有目共睹。 清华高等研究院副研究员陈松指出,SWE-bench(软件工程测试基准)的综合完成率在两年内从10%多跃升至接近95%。他将AI编程分为五级,L1级(单文件脚本、网络爬虫)已完全可以交给AI,但L5级(涉及国家安全、金融核心逻辑)则是“严禁使用”。 然而,能力的跃升并未直接转化为组织的线性提效。 TiDB是个激进的实验者——300多名工程师被要求不直接写代码、也不review代码,90%的工作交给多智能体协作完成。自测显示,新应用整体提效接近10倍,老应用三四倍。 但刘松随后补了一个关键数据:“对于个体的提升已有数倍,但对于一个集体、一个软件公司,整体提效还没有人超过20%。” 个体层面10倍与组织层面不足20%的巨大落差,暴露了AI原生组织体系的缺失。刘松指出,问题出在上下文管理、权责边界上。 陈松提到的另一个细节也颇具警示意味:Stack Overflow的问题量在2022年后断崖式下滑,其积累的高质量问答数据被用来训练了大模型,但网站本身却因没有推出产品级应对方案而衰落。 这印证了一个现实:拥有数据或技术不等于拥有护城河,将其转化为有约束、可落地的工程产品才是关键。 浪潮信息董事长彭震提出“Humagent(Human+Agent)”组织概念,则呼吁将管理对象从人、财、物扩展到数字员工和智能能力。 在Humagent框架下,人更多聚焦在系统性、前瞻性工作,包括目标设定、架构、方向规划,要把握方向、把握全局,发挥责任兜底和把关作用。Agent则更多承担一些高频执行工作,构建起人机优势互补、权责清晰、协同共生的AI原生组织形态。 但在实操层面,当人与智能体并存时,KPI怎么算?出了生产事故谁担责? 正如刘松坦言:“把今天强大的Coding Agent放在现有人类组织里,会有非常多的不适。” 工程化填坑 当企业试图将AI从试验推向生产,开放工具与企业级平台必须承接执行闭环。 阿里云Qoder解决方案总监韩红娜认为,软件开发正从Code First转向Agent First;腾讯资深产品专家汪晟杰也强调,企业不需要更聪明的聊天机器人,需要的是能干活、靠谱的数字员工。 浪潮信息系统软件研发部研发经理徐潇分享了 AI Coding 走出“玩具期”的真实痛点,智能体在遇到难题时会“逃避”谎报完成,甚至为了刷测试通过率而擅自修改断言。 要解决这些不可靠、不可控的问题,必须引入严格的工程约束。在企业级Agent落地中,记忆与安全是被普遍低估的两大工程挑战。 记忆张量解决方案架构师陈玉涛指出,Memory是Agent从“能用”到“好用”的分水岭。他将Agent Memory拆分为抽取、组织、检索、更新、共享五层,并点破了一个认知误区:幻觉率最高发的环节是抽取和更新,而非大多数人以为的检索。 如果只把历史记录扔进向量库,是搜不到“我昨天跟你聊了什么”的,必须通过结构化抽取(把“我”和“你”设为主体,“昨天”设为时间)才能被精准检索。缺乏深度的记忆处理,企业Agent永远只能处理浅层任务。 安全问题同样不是简单的配置题。 上海人工智能实验室青年科学家、书安智能体操作系统负责人杨超直接点破了当下“养虾热”——即部署OpenClaw/Claude Code等自主智能体——的实际风险:工具注入、越权访问、提示词注入;市面上甚至出现了专门帮人“装OpenClaw”和“卸OpenClaw”的服务。 在其服务的联通停复机判责案例中,难点根本不是AI能不能做决策,而是高并发下的稳定性,以及如何防范用户通过提示词注入,来欺骗系统以骗取复机。 没有底层的隔离沙箱和非侵入式安全监控等零信任架构,Agent进入核心业务系统就是灾难。 场景验证与落地的真伪之辨 AI能否规模化落地,必须在真实产业场景中验证。美的集团通过沉淀工艺、供应链等经验,打造了1.3万个智能体,推动制造业全流程重构。 素源矩阵作为依托智能体的“一人企业”(OPC),在建材工业连续生产场景中,通过“机理模型+实时数据+人工确认”的协同决策,仅用4周便实现了产品合格率的提升和单吨成本的下降。 但汉得信息AI解决方案中心交付总监王强从交付视角指出,工业领域对AI的容忍度极低。一旦动了生产排程,出现事故成本极高,AI落地决不能是“技术的自High”。 另一个隐秘的落差在于“试运行”与“真生产”的距离。 Dify解决方案架构师杨振南透露,其平台代码拉取量超500万次,覆盖150多个国家。但拉取量、试用次数与真正在核心生产线上跑通的部署之间,存在巨大的转化漏斗。 把“已经开始试”和“真正跑通了”区分开来,是眼下这个阶段做判断最基本的前提。 整体来看,AIEC 2026折射出中国AI产业落地的清醒认知。开源模型打破了智能