智能AI morning

国产通用大模型第一梯队,来新人了?!

2026-06-09 1 阅读 一水
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 国产通用大模型第一梯队,来新人了?! 一水 2026-06-09 10:55:08 来源: 量子位 不卷参数,卷“智能密度×Token价值” 一张新面孔,就这样闯入了国产通用大模型第一梯队。 走的还不是行业主流的“堆参数”路径。 这事放今天,谁听了不想火速围观一下?? 我也不例外,而且我还顺便挖了一下这家公司这样做的原因(好奇.jpg)。 结果你猜怎么着?答案居然如此“直击灵魂”—— 再走传统老路,你我的Token钱包是真扛不住了 。 △图片由AI生成 这事还得从过去几年行业默认的“堆参数、堆算力”玩法说起,得益于“大力出奇迹”这条法则,大模型确实变得越来越聪明,但账单也越来越离谱。 尤其进入推理时代、Agent时代后,这一问题肉眼可见变得更加突出了: 为了让模型“想得更深”,行业主流做法是让它把思考链条逐Token展开,结果Token消耗越来越夸张。 传导到行业参与者,企业开始天天愁赚不到钱,我们普通人也日常陷入“Token不够用、用不起”的焦虑。 所以,该怎么给大家精准止痛呢? 今天这位玩家,港股AGI第一股云知声,带着它的新一代基座模型U2,来了。 U2不卷参数,卷“智能密度×Token价值”。而且说是通用大模型,但骨子里其实是个原生智能体模型 。 说白了,U2的一切都是为了“让单位Token发挥出最大智能”而设计的。 你问效果如何?数据很能说明问题: U2在多项关键评测上,以极低的激活参数规模比肩甚至超越体量大得多的对手,思考Token消耗量可减少约25%,在压缩思考Token消耗的同时,推理成本显著低于同尺寸规模大小模型 。 能力不减、Token更少、成本还打下来了,U2到底是怎么做到的? U2有多能打?实测一下 怎么做到的先不谈,咱先回答一个问题:这瓜保真不?(潜台词≈U2真实有多能打) 答案是, 确实有点东西 。和同类模型比,U2最明显的差异有两个: 一是特别能干活,IFBench指令遵循、Claw系列Agent评测、GDPval办公能力评测都打到了前排,而且完成复杂任务的交互轮次更少,不会动不动卡壳来回折腾; 二是“以小胜大”,GPQA硬核推理和长文本理解上,仅凭极低激活参数,打出了接近甚至超过部分超大模型的效果。 等于说,又能干活、又不靠烧算力,这两件事U2同时做到了。 好好好,我已经忍不住要用它跑跑真实案例了。 目前U2已正式上线云知声Token Hub,个人、开发者及组织均可体验 。它支持OpenClaw/Hermes等主流Agent脚手架,可无缝对接现有开发流程,适配成本较低。 既然U2擅长开发,一上来我就打算给它“挖坑”,出一道开放性题目(doge)。 提示词大致为: 做一个值得上Awwwards的前端demo,可自由选择创意主题,单文件HTML、不用外部库 。 这道题没有标准答案,考的是模型在没有约束时能主动展示多高的上限。 按照惯例,弱模型一般会选择做普通官网、卡片布局或按钮动画,而强模型会主动往粒子宇宙、流体模拟、物理引擎这个方向走。 结果U2很快就交出了一个交互式粒子宇宙,将近1000行代码,没有引用任何外部依赖,全部原生实现 。 视频地址:https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 打开HTML,鼠标移动会扰动附近粒子的运动轨迹,点击会触发吸引、排斥、环绕三种模式的切换,左上角面板还能实时显示当前粒子数量及运动状态。 日常感慨一下,以前考大模型,顶多是让它在六边形里转小球。现在倒好,直接上这种生产力级的Vibe Coding了。 而说到Vibe Coding,最近刚好有个想法想实践一下: 做一个12星座版的《TA到底在想什么》应用 。 网上冲浪时经常刷到那种,求网友帮忙分析“crush到底什么意思”的帖子,脑瓜子一转,商机这不就来了。 于是我立马扔给U2一些模糊描述,核心需求是能不能结合对方星座,判断对方某些话或动作背后的真实意图。 结果U2一口气搞定了五大功能模块,挨个测试每项功能都能正常使用(聊天记录为AI生成),尤其比较惊喜的是它还想到了AI回复这一点,好吧,我承认AI你还是在我之上。 视频地址:https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 如果说上面这些还只是体现了U2的Agent开发能力,那么最后这个则是真正考验它的推理和研究深度—— 我让U2对OPC(一人公司)赛道做一次全景式深度研究,要求输出结构完整、有数据支撑的可交互HTML报告。 全程没给任何资料,没有指定数据来源,就一句指令。 没想到U2却交出了一份让人眼前一亮的报告: 视频地址:https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 左侧固定导航,右侧内容区从产业概述、核心数据、行业分布一路覆盖到政策解读和未来展望……页面底部显示数据均出自国家市场监督管理总局、中国OPC发展调研报告2026等公开数据。 数据有出处,判断有逻辑,不是凑字数,是真在做研究。 三个案例跑完,回头看会发现它们分别在验证U2的三条能力线: 粒子宇宙考Coding,没有脚手架也能交出生产级代码;星座应用考Agent,需求模糊、模块繁杂,照样没卡壳没返工;OPC报告考Reasoning,零资料输入也能把研究做出来 。 更关键的是,三个任务U2还都没靠堆Token换结果。 嗯?这是咋回事?U2到底是怎么做到又好又省的? U2为什么能做到 转了一圈,我找到的答案是: 从理念到工程设计,U2和过去流行的那套全都不一样 。 U2的设计理念,其实就是开头提到的 “智能密度×Token价值” 。 听起来有点抽象,不妨结合云知声创始人黄伟的话来理解: 用更高效的资源投入,用模型架构工程能力方面的优化,打造出能满足绝大多数场景的智能水平,这就是智能密度。至于何谓“高价值Token” ,则是能够直接转化为商业收入、降低运营成本、规避重大风险或提升决策质量的Token。 换句话说,每一分算力、每一个Token,都得花在刀刃上。 两个乘数同时优化,缺一不可 。 而落到工程上,U2则针对两大行业核心痛点精准挥刀。 怎么不卷参数,以小胜大?把模型性能提起来。 怎么减少Token消耗?把模型使用成本降下去。 先说性能,U2主要从数据和架构层面进行了优化 。 传统模型里存在大量“光占参数不出力”的无效数据,于是U2选择做 高知识密度精筛 —— 把重复、低质、容易诱发幻觉的数据大量过滤掉,只留真正有知识含量的部分。 这样一来,模型单位参数的有效知识密度明显提升。 控制好输入端之后,怎么继续保证模型不说废话呢? 对此,他们在表达层面又做了 语义Token压缩优化 ,通过优化分词与表征,让每个Token尽量承载更多有效信息,相当于同样一句话,用更少Token说清楚。 两边都控制好,最后再给“幻觉”加一道保险——设置一套 知识点级校验与自反馈机制 ,持续纠偏、主动抑制幻