国产通用大模型第一梯队，来新人了？！

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 国产通用大模型第一梯队，来新人了？！一水 2026-06-09 10:55:08 来源：量子位不卷参数，卷“智能密度×Token价值” 一张新面孔，就这样闯入了国产通用大模型第一梯队。走的还不是行业主流的“堆参数”路径。这事放今天，谁听了不想火速围观一下？？我也不例外，而且我还顺便挖了一下这家公司这样做的原因（好奇.jpg）。结果你猜怎么着？答案居然如此“直击灵魂”—— 再走传统老路，你我的Token钱包是真扛不住了。 △图片由AI生成这事还得从过去几年行业默认的“堆参数、堆算力”玩法说起，得益于“大力出奇迹”这条法则，大模型确实变得越来越聪明，但账单也越来越离谱。尤其进入推理时代、Agent时代后，这一问题肉眼可见变得更加突出了：为了让模型“想得更深”，行业主流做法是让它把思考链条逐Token展开，结果Token消耗越来越夸张。传导到行业参与者，企业开始天天愁赚不到钱，我们普通人也日常陷入“Token不够用、用不起”的焦虑。所以，该怎么给大家精准止痛呢？今天这位玩家，港股AGI第一股云知声，带着它的新一代基座模型U2，来了。 U2不卷参数，卷“智能密度×Token价值”。而且说是通用大模型，但骨子里其实是个原生智能体模型。说白了，U2的一切都是为了“让单位Token发挥出最大智能”而设计的。你问效果如何？数据很能说明问题： U2在多项关键评测上，以极低的激活参数规模比肩甚至超越体量大得多的对手，思考Token消耗量可减少约25%，在压缩思考Token消耗的同时，推理成本显著低于同尺寸规模大小模型。能力不减、Token更少、成本还打下来了，U2到底是怎么做到的？ U2有多能打？实测一下怎么做到的先不谈，咱先回答一个问题：这瓜保真不？（潜台词≈U2真实有多能打）答案是，确实有点东西。和同类模型比，U2最明显的差异有两个：一是特别能干活，IFBench指令遵循、Claw系列Agent评测、GDPval办公能力评测都打到了前排，而且完成复杂任务的交互轮次更少，不会动不动卡壳来回折腾；二是“以小胜大”，GPQA硬核推理和长文本理解上，仅凭极低激活参数，打出了接近甚至超过部分超大模型的效果。等于说，又能干活、又不靠烧算力，这两件事U2同时做到了。好好好，我已经忍不住要用它跑跑真实案例了。目前U2已正式上线云知声Token Hub，个人、开发者及组织均可体验。它支持OpenClaw/Hermes等主流Agent脚手架，可无缝对接现有开发流程，适配成本较低。既然U2擅长开发，一上来我就打算给它“挖坑”，出一道开放性题目（doge）。提示词大致为：做一个值得上Awwwards的前端demo，可自由选择创意主题，单文件HTML、不用外部库。这道题没有标准答案，考的是模型在没有约束时能主动展示多高的上限。按照惯例，弱模型一般会选择做普通官网、卡片布局或按钮动画，而强模型会主动往粒子宇宙、流体模拟、物理引擎这个方向走。结果U2很快就交出了一个交互式粒子宇宙，将近1000行代码，没有引用任何外部依赖，全部原生实现。视频地址：https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 打开HTML，鼠标移动会扰动附近粒子的运动轨迹，点击会触发吸引、排斥、环绕三种模式的切换，左上角面板还能实时显示当前粒子数量及运动状态。日常感慨一下，以前考大模型，顶多是让它在六边形里转小球。现在倒好，直接上这种生产力级的Vibe Coding了。而说到Vibe Coding，最近刚好有个想法想实践一下：做一个12星座版的《TA到底在想什么》应用。网上冲浪时经常刷到那种，求网友帮忙分析“crush到底什么意思”的帖子，脑瓜子一转，商机这不就来了。于是我立马扔给U2一些模糊描述，核心需求是能不能结合对方星座，判断对方某些话或动作背后的真实意图。结果U2一口气搞定了五大功能模块，挨个测试每项功能都能正常使用（聊天记录为AI生成），尤其比较惊喜的是它还想到了AI回复这一点，好吧，我承认AI你还是在我之上。视频地址：https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 如果说上面这些还只是体现了U2的Agent开发能力，那么最后这个则是真正考验它的推理和研究深度—— 我让U2对OPC（一人公司）赛道做一次全景式深度研究，要求输出结构完整、有数据支撑的可交互HTML报告。全程没给任何资料，没有指定数据来源，就一句指令。没想到U2却交出了一份让人眼前一亮的报告：视频地址：https://mp.weixin.qq.com/s/IISZprE3c_4w0y61y0EBLQ 左侧固定导航，右侧内容区从产业概述、核心数据、行业分布一路覆盖到政策解读和未来展望……页面底部显示数据均出自国家市场监督管理总局、中国OPC发展调研报告2026等公开数据。数据有出处，判断有逻辑，不是凑字数，是真在做研究。三个案例跑完，回头看会发现它们分别在验证U2的三条能力线：粒子宇宙考Coding，没有脚手架也能交出生产级代码；星座应用考Agent，需求模糊、模块繁杂，照样没卡壳没返工；OPC报告考Reasoning，零资料输入也能把研究做出来。更关键的是，三个任务U2还都没靠堆Token换结果。嗯？这是咋回事？U2到底是怎么做到又好又省的？ U2为什么能做到转了一圈，我找到的答案是：从理念到工程设计，U2和过去流行的那套全都不一样。 U2的设计理念，其实就是开头提到的 “智能密度×Token价值” 。听起来有点抽象，不妨结合云知声创始人黄伟的话来理解：用更高效的资源投入，用模型架构工程能力方面的优化，打造出能满足绝大多数场景的智能水平，这就是智能密度。至于何谓“高价值Token” ，则是能够直接转化为商业收入、降低运营成本、规避重大风险或提升决策质量的Token。换句话说，每一分算力、每一个Token，都得花在刀刃上。两个乘数同时优化，缺一不可。而落到工程上，U2则针对两大行业核心痛点精准挥刀。怎么不卷参数，以小胜大？把模型性能提起来。怎么减少Token消耗？把模型使用成本降下去。先说性能，U2主要从数据和架构层面进行了优化。传统模型里存在大量“光占参数不出力”的无效数据，于是U2选择做高知识密度精筛 —— 把重复、低质、容易诱发幻觉的数据大量过滤掉，只留真正有知识含量的部分。这样一来，模型单位参数的有效知识密度明显提升。控制好输入端之后，怎么继续保证模型不说废话呢？对此，他们在表达层面又做了语义Token压缩优化，通过优化分词与表征，让每个Token尽量承载更多有效信息，相当于同样一句话，用更少Token说清楚。两边都控制好，最后再给“幻觉”加一道保险——设置一套知识点级校验与自反馈机制，持续纠偏、主动抑制幻

订阅66必读