智能AI morning

清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源

2026-05-13 1 阅读 新智元
新智元报道 编辑:YHluck 【新智元导读】 端侧多模态,卷出新天花板。仅1.3B,性能反超,效率翻倍,一张4090就能「爆改」。刚刚,清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6,再次证明了在端侧AI领域,中国团队已然站在世界前沿。 想象一下:你将一支笔放进装满水的玻璃杯,用手机拍下照片,然后问它:「这个现象的原因是什么」? 几秒钟后,手机屏幕上出现了「光的折射」的准确回答和原理解释,视觉问答表现惊人: 还有机票识别,文字提取精准: 整个过程丝滑流畅,没有联网,没有等待云端服务器的响应, 不产生天价token账单 。 而实现这一切的,不是云端某个需要排队等API的千亿参数模型,而是一个刚刚开源、仅有 1.3B 的「小钢炮」—— MiniCPM-V 4.6 。 5月11日,「国产端侧大模型担当」 面壁智能 联合清华大学、OpenBMB开源社区正式开源了新一代端侧多模态大模型 MiniCPM-V 4.6 。 MiniCPM-V 4.6一经发布,立即给1B量级多模态模型重新划定了起跑线,给日趋白热化的端侧AI赛道投下了一枚重磅炸弹! 它不仅在性能上 全面超越了阿里 Qwen3.5-0.8B和谷歌Gemma4-E2B-it 等同级对手,更在效率上实现了惊人的「反超」—— 参数 更大,跑得却更快 。 这波操作,直接打破了行业里「小尺寸=阉割版」的常规认知。 MiniCPM-V 4.6用扎实硬核的数据向行业证明:1B级模型,也可以是 性能强悍、足以在端云两栖部署的工业级武器 。 此外,在尺寸上,MiniCPM-V 4.6是MiniCPM-V系列模型上有史以来参数规模最小的模型,只有1B左右,但 智能密度却为同尺寸模型范围内最高 ,这再次验证了面壁智能在2024年提出并登上Nature子刊的「密度定律」。 根据Artificial Analysis(AA)榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行 仅消耗5.4M token量 ,仅为Qwen3.5-0.8B(非推理版本,101M)的 1/19 、Qwen 3.5-0.8B(推理版本,233M)的 1/43 : Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4.6 GitHub: https://github.com/OpenBMB/MiniCPM-V Modelscope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6 Web Demo: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo APP Demo: https://github.com/OpenBMB/MiniCPM-V-Apps 性能越级,效率反超 体感是最终标准 Talk is cheap,直接上数据。 在多个主流Benchmark上,MiniCPM-V 4.6的表现突出一个「反常识」。 无论是做通用图文理解、解数学题,还是搞文档OCR,它的 Instruct版 和 Thinking版 基本都是乱杀局,全面碾压Qwen3.5-0.8B与Gemma4-E2B-it。 在更看综合实力的 Artificial Analysis(AA) 榜单 上,MiniCPM-V 4.6的得分也表现出色,领先Mistral 3 3B、Qwen 3.5-0.8B等在内的一众模型一个身位,成为了1B多模态大模型赛道的「新科状元」! 但真正让技术圈高潮的,是它的效率! 推理吞吐量:直接干到1.5倍 拿一张4090跑高并发,MiniCPM-V 4.6处理高清图的吞吐量是Qwen3.5-0.8B 的 1.5倍 。 什么概念? 一样的服务器成本,你能扛住过去1.5倍的用户流量 。 对于SaaS服务来说,这就是赤裸裸的利润。 首响延迟(TTFT):延迟曲线被拉直了! 处理3136²的超高清大图,它的首响延迟比对手快了 2.2倍 。更惊人的是, 当图片分辨率暴涨49倍,它的延迟增长居然不到2.5倍 。 这条几乎被「拉直」的延迟曲线,意味着你的4090无论加载多大的图,用户体感都差不多——一个字,稳! 这两个维度共同指向同一个结论:MiniCPM-V 4.6用更短的视觉序列和更小的 KV-Cache, 把端侧体感与云侧ROI同时推到了新的高度。 对端侧产品而言,这意味着流畅;对云端工业场景而言,这意味着同等成本下的吞吐翻倍。 参数更大,跑得更快 , 这听起来就像是物理学不存在了。但这背后,是两个非常硬核的架构创新。 技术深扒:这效率「外挂」是怎么开的? 为什么一个比Qwen3.5-0.8B参数更大的模型,反而跑得更快? 答案藏在MiniCPM-V 4.6的两项核心架构创新里: 一个是ViT架构创新,另一个是4倍/16倍混合视觉token压缩率 。 ViT架构重构 LLaVA-UHD v4开路 传统ViT(视觉编码器) 在编码图像时,会让大量冗余视觉token一路跑完全程,造成显著的算力浪费。 就像个耿直的打工人,收到一堆视觉Token(图像信息块),不管有用没用、全部拉通处理一遍,计算量巨大。 而MiniCPM-V 4.6不当「老实人」,采用了面壁智能联合清华大学自研的 LLaVA-UHD v4 技术,在 ViT 内部很早就把没用的Token给优化掉了,提前完成视觉token的压缩, 算力直接节省约50% ! 也就是说,仅在图像编码这一环节,MiniCPM-V 4.6就比传统ViT路线少跑了一半的开销,且性能不掉点。 这也是为什么 MiniCPM-V 4.6虽然参数比Qwen3.5-0.8B略大, 却在推理效率上实现反超 的根本原因。 具体是怎么做到的? 主要是LLaVA-UHD v4围绕两个方向做了优化: 如何更高效地看高清大图,以及如何更早地减少视觉Token带来的计算负担。 一是「切片大法」 : 不傻乎乎地处理整张高清大图,而是先切成小块,分而治之。这样Attention计算量就不会随分辨率指数爆炸。MiniCPM-V 4.6的研究团队做了不同尺寸和不同数据量的模型试验,证明 切片相比于全局编码不掉点 ——这实际是一个「反常识」的技术突破。 二是「提前压缩」 : 最关键的一步。在ViT刚开始工作没多久,就用一个精巧的压缩模块(Intra-ViT Early Compressor)把Token数量压下来。这样一来,后续ViT层的计算开销节省75%+。 LLaVA-UHD v4 论文链接:https://huggingface.co/papers/2605.08985 通过这一设计,视觉Token压缩可以稳定地前移到 ViT 浅层,在大幅降低后续计算量的同时,仍然保持较好的图像表征质量和下游任务表现。 这就是MiniCPM-V 4.6「效率反超」的秘密武器: 在最耗算力的环节,只干最该干的活。 4倍/16倍混合压缩 给足开发者选择权 视觉token压缩率,影响的是 显存占用、首响延迟、推理吞吐、功耗 这些核心效率指标,压缩率越高,响应速度就越快。 市面上的多模态大模型, 绝大部分 都焊死在了固定