清华系团队出手！一张 4090 即可「爆改」，1.3B小钢炮震撼开源

新智元报道编辑：YHluck 【新智元导读】端侧多模态，卷出新天花板。仅1.3B，性能反超，效率翻倍，一张4090就能「爆改」。刚刚，清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6，再次证明了在端侧AI领域，中国团队已然站在世界前沿。想象一下：你将一支笔放进装满水的玻璃杯，用手机拍下照片，然后问它：「这个现象的原因是什么」？几秒钟后，手机屏幕上出现了「光的折射」的准确回答和原理解释，视觉问答表现惊人：还有机票识别，文字提取精准：整个过程丝滑流畅，没有联网，没有等待云端服务器的响应，不产生天价token账单。而实现这一切的，不是云端某个需要排队等API的千亿参数模型，而是一个刚刚开源、仅有 1.3B 的「小钢炮」—— MiniCPM-V 4.6 。 5月11日，「国产端侧大模型担当」面壁智能联合清华大学、OpenBMB开源社区正式开源了新一代端侧多模态大模型 MiniCPM-V 4.6 。 MiniCPM-V 4.6一经发布，立即给1B量级多模态模型重新划定了起跑线，给日趋白热化的端侧AI赛道投下了一枚重磅炸弹！它不仅在性能上全面超越了阿里 Qwen3.5-0.8B和谷歌Gemma4-E2B-it 等同级对手，更在效率上实现了惊人的「反超」—— 参数更大，跑得却更快。这波操作，直接打破了行业里「小尺寸=阉割版」的常规认知。 MiniCPM-V 4.6用扎实硬核的数据向行业证明：1B级模型，也可以是性能强悍、足以在端云两栖部署的工业级武器。此外，在尺寸上，MiniCPM-V 4.6是MiniCPM-V系列模型上有史以来参数规模最小的模型，只有1B左右，但智能密度却为同尺寸模型范围内最高，这再次验证了面壁智能在2024年提出并登上Nature子刊的「密度定律」。根据Artificial Analysis（AA）榜单评测，MiniCPM-V 4.6 1.3B（非推理版本）的运行仅消耗5.4M token量，仅为Qwen3.5-0.8B（非推理版本，101M）的 1/19 、Qwen 3.5-0.8B（推理版本，233M）的 1/43 ： Hugging Face： https://huggingface.co/openbmb/MiniCPM-V-4.6 GitHub： https://github.com/OpenBMB/MiniCPM-V Modelscope： https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6 Web Demo： https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo APP Demo： https://github.com/OpenBMB/MiniCPM-V-Apps 性能越级，效率反超体感是最终标准 Talk is cheap，直接上数据。在多个主流Benchmark上，MiniCPM-V 4.6的表现突出一个「反常识」。无论是做通用图文理解、解数学题，还是搞文档OCR，它的 Instruct版和 Thinking版基本都是乱杀局，全面碾压Qwen3.5-0.8B与Gemma4-E2B-it。在更看综合实力的 Artificial Analysis（AA）榜单上，MiniCPM-V 4.6的得分也表现出色，领先Mistral 3 3B、Qwen 3.5-0.8B等在内的一众模型一个身位，成为了1B多模态大模型赛道的「新科状元」！但真正让技术圈高潮的，是它的效率！推理吞吐量：直接干到1.5倍拿一张4090跑高并发，MiniCPM-V 4.6处理高清图的吞吐量是Qwen3.5-0.8B 的 1.5倍。什么概念？一样的服务器成本，你能扛住过去1.5倍的用户流量。对于SaaS服务来说，这就是赤裸裸的利润。首响延迟（TTFT）：延迟曲线被拉直了！处理3136²的超高清大图，它的首响延迟比对手快了 2.2倍。更惊人的是，当图片分辨率暴涨49倍，它的延迟增长居然不到2.5倍。这条几乎被「拉直」的延迟曲线，意味着你的4090无论加载多大的图，用户体感都差不多——一个字，稳！这两个维度共同指向同一个结论：MiniCPM-V 4.6用更短的视觉序列和更小的 KV-Cache，把端侧体感与云侧ROI同时推到了新的高度。对端侧产品而言，这意味着流畅；对云端工业场景而言，这意味着同等成本下的吞吐翻倍。参数更大，跑得更快，这听起来就像是物理学不存在了。但这背后，是两个非常硬核的架构创新。技术深扒：这效率「外挂」是怎么开的？为什么一个比Qwen3.5-0.8B参数更大的模型，反而跑得更快？答案藏在MiniCPM-V 4.6的两项核心架构创新里：一个是ViT架构创新，另一个是4倍/16倍混合视觉token压缩率。 ViT架构重构 LLaVA-UHD v4开路传统ViT（视觉编码器）在编码图像时，会让大量冗余视觉token一路跑完全程，造成显著的算力浪费。就像个耿直的打工人，收到一堆视觉Token（图像信息块），不管有用没用、全部拉通处理一遍，计算量巨大。而MiniCPM-V 4.6不当「老实人」，采用了面壁智能联合清华大学自研的 LLaVA-UHD v4 技术，在 ViT 内部很早就把没用的Token给优化掉了，提前完成视觉token的压缩，算力直接节省约50% ！也就是说，仅在图像编码这一环节，MiniCPM-V 4.6就比传统ViT路线少跑了一半的开销，且性能不掉点。这也是为什么 MiniCPM-V 4.6虽然参数比Qwen3.5-0.8B略大，却在推理效率上实现反超的根本原因。具体是怎么做到的？主要是LLaVA-UHD v4围绕两个方向做了优化：如何更高效地看高清大图，以及如何更早地减少视觉Token带来的计算负担。一是「切片大法」：不傻乎乎地处理整张高清大图，而是先切成小块，分而治之。这样Attention计算量就不会随分辨率指数爆炸。MiniCPM-V 4.6的研究团队做了不同尺寸和不同数据量的模型试验，证明切片相比于全局编码不掉点 ——这实际是一个「反常识」的技术突破。二是「提前压缩」：最关键的一步。在ViT刚开始工作没多久，就用一个精巧的压缩模块（Intra-ViT Early Compressor）把Token数量压下来。这样一来，后续ViT层的计算开销节省75%+。 LLaVA-UHD v4 论文链接：https://huggingface.co/papers/2605.08985 通过这一设计，视觉Token压缩可以稳定地前移到 ViT 浅层，在大幅降低后续计算量的同时，仍然保持较好的图像表征质量和下游任务表现。这就是MiniCPM-V 4.6「效率反超」的秘密武器：在最耗算力的环节，只干最该干的活。 4倍/16倍混合压缩给足开发者选择权视觉token压缩率，影响的是显存占用、首响延迟、推理吞吐、功耗这些核心效率指标，压缩率越高，响应速度就越快。市面上的多模态大模型，绝大部分都焊死在了固定