GitHub 热门项目:MiniCPM-V

2026-06-19 1 阅读 GitHub Trending
GitHub 项目:MiniCPM-V 仓库地址:https://github.com/OpenBMB/MiniCPM-V 星级:25662 | 作者:OpenBMB 项目描述:袖珍 MLLM,可在您的手机上实现超高效的图像和视频理解 =================================================== 自述文件内容: **袖珍 MLLM,可在您的手机上实现超高效的图像和视频理解** [中文](./README_zh.md) | 英语 feishu 飞书(Lark) |   Discord 不和谐   MiniCPM-V 4.6 🤗 🤖 📱 | MiniCPM-o 4.5 🤗 📞 🤖 | 📄技术报告 | 🍳食谱 | 🌐API

**MiniCPM-V** 和 **MiniCPM-o** 是多模式 LLM 系列,专为**强大的性能和在设备上的高效部署**而设计。 MiniCPM-V 专注于跨图像、视频和文本输入的高效视觉语言理解。 MiniCPM-o 通过流视频和音频输入以及文本和语音输出将该系列扩展到实时端到端全模式交互。目前该系列中最著名的型号包括: - **MiniCPM-V 4.6**:🔥🔥🔥 MiniCPM-V 系列中最新、最高效的型号。它总共有 1.3B 个参数,在性能上超越了 Gemma4-E2B-it 等较大模型,同时比 Qwen3.5-0.8B 等较小模型表现出更高的效率(实现约 1.5 倍的令牌吞吐量)。 MiniCPM-V 4.6 由 [LLaVA-UHD v4](https://huggingface.co/papers/2605.08985) 中最新的**intra-ViT 早期压缩技术**提供支持,**将视觉编码计算成本降低了 50% 以上**,并支持**混合 4x/16x 视觉令牌压缩率**,以便在不同任务中实现更灵活的性能效率权衡。该模型可跨**常见移动平台部署,包括iOS、Android、HarmonyOS**,边缘适配代码开源。 - **MiniCPM-o 4.5**:⭐️⭐️⭐️ MiniCPM-o 系列中最新、最强大的型号。该端到端模型共有 9B 个参数,**在视觉、语音和全双工多模态直播**方面接近 Gemini 2.5 Flash,使其成为开源社区中最通用、性能最高的模型之一。新的全双工多模态直播能力意味着输出流