GitHub 热门项目:ZhiLight

2026-06-18 1 阅读 GitHub Trending
GitHub 项目:ZhiLight 仓库地址:https://github.com/zhihu/ZhiLight 星级:905 | 作者:知乎 项目描述:针对 Llama 及其变体的高度优化的 LLM 推理加速引擎。 =================================================== 自述文件内容: #智光 ✨ __ZhiLight__ ✨是由知乎和ModelBest Inc.开发的高度优化的LLM推理引擎。其名称中的“Zhi”代表**Z**hihu。 zhiLight 可以加速 Llama 及其变体等模型的推理,特别是在基于 PCIe 的 GPU 上。与vllm等主流开源推理引擎相比,具有显着的性能优势。 ## 新闻🔥 * [2025/05] 支持DeepSeek-V3/DeepSeek-R1 FP8块量化模型。 * [2025/02] 支持DeepSeek-V3/DeepSeek-R1 AWQ/GPTQ量化模型。 * [2025/01] 支持 [DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2) 多模态模型:deepseek-vl2-tiny、deepseek-vl2-small、deepseek-vl2。 * [2025/01] 支持LLaMA3型号:Llama-3.1-8B、Llama-3.1-70B、Llama-3.2-1B、Llama-3.2-3B、Llama-3.3-70B。 ## 路线图 参见【路线图】(https://github.com/zhihu/ZhiLight/wiki/Roadmap) ## 🎉🎉 主要特点 * 异步OpenAI兼容接口改编自vllm * 自定义张量和统一的全局内存管理 * 🔥 编码和all-reduce重叠,我们命名为“双流” * 支持Int8量化all-reduce,进一步降低all-reduce成本。 * 基于SIMD指令托管all-reduce * 优化融合内核、qkv、残差和层范数等。 * 🔥 基于张量核心指令的融合批量注意力解码 * 单节点支持TP和PP,推荐TP * 支持动态批处理 * 支持flash注意力预填充 * 支持分块预填充 * 支持前缀缓存 * 支持原生INT8/SmoothQuant/FP8/AWQ/GPTQ量化 * 支持 GPTQ 的 Marlin 内核 * 支持 MoE、DeepseekV2 MoE 和 DeepseekV2 MLA * 支持Llama/Llama2、Mixtral、Qwen2系列及类似型号 ## 🔧 基本用法 ````bash # 并发编译wheel包,并关闭单元测试 CMAKE_BUILD_PARALLEL_LEVEL=32 测试=0 python setup.py bdist_wheel # 使用ninja后端编译 CMAKE_GENERATER=“忍者” python setup.py bdist_wheel # 直接安装 cd ./ZhiLight && pip install -e . # 启动OpenAI兼容服务器 python -m zhilight.server.openai.entrypoints.api_server [选项] ```` ## ✈️ Docker 镜像 zhiLight仅依赖于CUDA运行时、cuBLAS、NCCL和requirements.txt中的一些Python包。您可以使用下面的图像来运行或构建它。也可以直接参考docker/Dockerfile。 ````bash docker pull ghcr.io/zhihu/zhilight/zhilight:0.4.8-cu124 ```` ## 📈 性能说明 我们对不同模型大小和精度的各种主流 NVIDIA GPU 进行了性能评测。对于 PCIe 设备上从 2B 到 110B 参数的密集模型,ZhiLight 与主流开源推理引擎相比表现出显着的性能优势。 测试说明: - 测试目的是展示性能、适用场景和限制 - 测试指标包括: - QPS:每秒查询数 - TTFT(Time To First Token):第一个令牌生成延迟 - TPOT(每个输出令牌的时间):每个输出令牌的生成延迟 - 测试环境