GitHub 热门项目：ZhiLight

GitHub 项目：ZhiLight 仓库地址：https://github.com/zhihu/ZhiLight 星级：905 | 作者：知乎项目描述：针对 Llama 及其变体的高度优化的 LLM 推理加速引擎。 =================================================== 自述文件内容： #智光 ✨ __ZhiLight__ ✨是由知乎和ModelBest Inc.开发的高度优化的LLM推理引擎。其名称中的“Zhi”代表**Z**hihu。 zhiLight 可以加速 Llama 及其变体等模型的推理，特别是在基于 PCIe 的 GPU 上。与vllm等主流开源推理引擎相比，具有显着的性能优势。 ## 新闻? * [2025/05] 支持DeepSeek-V3/DeepSeek-R1 FP8块量化模型。 * [2025/02] 支持DeepSeek-V3/DeepSeek-R1 AWQ/GPTQ量化模型。 * [2025/01] 支持 [DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2) 多模态模型：deepseek-vl2-tiny、deepseek-vl2-small、deepseek-vl2。 * [2025/01] 支持LLaMA3型号：Llama-3.1-8B、Llama-3.1-70B、Llama-3.2-1B、Llama-3.2-3B、Llama-3.3-70B。 ## 路线图参见【路线图】(https://github.com/zhihu/ZhiLight/wiki/Roadmap) ## ?? 主要特点 * 异步OpenAI兼容接口改编自vllm * 自定义张量和统一的全局内存管理 * ? 编码和all-reduce重叠，我们命名为“双流” * 支持Int8量化all-reduce，进一步降低all-reduce成本。 * 基于SIMD指令托管all-reduce * 优化融合内核、qkv、残差和层范数等。 * ? 基于张量核心指令的融合批量注意力解码 * 单节点支持TP和PP，推荐TP * 支持动态批处理 * 支持flash注意力预填充 * 支持分块预填充 * 支持前缀缓存 * 支持原生INT8/SmoothQuant/FP8/AWQ/GPTQ量化 * 支持 GPTQ 的 Marlin 内核 * 支持 MoE、DeepseekV2 MoE 和 DeepseekV2 MLA * 支持Llama/Llama2、Mixtral、Qwen2系列及类似型号 ## ? 基本用法 ````bash # 并发编译wheel包，并关闭单元测试 CMAKE_BUILD_PARALLEL_LEVEL=32 测试=0 python setup.py bdist_wheel # 使用ninja后端编译 CMAKE_GENERATER=“忍者” python setup.py bdist_wheel # 直接安装 cd ./ZhiLight && pip install -e . # 启动OpenAI兼容服务器 python -m zhilight.server.openai.entrypoints.api_server [选项] ```` ## ✈️ Docker 镜像 zhiLight仅依赖于CUDA运行时、cuBLAS、NCCL和requirements.txt中的一些Python包。您可以使用下面的图像来运行或构建它。也可以直接参考docker/Dockerfile。 ````bash docker pull ghcr.io/zhihu/zhilight/zhilight:0.4.8-cu124 ```` ## ? 性能说明我们对不同模型大小和精度的各种主流 NVIDIA GPU 进行了性能评测。对于 PCIe 设备上从 2B 到 110B 参数的密集模型，ZhiLight 与主流开源推理引擎相比表现出显着的性能优势。测试说明： - 测试目的是展示性能、适用场景和限制 - 测试指标包括： - QPS：每秒查询数 - TTFT（Time To First Token）：第一个令牌生成延迟 - TPOT（每个输出令牌的时间）：每个输出令牌的生成延迟 - 测试环境

订阅66必读