开源推荐
evening
GitHub 热门项目:ZhiLight
2026-06-18
1 阅读
GitHub Trending
GitHub 项目:ZhiLight
仓库地址:https://github.com/zhihu/ZhiLight
星级:905 | 作者:知乎
项目描述:针对 Llama 及其变体的高度优化的 LLM 推理加速引擎。
===================================================
自述文件内容:
#智光
✨ __ZhiLight__ ✨是由知乎和ModelBest Inc.开发的高度优化的LLM推理引擎。其名称中的“Zhi”代表**Z**hihu。 zhiLight 可以加速 Llama 及其变体等模型的推理,特别是在基于 PCIe 的 GPU 上。与vllm等主流开源推理引擎相比,具有显着的性能优势。
## 新闻🔥
* [2025/05] 支持DeepSeek-V3/DeepSeek-R1 FP8块量化模型。
* [2025/02] 支持DeepSeek-V3/DeepSeek-R1 AWQ/GPTQ量化模型。
* [2025/01] 支持 [DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2) 多模态模型:deepseek-vl2-tiny、deepseek-vl2-small、deepseek-vl2。
* [2025/01] 支持LLaMA3型号:Llama-3.1-8B、Llama-3.1-70B、Llama-3.2-1B、Llama-3.2-3B、Llama-3.3-70B。
## 路线图
参见【路线图】(https://github.com/zhihu/ZhiLight/wiki/Roadmap)
## 🎉🎉 主要特点
* 异步OpenAI兼容接口改编自vllm
* 自定义张量和统一的全局内存管理
* 🔥 编码和all-reduce重叠,我们命名为“双流”
* 支持Int8量化all-reduce,进一步降低all-reduce成本。
* 基于SIMD指令托管all-reduce
* 优化融合内核、qkv、残差和层范数等。
* 🔥 基于张量核心指令的融合批量注意力解码
* 单节点支持TP和PP,推荐TP
* 支持动态批处理
* 支持flash注意力预填充
* 支持分块预填充
* 支持前缀缓存
* 支持原生INT8/SmoothQuant/FP8/AWQ/GPTQ量化
* 支持 GPTQ 的 Marlin 内核
* 支持 MoE、DeepseekV2 MoE 和 DeepseekV2 MLA
* 支持Llama/Llama2、Mixtral、Qwen2系列及类似型号
## 🔧 基本用法
````bash
# 并发编译wheel包,并关闭单元测试
CMAKE_BUILD_PARALLEL_LEVEL=32 测试=0 python setup.py bdist_wheel
# 使用ninja后端编译
CMAKE_GENERATER=“忍者” python setup.py bdist_wheel
# 直接安装
cd ./ZhiLight && pip install -e .
# 启动OpenAI兼容服务器
python -m zhilight.server.openai.entrypoints.api_server [选项]
````
## ✈️ Docker 镜像
zhiLight仅依赖于CUDA运行时、cuBLAS、NCCL和requirements.txt中的一些Python包。您可以使用下面的图像来运行或构建它。也可以直接参考docker/Dockerfile。
````bash
docker pull ghcr.io/zhihu/zhilight/zhilight:0.4.8-cu124
````
## 📈 性能说明
我们对不同模型大小和精度的各种主流 NVIDIA GPU 进行了性能评测。对于 PCIe 设备上从 2B 到 110B 参数的密集模型,ZhiLight 与主流开源推理引擎相比表现出显着的性能优势。
测试说明:
- 测试目的是展示性能、适用场景和限制
- 测试指标包括:
- QPS:每秒查询数
- TTFT(Time To First Token):第一个令牌生成延迟
- TPOT(每个输出令牌的时间):每个输出令牌的生成延迟
- 测试环境