Orthrus-Qwen3:Qwen3 上高达 7.8×tokens/forward,相同的输出分布

2026-05-16 1 阅读 FranckDernoncou
Orthrus:通过双视图扩散实现内存高效的并行令牌生成 Orthrus 的官方实现和模型检查点,这是一个双架构框架,它将自回归大型语言模型 (LLM) 的精确生成保真度与扩散模型的高速并行令牌生成统一起来。 demo_orthrus.mp4 Model Zoo 所有模型都使用 Qwen3 主干并保证严格无损生成。模型基础模型 HuggingFace 平均加速 Orthrus-Qwen3-1.7B Qwen3-1.7B ? HuggingFace 4.25× Orthrus-Qwen3-4B Qwen3-4.0B ? HuggingFace 5.20× Orthrus-Qwen3-8B Qwen3-8.0B ? HuggingFace 5.36× 安装 uv pip install -e . uv pip install ninja Packaging uv pip install flash-attn --no-build-isolation # 或: pip install "flash-attn-4[cu13]" 如果您的设备支持的话 我们建议使用 uv 来快速解决依赖关系。快速入门 从 Transformers 导入火炬导入 AutoModelForCausalLM 、 AutoTokenizer 、 TextStreamer model = AutoModelForCausalLM 。 from_pretrained ( "chiennv/Orthrus-Qwen3-8B" , dtype = torch . bfloat16 , device_map = "cuda" , attn_implementation = "flash_attention_2" , # 如果您的系统支持 trust_remote_code = True , 请使用 flash_attention_4 , ). eval() tokenizer = AutoTokenizer 。 from_pretrained("chiennv/Orthrus-Qwen3-8B")prompt = "编写一个程序来统计段落中每个单词的出现频率。" messages = [{“角色”:“系统”,“内容”:“”},{“角色”:“用户”,“内容”:提示}] input_ids = tokenizer 。 apply_chat_template(消息,return_tensors =“pt”,add_ Generation_prompt = True,enable_thinking = False)。输入 ID 输出 ID = 模型 。 generate ( input_ids = input_ids . to ( model . device ), max_new_tokens = 2048 , use_diffusion_mode = True , Streamer = TextStreamer ( tokenizer , Skip_prompt = True ) # 启用流式生成 ) 即将推出:与 vLLM 和 SGLang 的本机集成即将推出。敬请关注!主要优势 显着的推理加速:打破标准自回归解码的顺序瓶颈,为生成任务提供高达 7.8 倍的加速。严格无损生成:采用精确的模型内共识机制,保证输出与原始基础模型的精确预测分布相匹配。零冗余内存开销:自回归和扩散视图本身都处理完全相同的高保真键值 (KV) 缓存,从而仅产生 $O(1)$ 内存缓存开销。参数高效:通过仅微调总模型参数的 16% 来注入并行生成功能,同时严格冻结基础 LLM。性能比较:Orthrus 与推测解码 Orthrus 的性能优于 EAGLE-3、DFlash 等推测解码方法。通过跨双视图本机共享完全相同的 KV 缓存,Orthrus 避免了草稿模型的冗余内存开销,从而显着提高令牌接受率和更快的推理时间,尤其是在上下文长度扩展时。左:与 EAGLE-3 和 DFlash 相比,每次前向传递的平均验证令牌数。右图:与 DFlash 相比,跨缩放上下文长度的模拟生成时间。与最先进的扩散模型的比较虽然最近的扩散语言模型 (dLLM) 提供并行解码,但它们在复杂推理任务中经常会遇到显着的条件漂移和严重的准确性下降。 Orthrus 通过将并行生成与顺序约束解耦来解决这个问题,为并行生成保真度建立了一种新的最先进技术。 MATH-500 的吞吐量与准确性。 Orthrus 的速度比 Qwen3-8B 基线提高了约 6 倍,并且具有严格无损的性能,而 Fast-dLLM-v2 等改编版本的精度却显着下降。引文 如果您发现此模型或架构对您的工作有用,请引用我们的论文:@misc { vannguyen2026orthrusmemoryefficientparalleltoken , title = { Orthrus:通过双视图扩散实现内存高效并行令牌生成 } ,作者 = { Chien Van Nguyen 和 Chaitra Hegde 和 Van Cuong Pham 和 Ryan A. Rossi 和 Franck Dernoncourt 和 Thien Huu阮},年份={2026},eprint={2605.12825},archivePrefix={arXiv},primaryClass={cs.LG},url={https://arxiv.org/abs/2605.12825},}