智能AI
morning
缩小社会语义差距:云 LLM 推理中基于边缘的提示压缩的 SPSD
2026-06-19
1 阅读
Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan
arXiv:2606.19364v1 公告类型:新 摘要:大型语言模型 (LLM) 推理的预填充阶段对云规模能源成本的影响越来越大。许多消费者支持和对话提示都包含社交脚手架:礼貌标记、道歉序言、重复和建立融洽关系的语言,这些语言对人类交流很重要,但对机器推理来说边缘信息很少。我们将这种差异称为社会语义差距。我们提出了 SPSD(情感保留语义蒸馏),这是一种基于边缘的管道,在传输到云部署的 LLM 之前使用 4 位量化小语言模型压缩用户提示。使用 Gemma-2-2B-Instruct (Q4_K_M) 作为 SLM 和 Llama-3.1-8B-Instruct 作为云评估模型对 248 个提示语料库进行评估,每个蒸馏调用平均输入令牌节省 99.9 个令牌,所有 146 个蒸馏调用都产生正节省。通过法学硕士作为评委对 121 对进行盲法评分进行评估,回答质量在 15 分评分标准上的预先指定的 1 分差内不劣于原始路径;法官判定 43% 为平局,28% 为蒸馏胜利,29% 为原始胜利。余弦相似度是混合的:均值 0.682,中值 0.712,其中 54.1% 的对高于 0.70 参考阈值。安全关键域通过基于规则的门保守地路由至直通。根据规定的假设,每次通话净节能预计为 70-270 uWh。 SPSD 表明,设备上的即时蒸馏可以降低云 LLM 输入令牌成本,同时在实际的非劣效范围内保持响应质量。