缩小社会语义差距：云 LLM 推理中基于边缘的提示压缩的 SPSD

摘要

19364v1 Announce Type: new Abstract: The prefill stage of Large Language Model (LLM) inference is a growing contributor to cloud-scale energy cost。

the LLM cloud and percent

2026-06-19 1 阅读约2分钟阅读 Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan

arXiv:2606.19364v1 公告类型：新摘要：大型语言模型 (LLM) 推理的预填充阶段对云规模能源成本的影响越来越大。许多消费者支持和对话提示都包含社交脚手架：礼貌标记、道歉序言、重复和建立融洽关系的语言，这些语言对人类交流很重要，但对机器推理来说边缘信息很少。我们将这种差异称为社会语义差距。我们提出了 SPSD（情感保留语义蒸馏），这是一种基于边缘的管道，在传输到云部署的 LLM 之前使用 4 位量化小语言模型压缩用户提示。使用 Gemma-2-2B-Instruct (Q4_K_M) 作为 SLM 和 Llama-3.1-8B-Instruct 作为云评估模型对 248 个提示语料库进行评估，每个蒸馏调用平均输入令牌节省 99.9 个令牌，所有 146 个蒸馏调用都产生正节省。通过法学硕士作为评委对 121 对进行盲法评分进行评估，回答质量在 15 分评分标准上的预先指定的 1 分差内不劣于原始路径；法官判定 43% 为平局，28% 为蒸馏胜利，29% 为原始胜利。余弦相似度是混合的：均值 0.682，中值 0.712，其中 54.1% 的对高于 0.70 参考阈值。安全关键域通过基于规则的门保守地路由至直通。根据规定的假设，每次通话净节能预计为 70-270 uWh。 SPSD 表明，设备上的即时蒸馏可以降低云 LLM 输入令牌成本，同时在实际的非劣效范围内保持响应质量。

订阅66必读