TTE-Flash：通过 Think-Then-Embed 令牌加速基于推理的多模态表示

2026-05-20 1 阅读 Jianpeng Cheng, Xian Wu, Jiangfan Zhang, Wentao Bao, Chaitanya Ahuja, Shlok Kumar Mishra, Hanchao Yu, Yang Gao, Fan Xia, Qi Guo, Shaodan Zhai, Xiangjun Fan, Jun Xiao

arXiv:2605.16638v1 公告类型：新摘要：最近的研究表明，通用多模态嵌入 (UME) 从思想链 (CoT) 推理中获益匪浅。在此范例中，生成模型为多模式查询生成显式推理轨迹，并从涉及查询和推理的嵌入标记中提取最终表示。尽管它很有效，但生成显式 CoT 跟踪的计算开销往往令人望而却步。在这项工作中，我们建议用潜在的思考标记替换显式的 CoT，这些标记被解释为可以产生显式 CoT 痕迹作为观察变量的潜在变量。通过使用 CoT 生成损失优化思考令牌以及使用对比损失的后续嵌入令牌，我们以恒定的推理成本生成高性能、推理感知的表示。我们的研究调查了两个关键的架构设计：1）如何从相同的 LLM 主干中提取思考和嵌入令牌。 2）如何将令牌训练为两个相关任务。我们引入了 TTE-Flash-2B，这是一种推理感知多模态表示模型，它在 MMEB-v2 基准上优于其显式 CoT 模型，同时生成可在文本和视觉上解释的潜在思考标记。此外，对 15 个视频数据集的零样本评估揭示了随着思考标记数量增加的扩展行为，并激发了基于任务要求的自适应思考预算分配的试点研究。