ICLR上新 | 多模态生成与具身智能的前沿突破

（本文阅读时间：20分钟）编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。 4月23日至4月27日，深度学习与表征学习领域最负盛名的学术会议之一的ICLR，将在巴西里约热内卢举行。我们通过两期“科研上新”为大家带来多篇微软亚洲研究院入选ICLR 2026的精选论文解读。在第一期中，我们分享了强化学习基础理论分析、长上下文推理和代码生成验证的专项优化、智能体探索能力的优化等研究工作。第二期我们将聚焦多模态生成、视觉与音频生成、具身智能机器人操作、神经网络内核优化等方向，呈现从大模型能力创新到机器人落地应用、再到底层性能优化的完整技术链路，展现从理论突破到工程实践的前沿探索。欢迎大家参与文末投票，选出你最感兴趣的论文！我们将邀请论文的作者们与你在直播间进行前沿技术的交流与探讨！「本期内容速览」 01 AdAEM：一种自适应且自动扩展的大语言模型价值观差异度量方法（Oral） 02 Aurelius：面向大规模的关系感知文本转音频生成 03 BAR：重构自回归视觉生成的基础 04 基于上下文学习的高效大语言模型微调数据选择 05 TileLang：一款面向GPU深度学习算子实现的特定领域编程语言（Oral） 06 TwinVLA ：利用孪生单臂 VLA 模型，实现数据高效的双手操作 07 VidGuard-R1 ：基于推理多模态大语言模型与强化学习的 AI 生成视频检测与解释 08 villa-X：增强VLA模型中的潜在动作建模 09 VisCodex：通过融合视觉与编码模型，实现统一的多模态代码生成 01 AdAEM：一种自适应且自动扩展的大语言模型价值观差异度量方法（Oral）论文链接： https://openreview.net/forum?id=qNlTH4kYJZ 在大语言模型的价值观评估中，现有测试数据集常面临“信息量不足”的挑战。由于测试问题陈旧、存在数据污染或过于通用，这些测试往往只能捕捉模型在安全合规等通用价值观上的趋同倾向，难以揭示不同模型间细微且具有区分度的价值观取向差异。为解决这一问题，研究员们提出了自适应、自动化可扩展的测量框架AdAEM。该方法突破了静态数据集的限制，利用来自不同文化和时期的多个大语言模型，探测其内部的价值观边界，并基于信息论目标函数自动生成和扩展评测问题，旨在挖掘具有争议性和区分度的主题，从而最大化模型间的价值观分歧。实验表明，利用AdAEM构建的测试数据集（AdAEM Bench）包含12310个问题，在语义多样性和新颖性上显著优于现有数据集。通过Value Priming实验验证，该框架不仅能有效缓解数据污染问题，还能精准捕捉模型在特定议题下的价值偏移，展现出极高的构念效度与信度。在对比评估中，AdAEM成功揭示了GPT-4、Claude、Llama及GLM等不同架构和地域来源的模型在施瓦茨十大价值观维度上的差异，而这些差异在其他测试集中往往是扁平或混淆的。此外，AdAEM具备良好的扩展性，能够通过整合最新发布的模型自动生成反映当下社会热点的评估问题，为跨学科的大模型价值对齐与风险诊断提供了可靠工具。图1：(a) 不同的大语言模型在回答通用问题时，其价值取向难以区分。(b) AdAEM通过近期具有争议性的问题（例如加利福尼亚州山火）更能凸显出价值观差异。 02 Aurelius：面向大规模的关系感知文本转音频生成论文链接： https://openreview.net/forum?id=LAYCYiIgZ1 文本到音频（TTA）生成技术在通用音频合成上已取得显著进展，但现有模型在处理涉及多事件组合、时空关系及逻辑约束的“关系感知”生成任务时表现不佳，难以像人类一样理解文本中的复杂关系并生成对应的声学场景。为此，研究员们提出了Aurelius框架，构建了包含110个类别的高质量音频事件语料库AudioEventSet，以及涵盖100种关系的AudioRelSet，系统性地覆盖了物理世界与文本描述中的潜在关系。结合创新的“文本-音频对”生成策略，该框架能够创建海量训练数据，并配套多维度评估协议。图2： Aurelius通过引入音频事件语料库AudioEventSet、关系语料库AudioRelSet以及“文本-音频对”生成策略，为关系感知TTA做出了贡献。实验表明，现有主流TTA模型在关系感知任务上的各项指标均低于10%，即使引入智能体工作流分解任务亦收效甚微。通过在构建的数据集上进行微调或从头训练，模型的关系建模能力显著提升。Aurelius提供的大规模基准测试与数据资源，为推动关系感知TTA从单事件生成迈向