本周四直播 | ICLR 2026精选论文分享

（本文阅读时间：7分钟）深度学习与表征学习领域负有盛名的全球学术会议之一ICLR 2026近日落下帷幕。在本届大会上，微软亚洲研究院共有50多篇论文被接收。我们通过两期“ICLR上新”，为大家带来了多篇入选的论文解读，涵盖强化学习基础理论分析、长上下文推理和代码生成验证的专项优化、智能体探索能力的优化、多模态生成、视觉与音频生成、具身智能机器人操作、神经网络内核优化等方向。 5月21日（本周四，后天），我们特别邀请了其中有代表性的5篇论文的作者，在微软亚洲研究院的直播间分享他们的前沿工作。请大家锁定直播间！欢迎在评论区留言提问，我们将邀请讲者在直播中逐一解答。直播信息直播时间： 2026年5月21日 14:00-15:45 直播地址：微信视频号 “微软亚洲研究院 ” 小红书 “微软亚洲研究院”直播间 B 站账号 “微软科技”直播间论文及讲者介绍程羽，北京大学计算机学院四年级博士生，导师是杨智副研究员。程羽的研究方向是深度学习系统，重点关注面向深度学习框架的编译器优化。此外，他也是 TileLang 的核心开发者之一，致力于构建面向多样化硬件平台的 AI 工作负载编程系统。分享论文： TileLang: Bridge Programmability and Performance in Modern Neural Kernels 论文摘要：现代人工智能算法越来越多地采用融合算子来提升性能，但由于现有的编译器（如 Triton）缺乏细粒度的控制能力，实现这些算子依然非常复杂。为此，研究团队推出了一个针对融合AI算子的可控编程系统TileLang。TileLang 提供了显式的线程块级原语，用于内存布局、数据搬运和并行调度。为了引导开发者进行硬件感知的编程，TileLang 引入了两项核心技术：Tile推导以及Tile推荐。得益于这些设计，TileLang 能够让开发者在 80 行以内的 Python 代码中轻松实现主流的融合注意力机制算子（MHA，MLA等），与手动编写的实现相比，代码量减少了高达 90%。论文链接： https://openreview.net/forum?id=Jb1WkNSfUB 江灵杰，北京大学硕士在读，研究方向为大模型后训练。目前在微软亚洲研究院通用人工智能组实习，实习导师为黄绍晗博士。分享论文 1： Code Aesthetics with Agentic Reward Feedback 论文摘要：本篇论文提出了针对大语言模型在代码生成中美学表现欠佳的问题，首次系统性地定义了 “代码美学”概念，并构建了大规模数据集 AesCode 358K 来衡量这种美学质量。为了提升模型输出的视觉效果和交互美感，研究员们引入了一种 Agentic Reward Feedback框架，该框架由多个智能体分别评估代码的可执行性、静态美学和交互美学三个维度，再结合强化学习算法 GRPO AR 优化模型。论文还提出了新的评测基准 OpenDesign，在该基准上综合衡量美学表现。论文链接： https://openreview.net/forum?id=Q87kwGI6bx 分享论文 2： VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models 论文摘要：研究团队提出了 VisCodex 框架，旨在提升多模态大语言模型从视觉和文本输入生成代码的能力。本文通过将视觉模型与编码模型融合，既保留了视觉理解能力，又增强了代码生成能力。研究员们构建了规模达 59.8 万样本的多模态编程数据集（MCD）并设计了评测基准 InfiBench‑V。实验结果显示，VisCodex 在多模态代码生成任务中取得了最先进性能，接近 GPT‑4o 等顶尖模型。论文链接： https://openreview.net/forum?id=hUXzPauNEM 王思远，上海交通大学博士研究生在读，研究方向包括Long Context LLM, AI Systems和HCI。目标是成为最好的AI系统研究者。此前曾在微软亚洲研究院实习，参与Long Context LLM的研究。分享论文： LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts 论文摘要： LoongRL 关注的是一个很实际的问题：当前长上下文模型往往“能检索”，但不一定“会推理”。短上下文 RL 已经证明可以诱导模型产生更强的 CoT、自反思和 “Aha moment”，但长上下文场景下，模型还需要在大量干扰文本中找到相关证据，并把证据串起来完成多跳推理。本论文认为，其关键瓶颈之一是缺少足够难、同时答案又可验证的长上下文 RL 数据。为了解决这个问题，研究团队提出 KeyChain 数据构造方法：把 HotpotQA、MuSiQue、2WikiMultiHopQA 等短上下文多跳 QA 扩展成长上下文，并插入 UUID key-value 链条，把真正的问题隐藏在一系列链式跳转之后。模型必须先沿着正确链条找到真正要回答的问题，再从长上下文中检索证据并完成推理。论文链接： https://openreview.net/forum?id=o29E01Q6bv 杨一帆，现任微软亚洲研究院（上海）高级研究工程师，他的研究方向包括视觉内容生成、多模态基础模型与智能体系统，重点关注如何将前沿研究创新落地到真实产品与应用场景中。其研究成果发表于 CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、AAAI 等顶级会议与期刊，并担任 NeurIPS、ICML、ICLR 等多个会议的区域主席。他深度参与了微软 Phi 系列模型，包括 Phi-3 与 Phi-4 的研发，多项技术成果转化到 Office、Azure 等微软核心产品。近期代表工作 LLM2CLIP 通过大语言模型增强跨模态表征学习，已被集成到 Phi-4-mini 预训练流程，并获得 AAAI 2026杰出论文奖。分享论文： VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL 论文摘要： AI 生成视频在真实感、运动一致性和视觉质量上不断提升，使得真实视频与合成视频之间的边界日益模糊。这一趋势对内容安全、虚假信息治理、隐私保护和数字取证提出了新的挑战。对此，研究员们提出了一个面向 AI 生成视频检测与解释的 reasoning-first 多模态大模型框架VidGuard-R1。通过强化学习，尤其是 GRPO 训练范式，VidGuard-R1可引导模型探索并比较多条推理路径，从而发现视频中的物理不一致、时间稳定性问题、纹理伪影、光照异常和扩散生成过程相关的质量退化等线索。在数据层面，VidGuard-R1 构建了包含 14 万对真实/伪造视频的高挑战性数据集，并在多个公开 benchmark 与未见过的新生成模型上展示了较强的泛化能力

订阅66必读