智能AI
morning
本周四直播 | ICLR 2026精选论文分享
2026-05-20
1 阅读
微软研究院AI
(本文阅读时间:7分钟) 深度学习与表征学习领域负有盛名的全球学术会议之一ICLR 2026近日落下帷幕。在本届大会上,微软亚洲研究院共有50多篇论文被接收。我们通过两期“ICLR上新”,为大家带来了多篇入选的论文解读,涵盖强化学习基础理论分析、长上下文推理和代码生成验证的专项优化、智能体探索能力的优化、多模态生成、视觉与音频生成、具身智能机器人操作、神经网络内核优化等方向。 5月21日(本周四,后天),我们特别邀请了其中有代表性的5篇论文的作者,在微软亚洲研究院的直播间分享他们的前沿工作。请大家锁定直播间! 欢迎在评论区留言提问,我们将邀请讲者在直播中逐一解答。 直播信息 直播时间: 2026年5月21日 14:00-15:45 直播地址: 微信视频号 “微软亚洲研究院 ” 小红书 “微软亚洲研究院”直播间 B 站 账号 “微软科技”直播间 论文及讲者介绍 程羽 ,北京大学计算机学院四年级博士生,导师是杨智副研究员。程羽的研究方向是深度学习系统,重点关注面向深度学习框架的编译器优化。此外,他也是 TileLang 的核心开发者之一,致力于构建面向多样化硬件平台的 AI 工作负载编程系统。 分享论文: TileLang: Bridge Programmability and Performance in Modern Neural Kernels 论文摘要: 现代人工智能算法越来越多地采用融合算子来提升性能,但由于现有的编译器(如 Triton)缺乏细粒度的控制能力,实现这些算子依然非常复杂。为此,研究团队推出了一个针对融合AI算子的可控编程系统TileLang。TileLang 提供了显式的线程块级原语,用于内存布局、数据搬运和并行调度。为了引导开发者进行硬件感知的编程,TileLang 引入了两项核心技术:Tile推导以及Tile推荐。得益于这些设计,TileLang 能够让开发者在 80 行以内的 Python 代码中轻松实现主流的融合注意力机制算子(MHA,MLA等),与手动编写的实现相比,代码量减少了高达 90%。 论文链接: https://openreview.net/forum?id=Jb1WkNSfUB 江灵杰 ,北京大学硕士在读,研究方向为大模型后训练。目前在微软亚洲研究院通用人工智能组实习,实习导师为黄绍晗博士。 分享论文 1: Code Aesthetics with Agentic Reward Feedback 论文摘要: 本篇论文提出了针对大语言模型在代码生成中美学表现欠佳的问题,首次系统性地定义了 “代码美学”概念,并构建了大规模数据集 AesCode 358K 来衡量这种美学质量。为了提升模型输出的视觉效果和交互美感,研究员们引入了一种 Agentic Reward Feedback框架,该框架由多个智能体分别评估代码的可执行性、静态美学和交互美学三个维度,再结合强化学习算法 GRPO AR 优化模型。论文还提出了新的评测基准 OpenDesign,在该基准上综合衡量美学表现。 论文链接: https://openreview.net/forum?id=Q87kwGI6bx 分享论文 2: VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models 论文摘要: 研究团队提出了 VisCodex 框架,旨在提升多模态大语言模型从视觉和文本输入生成代码的能力。本文通过将视觉模型与编码模型融合,既保留了视觉理解能力,又增强了代码生成能力。研究员们构建了规模达 59.8 万样本的多模态编程数据集(MCD)并设计了评测基准 InfiBench‑V。实验结果显示,VisCodex 在多模态代码生成任务中取得了最先进性能,接近 GPT‑4o 等顶尖模型。 论文链接: https://openreview.net/forum?id=hUXzPauNEM 王思远 ,上海交通大学博士研究生在读,研究方向包括Long Context LLM, AI Systems和HCI。目标是成为最好的AI系统研究者。此前曾在微软亚洲研究院实习,参与Long Context LLM的研究。 分享论文: LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts 论文摘要: LoongRL 关注的是一个很实际的问题:当前长上下文模型往往“能检索”,但不一定“会推理”。短上下文 RL 已经证明可以诱导模型产生更强的 CoT、自反思和 “Aha moment”,但长上下文场景下,模型还需要在大量干扰文本中找到相关证据,并把证据串起来完成多跳推理。本论文认为,其关键瓶颈之一是缺少足够难、同时答案又可验证的长上下文 RL 数据。 为了解决这个问题,研究团队提出 KeyChain 数据构造方法:把 HotpotQA、MuSiQue、2WikiMultiHopQA 等短上下文多跳 QA 扩展成长上下文,并插入 UUID key-value 链条,把真正的问题隐藏在一系列链式跳转之后。模型必须先沿着正确链条找到真正要回答的问题,再从长上下文中检索证据并完成推理。 论文链接: https://openreview.net/forum?id=o29E01Q6bv 杨一帆 ,现任微软亚洲研究院(上海)高级研究工程师,他的研究方向包括视觉内容生成、多模态基础模型与智能体系统,重点关注如何将前沿研究创新落地到真实产品与应用场景中。其研究成果发表于 CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、AAAI 等顶级会议与期刊,并担任 NeurIPS、ICML、ICLR 等多个会议的区域主席。他深度参与了微软 Phi 系列模型,包括 Phi-3 与 Phi-4 的研发,多项技术成果转化到 Office、Azure 等微软核心产品。近期代表工作 LLM2CLIP 通过大语言模型增强跨模态表征学习,已被集成到 Phi-4-mini 预训练流程,并获得 AAAI 2026杰出论文奖。 分享论文: VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL 论文摘要: AI 生成视频在真实感、运动一致性和视觉质量上不断提升,使得真实视频与合成视频之间的边界日益模糊。这一趋势对内容安全、虚假信息治理、隐私保护和数字取证提出了新的挑战。对此,研究员们提出了一个面向 AI 生成视频检测与解释的 reasoning-first 多模态大模型框架VidGuard-R1。通过强化学习,尤其是 GRPO 训练范式,VidGuard-R1可引导模型探索并比较多条推理路径,从而发现视频中的物理不一致、时间稳定性问题、纹理伪影、光照异常和扩散生成过程相关的质量退化等线索。在数据层面,VidGuard-R1 构建了包含 14 万对真实/伪造视频的高挑战性数据集,并在多个公开 benchmark 与未见过的新生成模型上展示了较强的泛化能力