智能AI morning

神经计算机横空出世:AI不再调用软件,而是直接长成一台计算机

2026-05-08 1 阅读 胡巍巍
过去几十年里,人类使用计算机的方式始终没有发生根本变化:我们编写程序,机器按照指令执行。 但随着大模型的发展,这种关系正在悄然改变,人类开始不再描述“如何做”,而是直接表达“想做什么”,而系统则负责推理并完成整个过程。在这一背景下,师从被誉为“现代人工智能之父”“LSTM 之父”的于尔根·施米德胡伯,来自 Meta 与 KAUST(阿卜杜拉国王科技大学)的诸葛鸣晨与田渊栋等合作者,提出了一种名为“神经计算机”的新设想:让神经网络直接学习如何使用计算机本身,而不是依赖已有的软件接口、工具链或程序结构。换句话说,这种路径并不是让AI更好地使用现有软件,而是尝试让“软件本身”逐渐进入模型内部。 论文公开后,他们很快发现,这个看似抽象的设想引发了出乎意料的关注:在 X 上获得了超过近九百条转发和超过一百多万浏览量。 对诸葛鸣晨来说,这不仅是一次传播上的反馈,也让他更加确信,这种方向确实击中了当前 AI 发展的某个关键问题。 采访中他讲述了这篇论文的缘起。他刚来到 KAUST 时,跟自己的导师于尔根·施米德胡伯说,自己来这儿是因为两个人是他的偶像,一个是 David Ha,另一个就是导师本人。这两人有一个共同特点,拥有推广全新研究范式的能力。比如他们在 2018 年合作的世界模型,是关于施米德胡伯教授在 1990 年的《Make the World Differentiable》里的用递归神经网络实现世界模型的工程实现。 除了为人熟知的 LSTM 等 AI 时代的巨作,施米德胡伯提出的在 2003 年提出的戈德尔机器,推动了递归自我进化这个方向。从 2024 年末开始,诸葛鸣晨多次与导师于尔根·施米德胡伯讨论“神经计算机”的设想。他们反复讨论的一个问题是:AI 究竟只是更高效地使用计算机,还是会成为一种新的计算机形态? 逐渐地,一个更激进的判断开始成形,这可能是 AI 迈向下一阶段的重要方向。 与当前常见的“AI 代理”不同,这种系统并不依赖预先定义好的接口或工具调用。它直接从屏幕像素和用户操作中学习整个计算机的运行方式,而不是通过预定义接口去调用已有软件功能。 换句话说,它不是在“调用软件”,而是在“直接生成一整台计算机的运行过程”。也就是说,原本分散在操作系统、软件和工具链中的功能,正在被压缩进同一个学习系统之中。 传统的计算机有明确的分工,处理器负责计算,内存负责存储,操作系统负责调度,你按下一个键,它执行一段写好的程序。神经计算机则无需依靠任何人写的代码,只需通过观看大量的屏幕录像和操作记录来学习。 为了实现原型,研究团队一共探索了 6 种完全不一样的数据收集方式,收集了超过 80 万条命令行操作片段,总时长大约 1,100 小时,还收集了大约 1,500 小时的图形桌面操作记录。他们采用约 25 万个 H100 GPU hours 训练了 8 个截然不同模型,这些模型看多了之后,自己学会了终端里的文本应该是什么样子的,光标应该怎么移动,窗口应该怎么弹出。它没有学过一行操作系统的代码,却能通过观察屏幕像素的变化来掌握系统行为。这也意味着,它不是在执行明确规则,而是在大量非结构化的观察中归纳出“计算机如何运作”。换句话说,它不是在运行程序,而是在学会成为一台计算机。 命令行(CLI)模型的学习过程是这样的,一开始它生成的终端画面完全不可读,文字乱成一团。训练了 2.5 万步之后,它开始能够写出来清晰的字符,颜色和格式也都对得上。越往后学,它生成的内容和真实操作的差距就越小。研究人员使用了一个名为 Tesseract 的文字识别工具来评估模型的生成质量,发现字符准确率从最初几乎不可读(约 3%),提升到超过一半内容可以被正确识别(54%)。 这意味着,模型已经能够生成一个在外观和结构上都接近真实的终端界面。不过当涉及到算术运算时,模型就会露怯。问它 28 减 23 等于多少,它经常给出错误答案。但是,如果在指令中把答案也告诉它,它就能准确地把那个数字显示在屏幕上。这说明目前的神经计算机更像一个模仿者,它能够学会“计算机看起来是如何工作的”,却还没有真正掌握“计算本身”。 换句话说,它擅长复现结果的表现形式,但还不具备生成结果的内在能力。这种能力上的不均衡,也体现了当前这类系统的一个典型特征:它可以在某些模式明确的任务上表现出色,却在看似简单的问题上出现明显失误。 (来源: https://arxiv.org/pdf/2604.06425v1) 图形桌面模型(GUI)面对的是短时控制的挑战,它需要理解鼠标移动、点击、拖拽这些动作和屏幕变化之间的关系。研究人员尝试了四种模型(拥有不同的动作注入方式)来输入这些操作信息。 最简单的方式是把操作信息叠加在输入画面上,稍复杂的方式是在模型内部的注意力机制里单独加一个处理操作的模块。结果发现,让