智能AI
morning
造了半个数据库行业的图灵奖得主:劝年轻人别学计算机,行业红利正在消失
2026-05-08
1 阅读
加洋
Mike Stonebraker 是 2014 年图灵奖得主,他对数据库系统的奠基性贡献几乎写进了所有相关教科书。从 Ingres、Postgres,到 Vertica、VoltDB、SciDB,再到最近的 DBOS,每一个都是真正成就了诸多商业公司的工程系统。 最近他做客 Meta 资深工程师 Ryan Peterman 的播客,与其进行了一个小时的对话。他说话直接,不太客气。聊到 Larry Ellison 时,他说那人“把现在时和将来时混为一谈,本质上是在对客户撒谎”;聊到 Google 当年力推的 MapReduce 和最终一致性,他说“那不是 Google 唯一一件愚蠢的事”;聊到亚马逊同时维护着十五个数据库系统,他说“多了十二个”; (来源:Youtube) 他也表达了对如今 AI 的看法。在他看来,现在多数 agentic AI 还停在“只读”,给一个客户算个分、出个预测,并不真的去改数据库里的字段。一旦 agent 开始做读写,比如两个 agent 协作完成一笔转账,问题就立刻落回数据库的老地盘:事务、一致性、原子性。 说到大模型写 SQL,他甩出来几个数字。在 Spider、Bird 这些公开 text-to-SQL 基准上,最好的模型已经能拿到 85% 准确率,看起来差一步就能上生产。但 Stonebraker 团队用四个真实生产数据仓库做了一个新基准 Beaver,在这个基准上,大模型的准确率是 0;加上 RAG 也只到 10%;把 join 条件直接喂给模型,最多到 35%。同样的任务,一个懂 schema 的 SQL 工程师能做到 90% 以上。所以他的结论是:这项技术,至少在可见的未来,还不够格进生产。 谈及对年轻人的建议,他说如今已不太确定是否要推荐十八岁的小孩去主修计算机科学,“医疗和建筑业是稳妥的选择”。 下面是这次对话的完整内容: 在伯克利,被一个懂门道的人带进门 Peterman:我第一件想聊的事是 Postgres 是怎么起步的。我想从更早的地方开始,你最初是怎么进入数据库这个领域的? Stonebraker:我毕业之后很幸运被伯克利招了进去,但我心里清楚一件事:把博士时候做的东西继续往下做,不会有什么前途。那时候和今天一样,能找到一个懂门道的导师把你带进门,你就比别人快一截。Gene Wong 把我收到他翼下,他现在还在干活。他说,咱俩一起搞点事情吧。 那是 1971 年,Ted Codd(关系数据库理论奠基人)那篇开创性的论文发表在 CACM(《Communications of the ACM》,计算机领域的顶级刊物)上是 1970 年。Gene Wong 说,我们去研究下数据库这块。当时关系模型有两个对手。一个叫 CODASYL 提案(1960 年代提出的网状数据库标准,把数据按“指针网”组织),你大概太年轻没听说过。它是个底层的、像意大利面一样缠绕的网状结构,要查一条数据得一路追指针。另一个是 IBM 的 IMS(Information Management System,IBM 的层次数据库系统,今天还在卖),数据是树形组织的。但 IBM 自己当时就承认树不够通用,解决不了很多人的问题,于是又加了一层补丁,把它变成一个受限的网状结构,一看就是个糟糕的补丁。 CODASYL 那套问题一堆。层级太低,调试起来要命。它还有个性质:一旦你的 schema(数据结构定义)有任何变化,基本就得把所有东西扔了重来,因为它整个根扎在物理层面。而 Codd 那套东西完全说得通。所以 Gene 说,咱们就来造一个这样的玩意儿吧,下一步显然该试这个方向。1972 年他开始造 Ingres(INteractive GRaphics REtrieval System)的雏形,那时候我刚到伯克利当助理教授。 Peterman:Ingres 是怎么从一个原型走到真的能用的? Stonebraker:美国大学里的助理教授一般有五年的考核期,要么熬到终身教职,要么走人。Ingres 就是我拿到终身教职的敲门砖,1976 年我拿到了。 那个年代很多人写的原型都是“实验室风”,自己机器上能跑,拿给别人就跑不动了。Ingres 我们先投入了第一个 90% 让它能跑起来,然后不知道为什么,又投入了下一个 90% 让它真正好用。所以伯克利版的 Ingres 是真能用的。接下来几年大概有一百所大学开始跑它,因为 Unix 起来了,而 Ingres 是一套免费的、跑在 Unix 上的数据库。它在学术圈相当流行。 我们在伯克利开始接待大量访客,他们会说,这东西看起来真不错,你们最大的 Ingres 应用是什么?我们只能说,其实不太大。 当亚利桑那州立大学考虑用 Ingres 跑他们四万学生的学籍数据时,这个问题得到了充分的印