五分钟了解法学硕士最后六个月的情况

2026-05-19 1 阅读 yakkomajuri
法学硕士最后六个月的五分钟时间 2026 年 5 月 19 日,我使用最新版本的带注释演示工具,将这些带注释的幻灯片放在了 PyCon US 2026 上的五分钟闪电演讲中。 # 我在 PyCon US 2026 上发表了这篇闪电演讲,试图在五分钟内总结法学硕士过去六个月的发展。 # 六个月是一个非常方便的时间段,因为它抓住了我所说的 2025 年 11 月拐点。十一月是法学硕士的关键月份,尤其是对于编码而言。 # 一方面,所谓的“最佳”模型(主要取决于氛围)在三大提供商之间易手了五次。 # 一如既往,我使用生成鹈鹕骑自行车的 SVG 测试来帮助说明模型之间的差异。为什么要进行这个测试?因为鹈鹕很难画,自行车也很难画,鹈鹕不会骑自行车……任何人工智能实验室为如此荒谬的任务训练模型的可能性为零。 # 11 月初,被广泛认可的“最佳”模型是 Claude Sonnet 4.5,于 9 月 29 日发布。它吸引了我这只鹈鹕。 11 月,它被 GPT-5.1 超越,然后是 Gemini 3,然后是 GPT-5.1 Codex Max,然后 Anthropic 凭借 Claude Opus 4.5 再次夺回桂冠。我认为 Gemini 3 吸引了这批中最好的鹈鹕,但鹈鹕并不是一切。大多数从业者都会同意 Opus 4.5 在接下来的几个月中保持领先地位。 # 这个问题花了一段时间才变得清晰,但 11 月份的真正消息是编码代理变得良好。 OpenAI 和 Anthropic 在 2025 年的大部分时间里都在运行可验证奖励的强化学习,以提高其模型编写的代码的质量,特别是与 Codex 和 Claude Code 代理工具配合使用时。 11月份,这项工作的成果已经显现。编码代理从经常工作变为主要工作,跨越了质量障碍,您可以将它们用作日常驱动程序来完成实际工作,而无需花费大部分时间来修复他们的愚蠢错误。 # 同样是在 11 月,这件事发生了——由一个叫 Pete 的人第一次提交了一个名为“Warelay”的不起眼的(当时)存储库。 # 在假期期间,从 12 月到 1 月,我们很多人都利用休息时间来研究这些新模型和编码代理,看看它们能做什么。他们可以做很多事情!我们中的一些人有点过于兴奋。当我开始制定雄心勃勃的项目,看看我能把它们推到多远时,我自己也经历过一种短暂的法学硕士精神病。 # 我的一个项目是 Python 中 JavaScript 的 vivi 编码实现——MicroQuickJS 的松散端口——我称之为 micro-javascript 。您可以在这个 Playground 的浏览器中尝试一下。 # 这个 Playground 演示展示了使用我的 micro-javascript 库运行的 JavaScript 代码,在 Python 中,在 Pyodide 中运行,在 WebAssembly 中运行,在 JavaScript 中运行,在浏览器中运行!太酷了!但是有人需要在 Python 中使用有缺陷、缓慢、不安全的 JavaScript 实现吗?他们没有。那个假期期间我还有很多其他项目,但后来我已经悄悄退休了! # 到二月了。还记得 Warelay 项目在 11 月底首次提交吗? # 在 12 月和 1 月,它经历了多次更名……到了 2 月,它以其最终名称 OpenClaw 席卷了世界。对于一个启动还不到三个月的项目来说,它所获得的关注量是相当惊人的。 # OpenClaw 是一个“个人人工智能助理”,我们实际上为它们提供了一个通用术语,基于 NanoClaw 和 ZeroClaw 等......它们被称为 Claws 。 # Mac Mini 开始在硅谷销售一空,因为人们购买它们是为了运行 Claws。 Drew Breunig 向我开玩笑说,这是因为它们是新的数字宠物,而 Mac Mini 是 Claw 的完美水族箱。 # 我最喜欢的爪子比喻是 2004 年电影《蜘蛛侠 2》中阿尔弗雷德·莫利纳 (Alfred Molina) 饰演的章鱼博士。他的爪子由人工智能驱动,只要没有任何东西损坏他的抑制芯片,他的爪子就完全安全……之后它们变得邪恶并接管了一切。 #同样是在二月份:Gemini 3.1 Pro出来了,给我画了一只非常好的骑自行车的鹈鹕。看看这个!它的篮子里甚至还有一条鱼。 # 然后谷歌的 Jeff Dean 在推特上发布了这段视频,视频中一只动画鹈鹕骑着自行车,一只骑着便士的青蛙,一只长颈鹿驾驶着一辆小汽车,一只鸵鸟踩着溜冰鞋,一只乌龟踢着滑板,一只腊肠犬驾驶着一辆加长豪华轿车。所以也许人工智能实验室一直在关注! # 过去一个月发生了很多事情。 # Google 发布了 Gemma 4 系列型号,这是我见过的美国公司中能力最强的开放重量型号。 # 同样在上个月,中国人工智能实验室 GLM 推出了 GLM-5.1——开放重量 1.5TB 的怪物!这是一个非常有效的模型...如果可以的话