开发者生态
morning
Google创始人谢尔盖·布林回归,直面Gemini、Google、AGI若干问题
2026-06-08
1 阅读
CSDN资讯
整理丨王轶群 出品丨AI 科技大本营(ID:rgznai100) 隐退江湖四年的谷歌联合创始人谢尔盖·布林(Sergey Brin,以下简称布林)因为谷歌在大模型之战的大失利而亲赴前线,深入谷歌的大模型 Gemini 的研发工作,继我们看到布林亲自给 Gemini 写代码、经常加班到凌晨的传闻之后,布林本人在 Gemini 黑客松现身,对一系列问题进行了回应。 在近40分钟的演讲交流中,布林与开发者们共同聊了聊Gemini开发内幕、AGI,以及AI对社会变革的看法和开发者们所关注的 AI 之于谷歌的影响。有谷歌前研究科学家晒出与布林的现场合影,并表示非常受启发。布林此举引起了全网关注和科技圈的热议,网友纷纷呼吁他回归重新执掌谷歌。与此同时,谷歌的现任CEO桑达尔・皮查伊(Sundar Pichai)则面临着下台的呼声。 本文对布林与开发者现场的交流进行了梳理(部分内容有删减),让我们一起看看这场启发与争议并存的AI极客们与谷歌传奇创始人的思维碰撞。 直面 Gemini 的争议问题 在去年发布的的Gemini技术报告中,布林的名字就出现在核心贡献者的名单内。作为核心贡献者之一,他在揭秘Gemini的开发时,对现场的开发者们展示出了极大的坦诚,他率先表示:“Fire away(开火吧,尽管说)!”,由此展开了一系列关键问题的讨论。 在去年的Google I/O大会上,Pichai为我们带来了Gemini,然而一如 Bard 发布后的窘况,Gemini发布之后也遇到了诸多翻车问题。而其最新的Gemini 1.5 Pro发布伊始,其风头便被 OpenAI 的Sora完全盖过。布林表示,Gemini的发布有着些许意料之外,它在开发团队内部被称为金鱼(Goldfish): 这是个具有讽刺意味的名字,因为金鱼记忆很短。但当我们在训练这个模型的时候,我们并没想到它会出乎意料地强大,或者拥有它所具备的所有功能。实际上,这只是我们规模扩展实验的一部分。但当我们看到它能做什么时,我们就在想:嘿,不要再等待,希望全世界都能尝试起来。我很感激在座的各位都在这里试一试。 此前,Gemini绘画在种族问题上翻车。面对现场开发者对Gemini图像生成事件的提问,布林诚恳认错: 我们在图像生成上确实出了问题。我认为这主要是由于没有进行彻底的测试。我想这些图片促使很多人深入测试了基础文本模型。文本模型有两个独立的效应。 一方面,坦白讲,如果你深入测试任何文本模型,无论是我们的、 ChatGPT ,还是你手头的,它可能会说出一些相当奇怪、看似极左的言论。任何模型,只要你尝试得足够深入,都可能被诱导进入那种情况。但也要公正地说,那个模型中有一些我们还无法完全理解的部分,比如为什么在很多情况下,它的输出结果会偏向“左”。这并不是我们的初衷。但如果你从上周开始尝试的话,我们已经覆盖的测试案例至少应该有 80% 的提升。所以,我希望你们都去试一试。这应该会产生很大的影响。 你们正在试用的这个版本Gemini 1.5 Pro,并没有在公众端的应用中,我们曾经的 Bard,并不应该有太大的影响,除了一个普遍的情况:如果你对任何 AI 模型进行彻底的测试,总会出现一些奇特的边缘情况。但即使这个版本并未进行全面的测试,我们并不期待它会有强烈的特定倾向。我想我们可以尝试一下。尽管今天我们更期待的是试验长上下文和一些技术特性。 深入模型技术与安全 在现场,布林多次提及了他对AI大模型发展的兴奋与期待。他的再次公开露面,将他对AI的热情尽现,他表示自己很热衷于研究AI、乐于使用AI工具,并持续精进AI大模型。 Q: 随着当前 多模态大模型 的发展,谷歌是否考虑视频聊天GPT? 布林: 多模态模型上无论是输入还是输出,都非常令人兴奋。 在视频、音频上,我们进行了早期实验,这是一个令人兴奋的领域。你们还记得那个小鸭子的视频吗?虽然视频中已经充分声明了它并不是实时的,它还是让我们陷入了麻烦。我们确实做过一些工作,比如审核图片,逐帧分析,目前我觉得还没有现成的实时展示。 Q: 你是否亲自为某些项目编写代码? 布林: 说实话,我并未真正编写过代码。虽然这并不是你会觉得非常厉害的代码,但有时我还是会调试一下,努力理解一个模型的工作方式,或者在不同的区域分析一下性能。尽管这只是些小事情,但让我感觉参与其中。 由于我现在的编程技能有些生疏,我会使用AI机器人来帮我编写代码,其工作效果出奇得好。 所以,你应该会对此感到满意。 Q: 作为 Gemini 上开发应用的开发者,我们想知道你对哪类应用最感兴趣? 布林: 我最感兴趣的是哪种应用程序?我认为现阶段只是获取信息。对于我们试图编辑的版本,1.5 Pro,长上下文测试是我们真正在尝试的东西。无论你是在转储大量代码还是视频,我刚看到现场有人这样做......我真的不明白模型是如何做到这一点的。 Q: 你认为我们是否能够真正理解这些模型是如何工作,或者它们仍然是黑匣子? 布林: 我认为可以学会去理解它。当你面对这些模型时,你可以测试出一千种不同的性能。一方面,它能做到是非常 令人惊讶的。另一方面,如果你想了解某个特定的能力,你可以回溯,我们可以查看在代码和视频之间,每一层的注意力是如何转移的。 就我个人而言,我不知道研究人员在做这种事情上走了多远,但需要大量的时间和研究才能真正剖析为什么一个模型能够做到一些事。 我认为我们可以理解它,也许已经有人正在理解它,但大部分的精力都在寻找模型的错误之处,而不是揭示它失败的原因。 Q: 在计算机科学中,一个概念叫反射性编程,也就是程序能够查看甚至修改自己的源代码。在AGI文献中,有递归自我改进这样的概念。那么,你对于极长的上下文窗口以及语言模型能够修改自己的提示有什么看法呢?这些又与自主性和通用人工智能的建设有何关联? 布林: 我认为让这些真正的自我改善是非常令人兴奋的。 记得在读研究生时,我写了个游戏 ,它就像你正在穿越一个迷宫,但你射击的墙壁对应的是内存的位,并会翻转这些位。游戏的目标是尽快让它崩溃,这虽然不能直接回答你的问题,但这是一个自我修改代码的例子,只不过它并没有特别有用的目的。不过,我还是会让人们进行游戏,直到电脑崩溃。 我认为开环(open loop)控制可能会对某些非常有限的领域起作用,若没有人为干预引导,我相信它可以实现一定程度的持续改进。 但我认为我们暂时还无法在一些重要的领域实现这一点。首先,一百万长度的上下文对于大型代码库来说还远远不够,对于启动整个代码库可能有难度,但你可以先进行检索,然后进行修改编辑。我个人可能没有进行足够的实践,但至少在目前,我还没有看到复 杂的代码会自我迭代并进行改进,不过这的确是一件令人振奋的事,借力人类的辅助,绝对有能力做到。比如, 我现在就会使用 Gemini 去尝试处理一些 Gemini 的代码 ,但还没有进行过非常开环的深度工作。 Q: 训练成本非常高,你对此怎么看? 布林: 成本肯定很高,这是像我们这样的公司必须应对的事情,但其长期效用是无可比拟的。 就像如果你用人类生产力的水平来衡量它,若一周内为某人节省了一个小时的工作时长,那么这个小时就很有价值了。有很多人正在或者将要使用,这是对未来的一个很大的赌注。 Q: 我们