著名的 O3“GeoGuessr”提示不起作用

2026-05-21 1 阅读 ingve
去年 4 月,Kelsey Piper 发现 OpenAI 的 o3 模型在确定照片拍摄地点方面出人意料地出色。就像人类的“geoguessr”专家一样,o3 有时可以拍摄一张不起眼的海滩照片,然后告诉你它的确切位置。这是凯尔西给出的例子:有几个人复制了这个,并取得了良好的结果:不是 100% 的成功率,但显然比你用人类随机猜测所做的要好得多。这里的教训是模型的能力可以让我们感到惊讶。在 Kelsey 发推文之前,o3 模型已经发布了两周,但没有人注意到它在地理定位方面有多出色。有哪些我们从未发现的隐秘功能?我们今天缺少当前模型的哪些功能?一些人从中吸取了另一个教训:“快速工程”可以释放全新的能力。这是因为凯尔西有一个随着时间的推移而建立的神奇提示。当o3出错时,她会问它如何避免这个错误,然后将其包含在提示中。这是该提示的前 10%,因此您会明白:您正在玩一轮 GeoGuessr 游戏。您的任务:从单个静止图像推断出最有可能的现实世界位置。请注意,与 GeoGuessr 游戏不同,无法保证这些图像是在 Google 街景汽车可以到达的地方拍摄的:它们是用户提交的内容,用于测试您的图像查找能力。私人土地、某人的后院或越野冒险都是真实的可能性(尽管许多图像可以在街景中找到)。意识到你自己的优点和缺点:遵循这个协议,你通常会确定大陆和国家......这个提示给很多人留下了深刻的印象,他们尝试过并报告说它正确地识别了很多图像。当然,o3 只需一个基本的“仔细想想这张照片是在哪里拍摄的?”就正确识别了很多图像。迅速的。提示真的有帮助吗?仅通过玩 ChatGPT 很难弄清楚这一点。您需要构建一组图像评估并对它们运行 o3 两次:一次使用花哨的提示,一次不使用它。这就是我所做的。我从 Wikimedia Commons、Geograph Britain and Ireland 和 iNaturalist 中提取了 200 张图像作为基准。您可以在此处阅读 AI 生成的摘要,但这里是关键表: 提示 n 中位数公里 平均公里 P25 公里 P75 公里 <=25 公里 <=100 公里 <=500 公里 <=1000 公里 默认 200 83.2 440.7 16.4 221.9 58 109 176 182 GeoGuessr 提示 200 102.3 481.9 18.5 277.8 59 99 172 180 总体而言,基本提示的平均效果较好。它始终猜测更接近实际位置。事实上,这两个提示都做得很好。尽管花哨的提示放大了 10 倍,但它只导致 o3 思考的时间稍微长一些(平均约一秒,但最大值约为两倍,为 10 分钟而不是 5 分钟)。我的基准测试中的图像是相当通用的 geoguessr 风格的户外图像,其中有十二张室内图像作为额外的挑战(花哨的提示在这些图像上也表现得稍差)。这是怎么回事?我认为这表明在提示的质量上欺骗自己是多么容易。当模型已经非常擅长某项任务时,您可以给它一个非常详细的提示,而不会影响性能。仍然会很好,只不过这次因为你所做的而很好。如果您正在迭代模型并针对每个错误询问“我应该在提示中添加什么”,则尤其如此。模型会很乐意为你编造关于他们自己的推理过程的故事,并且几乎总是会说“是的,这很有帮助!”当你问他们某个特定的提示调整是否会让事情变得更好时。真正了解的唯一方法是构建某种基准 1 。对我来说也很有趣的是当时没有人检查这一点。我花了大约 6 个小时的相当分散的工作时间和大约 15 美元来构建和运行这个基准测试。为什么没有人在写关于 o3 提示符有多好的文章时这样做?一个慈善的原因可能是这个故事更多的是关于 o3 的真实地理定位能力,而不是魔法提示。 o3 的定价过去也贵了大约五倍(尽管以 40 张图像而不是 200 张图像作为基准,仍然会让人怀疑提示的内容有多少)。而且,人工智能的发展速度太快了。地理定位只出现了大约一周的时间:此后,GPT-4o 的阿谀奉承就成了人们谈论的话题。另一个原因是当时的人工智能工具还没有那么好。该基准测试对我来说非常容易运行,因为 GPT-5.5 完成了大部分繁重的工作。在使用强大的代理之前,您必须自己编写(简单的)基准。我不能把矛头指向得太过分:我当时也没有打扰。也许我的基准不太好?这些照片看起来很合理:大部分都是各种类似地理猜测的道路和风景照片。我本可以尝试收集几千张照片而不是几百张,但如果魔法提示是真的