著名的 O3“GeoGuessr”提示不起作用

去年 4 月，Kelsey Piper 发现 OpenAI 的 o3 模型在确定照片拍摄地点方面出人意料地出色。就像人类的“geoguessr”专家一样，o3 有时可以拍摄一张不起眼的海滩照片，然后告诉你它的确切位置。这是凯尔西给出的例子：有几个人复制了这个，并取得了良好的结果：不是 100% 的成功率，但显然比你用人类随机猜测所做的要好得多。这里的教训是模型的能力可以让我们感到惊讶。在 Kelsey 发推文之前，o3 模型已经发布了两周，但没有人注意到它在地理定位方面有多出色。有哪些我们从未发现的隐秘功能？我们今天缺少当前模型的哪些功能？一些人从中吸取了另一个教训：“快速工程”可以释放全新的能力。这是因为凯尔西有一个随着时间的推移而建立的神奇提示。当o3出错时，她会问它如何避免这个错误，然后将其包含在提示中。这是该提示的前 10%，因此您会明白：您正在玩一轮 GeoGuessr 游戏。您的任务：从单个静止图像推断出最有可能的现实世界位置。请注意，与 GeoGuessr 游戏不同，无法保证这些图像是在 Google 街景汽车可以到达的地方拍摄的：它们是用户提交的内容，用于测试您的图像查找能力。私人土地、某人的后院或越野冒险都是真实的可能性（尽管许多图像可以在街景中找到）。意识到你自己的优点和缺点：遵循这个协议，你通常会确定大陆和国家......这个提示给很多人留下了深刻的印象，他们尝试过并报告说它正确地识别了很多图像。当然，o3 只需一个基本的“仔细想想这张照片是在哪里拍摄的？”就正确识别了很多图像。迅速的。提示真的有帮助吗？仅通过玩 ChatGPT 很难弄清楚这一点。您需要构建一组图像评估并对它们运行 o3 两次：一次使用花哨的提示，一次不使用它。这就是我所做的。我从 Wikimedia Commons、Geograph Britain and Ireland 和 iNaturalist 中提取了 200 张图像作为基准。您可以在此处阅读 AI 生成的摘要，但这里是关键表：提示 n 中位数公里平均公里 P25 公里 P75 公里 <=25 公里 <=100 公里 <=500 公里 <=1000 公里默认 200 83.2 440.7 16.4 221.9 58 109 176 182 GeoGuessr 提示 200 102.3 481.9 18.5 277.8 59 99 172 180 总体而言，基本提示的平均效果较好。它始终猜测更接近实际位置。事实上，这两个提示都做得很好。尽管花哨的提示放大了 10 倍，但它只导致 o3 思考的时间稍微长一些（平均约一秒，但最大值约为两倍，为 10 分钟而不是 5 分钟）。我的基准测试中的图像是相当通用的 geoguessr 风格的户外图像，其中有十二张室内图像作为额外的挑战（花哨的提示在这些图像上也表现得稍差）。这是怎么回事？我认为这表明在提示的质量上欺骗自己是多么容易。当模型已经非常擅长某项任务时，您可以给它一个非常详细的提示，而不会影响性能。仍然会很好，只不过这次因为你所做的而很好。如果您正在迭代模型并针对每个错误询问“我应该在提示中添加什么”，则尤其如此。模型会很乐意为你编造关于他们自己的推理过程的故事，并且几乎总是会说“是的，这很有帮助！”当你问他们某个特定的提示调整是否会让事情变得更好时。真正了解的唯一方法是构建某种基准 1 。对我来说也很有趣的是当时没有人检查这一点。我花了大约 6 个小时的相当分散的工作时间和大约 15 美元来构建和运行这个基准测试。为什么没有人在写关于 o3 提示符有多好的文章时这样做？一个慈善的原因可能是这个故事更多的是关于 o3 的真实地理定位能力，而不是魔法提示。 o3 的定价过去也贵了大约五倍（尽管以 40 张图像而不是 200 张图像作为基准，仍然会让人怀疑提示的内容有多少）。而且，人工智能的发展速度太快了。地理定位只出现了大约一周的时间：此后，GPT-4o 的阿谀奉承就成了人们谈论的话题。另一个原因是当时的人工智能工具还没有那么好。该基准测试对我来说非常容易运行，因为 GPT-5.5 完成了大部分繁重的工作。在使用强大的代理之前，您必须自己编写（简单的）基准。我不能把矛头指向得太过分：我当时也没有打扰。也许我的基准不太好？这些照片看起来很合理：大部分都是各种类似地理猜测的道路和风景照片。我本可以尝试收集几千张照片而不是几百张，但如果魔法提示是真的

订阅66必读