GPT 猜测在 1 到 100 之间

2026-05-25 1 阅读 adunk
GPT 猜测在 1 到 100 之间 关于人类的一个有趣的事情是,他们不是很好的随机数生成器。如果你要求一个人“选择一个 1 到 100 之间的随机数”,他们的预测能力非常强。答案集中在 37 和 73、“混乱”的数字以及 42 和 69 等模因上,而悄悄地避免使用整数。真正的随机生成器会产生平坦、均匀的分布。该项目向 gpt-4.1 提出相同的问题 10,000 次,并根据统一的基线进行测量,描述其产生的分布特征。经过人类文本训练的法学硕士的行为是否像公平骰子,或者它继承了笨拙的人类模式?完整的设计和方法:docs/LLM 随机偏差实验 SDD.md 。灵感 该实验是对人类数字选择偏差的两项著名探索的后续实验,以法学硕士为重点。 r/dataisbeautiful — “[OC] 我要求 100 个人选择一个 1 到 100 之间的数字” Veritasium — 为什么这个数字无处不在?方法论 完整的实验设计在 SDD 中;要点:模型。 gpt-4.1 (OpenAI),通过响应 API 调用。这是一个非推理模型。它给出直接的答案,而不是经过深思熟虑;我们测量的是其原始输出分布,而不是推理策略。确切的模型字符串记录在每个原始 CSV 行(模型列)和 data/raw/run_metadata.json 中,因此数据集是自描述的。样本大小。 N = 10,000 次独立调用 — 足以进行卡方拟合优度检验,并且每个数字的比例稳定在 ±0.5 pp. 采样范围内。温度 = 1.0 ,因此模型执行其完整采样分布。这是一个实验:在低温下它只会重复一个数字。迅速的。固定的系统提示指示模型仅输出 1 到 100 之间的一个整数;用户提示请求该号码并携带唯一的 uuid4 。 (UUID 是请求跟踪卫生,而不是缓存破坏 - 在温度 1.0 下,无论如何,每个调用都应该独立采样。)基线。结果与均匀分布(公平生成器会产生的结果)进行比较,而不是与人类数据进行比较(请参阅假设)。管道。四个阶段——收集→清理→转换→统计,详细信息如下。 Cleaning 验证每个答案都是 [1, 100] 中的整数并报告拒绝率。假设和局限性这是一项说明性调查,而不是一项确定性研究。关键警告 - 请参阅 SDD 的限制部分以了解正式处理:单一模型。结果仅描述 gpt-4.1,不能推广到其他模型或提供商。 “随机性”是一种采样产物。该模型不是随机数生成器;它对学习到的令牌分布进行采样。我们描述了该分布的特征——我们并不声称该模型试图是随机的。取决于提示和温度。不同的提示措辞或采样温度可能会改变分布。两者均已修复并记录在案。不是“ChatGPT 产品”。这通过 API 在固定温度下测试模型,而不是消费者 ChatGPT 应用程序,后者添加了我们无法控制的路由、工具和系统提示。结果 gpt-4.1 显然不是一个均匀的随机生成器。针对均匀分布 (N = 10,000,df = 99) 的卡方拟合优度检验返回 χ2 = 15,604,p ≈ 0 — 偏差太大,以至于低于任何显着性阈值。当要求输入一个随机数时,该模型会生成一个块状、明显人形的分布。它再现了经典的人类尖峰 挑选的数字与统一的机会 人类声誉 37 4.0ד最随机的数字” 42 4.0× 搭便车指南 meme 73 3.4× 另一个众所周知的尖峰 总体上五个被选中最多的数字 - 47、57、72、37、42 - 严重依赖于以 7 结尾的数字(五个中的三个),同样的“感觉随机的数字”拉力在人类。它比人类更难避免整数。除了 10 本身之外,所有 10 的倍数在 10,000 次调用中都被恰好选择了 0 次。 10 只被选了一次。人类避免使用整数——gpt-4.1 本质上拒绝它们。例外:69 一个数字打破了人类的模式。 69 是人类过度选择的模因数字。 gpt-4.1 under -picks 它(0.29×预期:~29 次出现,而 ~100 次出现)。该模型继承了“智能”模因 (42),而不是粗糙的模因。我们的假设是,这是训练前和训练后安全护栏的产物。这是数据集中最有趣的方面:​​模型的偏差不是人类偏差的原始副本,而是其经过调节的版本。要点 该假设成立。一位接受过人类文本训练的法学硕士,被要求是随机的,重现了人类随机数偏差:向 37 和 73 的拉动,模因峰值达到 42,对整数的厌恶——除了一个可能是护栏的例外。交互式分布图显示完整的 1-100 形状。所有数据均来自 data/processed/stats_summary.csv 。管道收集→清理→转换→统计。每个阶段都会读取前一个阶段提交的 CSV,因此任何阶段都可以自行重新运行。舞台模块输出