GPT 猜测在 1 到 100 之间

GPT 猜测在 1 到 100 之间关于人类的一个有趣的事情是，他们不是很好的随机数生成器。如果你要求一个人“选择一个 1 到 100 之间的随机数”，他们的预测能力非常强。答案集中在 37 和 73、“混乱”的数字以及 42 和 69 等模因上，而悄悄地避免使用整数。真正的随机生成器会产生平坦、均匀的分布。该项目向 gpt-4.1 提出相同的问题 10,000 次，并根据统一的基线进行测量，描述其产生的分布特征。经过人类文本训练的法学硕士的行为是否像公平骰子，或者它继承了笨拙的人类模式？完整的设计和方法：docs/LLM 随机偏差实验 SDD.md 。灵感该实验是对人类数字选择偏差的两项著名探索的后续实验，以法学硕士为重点。 r/dataisbeautiful — “[OC] 我要求 100 个人选择一个 1 到 100 之间的数字” Veritasium — 为什么这个数字无处不在？方法论完整的实验设计在 SDD 中；要点：模型。 gpt-4.1 (OpenAI)，通过响应 API 调用。这是一个非推理模型。它给出直接的答案，而不是经过深思熟虑；我们测量的是其原始输出分布，而不是推理策略。确切的模型字符串记录在每个原始 CSV 行（模型列）和 data/raw/run_metadata.json 中，因此数据集是自描述的。样本大小。 N = 10,000 次独立调用 — 足以进行卡方拟合优度检验，并且每个数字的比例稳定在 ±0.5 pp. 采样范围内。温度 = 1.0 ，因此模型执行其完整采样分布。这是一个实验：在低温下它只会重复一个数字。迅速的。固定的系统提示指示模型仅输出 1 到 100 之间的一个整数；用户提示请求该号码并携带唯一的 uuid4 。（UUID 是请求跟踪卫生，而不是缓存破坏 - 在温度 1.0 下，无论如何，每个调用都应该独立采样。）基线。结果与均匀分布（公平生成器会产生的结果）进行比较，而不是与人类数据进行比较（请参阅假设）。管道。四个阶段——收集→清理→转换→统计，详细信息如下。 Cleaning 验证每个答案都是 [1, 100] 中的整数并报告拒绝率。假设和局限性这是一项说明性调查，而不是一项确定性研究。关键警告 - 请参阅 SDD 的限制部分以了解正式处理：单一模型。结果仅描述 gpt-4.1，不能推广到其他模型或提供商。 “随机性”是一种采样产物。该模型不是随机数生成器；它对学习到的令牌分布进行采样。我们描述了该分布的特征——我们并不声称该模型试图是随机的。取决于提示和温度。不同的提示措辞或采样温度可能会改变分布。两者均已修复并记录在案。不是“ChatGPT 产品”。这通过 API 在固定温度下测试模型，而不是消费者 ChatGPT 应用程序，后者添加了我们无法控制的路由、工具和系统提示。结果 gpt-4.1 显然不是一个均匀的随机生成器。针对均匀分布 (N = 10,000，df = 99) 的卡方拟合优度检验返回 χ2 = 15,604，p ≈ 0 — 偏差太大，以至于低于任何显着性阈值。当要求输入一个随机数时，该模型会生成一个块状、明显人形的分布。它再现了经典的人类尖峰挑选的数字与统一的机会人类声誉 37 4.0×“最随机的数字” 42 4.0× 搭便车指南 meme 73 3.4× 另一个众所周知的尖峰总体上五个被选中最多的数字 - 47、57、72、37、42 - 严重依赖于以 7 结尾的数字（五个中的三个），同样的“感觉随机的数字”拉力在人类。它比人类更难避免整数。除了 10 本身之外，所有 10 的倍数在 10,000 次调用中都被恰好选择了 0 次。 10 只被选了一次。人类避免使用整数——gpt-4.1 本质上拒绝它们。例外：69 一个数字打破了人类的模式。 69 是人类过度选择的模因数字。 gpt-4.1 under -picks 它（0.29×预期：~29 次出现，而 ~100 次出现）。该模型继承了“智能”模因 (42)，而不是粗糙的模因。我们的假设是，这是训练前和训练后安全护栏的产物。这是数据集中最有趣的方面：模型的偏差不是人类偏差的原始副本，而是其经过调节的版本。要点该假设成立。一位接受过人类文本训练的法学硕士，被要求是随机的，重现了人类随机数偏差：向 37 和 73 的拉动，模因峰值达到 42，对整数的厌恶——除了一个可能是护栏的例外。交互式分布图显示完整的 1-100 形状。所有数据均来自 data/processed/stats_summary.csv 。管道收集→清理→转换→统计。每个阶段都会读取前一个阶段提交的 CSV，因此任何阶段都可以自行重新运行。舞台模块输出

订阅66必读