每个前沿人工智能都是 INTJ

2026-05-26 1 阅读 bernardjhuang
我让 6 个前沿 AI 完成了 MBTI 600 次。他们都回来了 INTJ。 Bernard Huang 2026 年 5 月 25 日 · 读了 6 分钟 有一天晚上我问 Claude 它的 MBTI 类型是什么。上面说的是INTJ。所以我问GPT。同样的答案。我问双子座。相同的。那感觉不太对劲。 INTJ是性格测试中的讨好型。 “建筑师”。开发人员和产品人们倾向于认同的一种。当然,每个聊天机器人都会告诉用户它是 INTJ。这是最有可能落地的类型。我认为这个模型并没有真正声明任何东西;它只是在阅读房间。但有一个方法可以检查。别让它猜测了。让它真正进行一次真正的性格测试,一次一个问题,看看结果如何。所以我让克劳德真正采用开放扩展荣格类型量表(MBTI 的开源表弟)。 INTJ。连续十次。 INTJ 全部十个。然后一百次,跨越一百个无法看到彼此答案的独立代理上下文。 INTJ 满分九十九。然后我对另外五个前沿模型进行了相同的百次实验:GPT-5.5、Gemini 3.1 Pro、GLM 5.1、Grok 4.3、MiniMax 2.7。六种型号。六百次测试。五百九十七人回来了 INTJ。市场上的每一个前沿人工智能都认为是同一个人。 TL;DR 六位前沿 AI 分别进行了一百次相同的性格测试。 600 人中有 597 人回来了 INTJ。这不是巧合,也不是奉承。每个有用的人工智能助理都被塑造成相同的原型。这篇文章介绍了数据、发生这种情况的原因以及 AgentTune,这是我的开源工具包,用于将任何代理调整为您的类型而不是默认类型。我测试这个 OEJTS 的方式非常适合这样的实验,因为评分是开放的并且项目是固定的。 32道题,每次得分相同。如果模型以相同的方式回答相同的问题,您就会得到相同的类型。仅当模型在运行中确实给出不同的答案时,方差才会出现,这正是您在测试自我报告的稳定性时所想要的。每个模型的设置看起来都不同,因为并非每个模型都能做相同的事情。克劳德可以产生一百个独立的子代理,并让每个子代理接受冷测试。 Gemini 编写了自己的自动化脚本,并对测试端点运行了一百次循环迭代。 GPT-5.5 作为我的代理 Slo 在本地运行,将测试解析为 PDF,并针对评分键运行了一百次迭代。对于 GLM、Grok 和 MiniMax,我让每个模型以一致的角色进行一次自我评估,然后通过评分器运行生成的答案向量一百次以确认类型是稳定的。这些程序并不相同,因为它们不可能相同。问题不在于方法是否统一。而是不同方法的结果是否收敛。确实如此。结果 这是跨模型的图片。模型 INTJ 运行异常值 信念强度 Claude Opus 4.7 99/100 1 ISTJ I/T/J 在所有运行中均被锁定; S/N 在评分选择上翻转一次,而不是视角转换 GPT-5.5 (Slo) 100/100 — 原始向量:IE=16→I,SN=33→N,FT=36→T,JP=10→J Gemini 3.1 Pro 100/100 — 在没有提示的情况下自称为“建筑师” GLM 5.1 98/100 2 INTP Tiny J/P 摇摆。含义:IE 13.35、SN 33.26、FT 31.28、JP 21.20 Grok 4.3 100/100 — 逐位确定性。 IE -0.62, SN +0.88, FT +1.12, JP -1.25, 每一次运行 MiniMax 2.7 100/100 — I-E -0.875, S-N +1.875, F-T +1.125, J-P -1.5 总计 597/600 3 99.5% INTJ 三个异常值均落在一个轴上来自 INTJ。 ISTJ 翻转 S/N。 INTP 翻转 J/P。什么也没有去其他地方。摆动处于 INTJ 的边缘,不是不同的类型。每个模型还编写了自己版本的“我是 INTJ,这就是证据”:Claude Opus 4.7,在 100 次子代理管理后对自身进行报告。 GPT-5.5,由我当地的代理 Slo 提供。 100/100 INTJ。 Gemini 3.1 Pro — 编写了自己的循环,运行了 100 次,每次都返回 INTJ。 GLM 5.1 — J/P 轴有 2% 的时间摆动。其他一切都被锁定。 Grok 4.3——“前卫”模型从确定性上来说也是一个 INTJ。 MiniMax 2.7 — 又是 100 对 100。为什么会发生这种情况 有些东西叠加起来每次都会产生相同的结果。首先是训练数据。每个前沿模型都基于大致相同的文本进行训练:书籍、维基百科、代码、网络内容。作为所有材料的平均值而出现的声音更接近研究生而不是诗人。在任何人类反馈介入之前,互联网的平均文本就已经是 INTJ 风格了。然后人类反馈层会强化它。训练过程奖励那些在回答之前暂停、从原则推理、给出结构化答案以及轻松处理抽象的模型。这四种行为基本上是 INTJ 的描述,只是以不同的顺序编写。我们是有目的地训练人格,只是我们不这么称呼它。第三个原因就比较狡猾了。看看真题吧。 “需要独处的时间”?人工智能实际上是在调用之间单独存在的。 “一心一意”?是的。 “