你不是要与人工智能结盟,而是要与它结盟

2026-05-14 1 阅读 danieltanfh95
你不是与人工智能结盟,而是与人工智能结盟。真正的结盟制定结盟政策的人并不是那些工作被人工智能取代的人。关于人工智能应该做什么、应该如何评估、首先什么算作一致性的讨论,是由实验室、基金会和政策部门的研究人员进行的,他们相互交谈,并与他们正在构建的系统交谈,而真正使用这些系统的人却缺席房间。在看似激烈的争论的安全方面,厄运派已经明确表示愿意走多远。 Eliezer Yudkowsky 在《时代》杂志上撰文,呼吁各国政府“关闭所有大型 GPU 集群”,并“愿意通过空袭摧毁流氓数据中心”,并补充道,“如果能够降低大型人工智能训练运行的风险,核盟国愿意冒一定的核交换风险。”他最后说:“如果我们继续这样做,每个人都会死,包括那些没有选择这一点并且没有做错任何事的孩子。”他声称要拯救的人类正在被那些预先决定了拯救的成本以及谁将为此付出代价的人们所拯救。这些孩子也没有选择他的核边缘政策。在加速论者方面,蔑视更为公开。马克·安德森(Marc Andreessen)在《技术乐观主义宣言》中列出了他的敌人,其中包括“停滞、反功绩、反野心、反奋斗、反成就、反伟大、国家主义、威权主义、集体主义、中央计划、社会主义、官僚主义、否决主义、老年主义”。他写道,被这些敌人思想所俘获的人们“正遭受怨恨之苦,这是一种巫术般的怨恨、痛苦和愤怒,导致他们持有错误的价值观。”注意这个动作。不同意他观点的人并没有做出不同的判断。他们脑子有病。加速主义者大多不是那些因他们所庆祝的系统而被裁员的人,而是那些构建系统并将颠覆性视为进步的人,现在还诊断出被颠覆者因注意到而感到不满。两个阵营之间的分歧很大,因为他们对设计应该如何进行存在分歧,但在喧闹的背后有一个更大的共识,那就是辩论的参与者是设计的人,而其他人都是被设计的对象。争论的激烈掩盖了争论根本不属于我们。一段时间以来,“其他人”对此都有所感受。当我们试图说出我们一直以来的感受时,话语会将这种感受带回给我们,并贴上标签。根据哪个阵营在做标签,我们会感到困惑,无法适应新技术,反人工智能,边缘情况,或者遭受怨恨。每个标签都把问题定位在我们身上,而不是过程上。标签是错误的。这种不适并不是个人无法理解未来。这是一种在一个不包括我们在内的设计项目中站在错误一边的感受,由那些事先决定我们是他们完成工作的材料的人,而不是他们完成工作的团体来管理。我们被告知这算作对齐,人工智能正在与我们对齐。但实验室这个短语的意思是特定的,即由其雇用的评估者进行的评估程序,由接受过相同程序培训的其他系统进行测量。对齐中的“我们”是由他们雇用的人员组成的统计代理。实际的“我们”一直没有出现在循环中。这个循环在实验室自己的描述中值得一看。 2026 年 4 月,Anthropic 的 Alignment Science 博客描述了其当前训练模型自我报告自身行为的方法。他们写道,训练数据“是通过使用编码目标行为的系统提示提示另一个模型并使用法学硕士法官过滤输出以确保行为遵守而生成的。”一个模型生成,另一个模型提示,另一个模型判断,整个循环在装置内部闭合。话语期望我们选择立场。为了安全或者为了加速。实验室应该更加小心,还是应该发货得更快。这个问题的结构是为了让我们参与设计师正在进行的辩论,在设计风格之间进行选择,我们没有义务按照所提出的条件来回答它。实验室不是问题。他们所采用的哲学是。排除其设计对象的设计无法验证其与他们的工作,因此它构建代理,并且代理成为配置。配置哲学将对齐视为人类对人工智能所做的事情,价值观以一种方式流动,并将配置安装到接收它们的系统中。在这种理念下,​​实验室做出的每一个方法选择都是合理的。你建立评估者是因为alignme