治理行动，而不是代理：机构证明作为自主人工智能系统的治理模型

2026-06-26 1 阅读 Jakob Salfeld-Nebgen

arXiv:2606.26298v1 公告类型：新摘要：自主 AI 代理可能会开始执行相应的、不可逆转的操作，例如临床处方和生产软件部署。本文观察到，人类机构不是通过监控他们的推理来管理强大的自主行为者，而是通过在采取相应行动时要求独立证明的证据。我们将这种制度模式正式化为人工智能代理系统的计算治理模型。在提议的模型下，代理人保留对计划和推理的完全自主权，但对指定的高风险行动没有执行权。执行取决于先决条件，每个先决条件均由单独的权威来源独立证明，以加密方式绑定到声明的意图，并通过确定性策略进行评估。决策记录在防篡改日志中，可以进行独立重新验证。我们提出了一个概念验证实施，并通过软件部署和临床处方的示例来说明该模型。