使用不可信的类别成员调查概念对齐

摘要

arXiv:2605.21683v1 Announce Type: new Abstract: Developing AI systems with a human-like understanding of everyday concepts is a key step towards developing safe, reliable systems whose behavior makes

category the categories and concept

2026-05-23 1 阅读约1分钟阅读 Sunayana Rane, Brenden M. Lake, Thomas L. Griffiths

arXiv:2605.21683v1 公告类型：新摘要：开发具有类似人类对日常概念的理解的人工智能系统，是开发安全、可靠且其行为对人类有意义的系统的关键一步。在探索概念理解时，询问有关合理类别成员的问题（例如，“汽车是交通工具吗？”）可能会回忆起模型大量训练数据中的模式。我们追求另一种策略，通过询问难以置信的类别成员（例如，“橄榄是一种载体吗？”）来表征概念类别的边界，以探究我们认为人类同胞理所当然的概念级知识。我们通过研究人工智能系统将对象分配给 Rosch 和 Mervis 的经典心理学研究中的上级类别，以及将相同对象分配给不匹配的上级类别，来表征一组基本概念的概念边界。我们将这些作业与人类参与者在各种类别内和跨类别作业任务中所做的作业进行比较。我们的结果揭示了一系列概念，这些概念的模型与人类存在有意义且令人惊讶的差异，包括将“单词”视为属于“车辆”和“服装”等类别，将几个“蔬菜”类别成员识别为“水果”，以及将非武器类别中的范例分配给“武器”类别。我们还展示了这些概念不一致的实例如何转化为有问题的下游行为，并对人工智能安全产生影响。

订阅66必读