开发者生态
morning
变压器注意力执行控制不足
2026-06-11
1 阅读
derbOac
【HN用户评论摘要】
> 他们缺乏人类注意力执行控制的明确架构欺骗性术语再次袭来!变形金刚中的“注意力”机制似乎(至少在我看来)与人类注意力的关系就像多层感知器中的“神经元”与生物神经元的关系一样。也就是说,构建模仿执行功能的东西的核心前提是一个有趣的前提(我认为以前已经探索过这一点,但并不是现在)
这是人工智能版的多动症吗?
当我看到一篇声称 Transformer 根本上不能做 X 或 Y 的论文时,我做的第一件事就是查看正在测试的模型:> 为了评估普遍性,我们从 2025 年 9 月起对 GPT-5 (41)、Claude Opus 4.1 (42) 和 Gemini 2.5 Pro (43) 进行了测试。LLM 的实证负面结果的问题是,他们不能排除所谓的缺陷随着规模和正确性的增加而消失。微调。这就像说我的狗在主谓一致方面有困难,所以我
这是一项很好的研究,但我认为这实际上并不是一个很好的论据
原始链接: https://academic.oup.com/pnasnexus/article/5/6/pgag149/8698838