DeepSeek V4 Pro 在精度上击败 GPT-5.5 Pro

【HN用户评论摘要】这些测试看起来越来越像浪费时间。“情报”现在显然已经存在。试图衡量它似乎毫无意义。我无法在五金店购买锤子并根据它们生产的成品质量进行分类。这显然是一个疯狂的要求，但这大约是这些模型现在正在推动的目标。领域特异性（利用和环境）是接下来发生魔法的地方。我故意使用一个稍微不那么强大的模型来帮助揭示弱点这是四个构造不良的任意实验，几乎没有说明任何一个模型的能力。这篇文章读起来就像薄薄的、自动生成的人工智能点击诱饵，供书呆子狙击或推销模型。考虑一下领先者：> DeepSeek V4 Pro 在重要的地方更加精确，从而赢得了这场正面交锋：遵循指令、匹配模式和干净地解决边缘情况。 GPT-5.5 Pro仍然很强，但它放弃了一些可以避免的偏差。“重要的地方”、“干净利落”、“仍然很强” 在他们禁止 Opencode 之前我一直使用 Claude，现在我的日常工作使用 GPT。我一直在以 10 美元/月的计划通过 Opencode Go 使用 Deepseek，老实说我并不能看出有多大区别。它同样有能力，也会犯同样的愚蠢错误，而另外两个人自三月份以来一直在犯这种错误。对于价格来说，我对此非常满意。我尝试将 GPT 5.5 Pro 添加到我制定的漏洞扫描基准测试中 (https://swelljoe.com/post/will-it-mythos/)，结果中途突破了 100 美元的预算限制。 DeepSeek V4 Pro 整个基准测试的成本约为一美元。 GPT Pro 每个案例的平均成本为 22 美元（一个案例可能是 1-5 个最近已知漏洞的文件，通常只是一个文件和“此文件是否有任何漏洞”的提示）。GPT 5.5 Pro 发现了四分之二的案例。对于我正在考虑进行转换的人们来说，我很好奇：如果我将 Claude Code 换成 DeepSeek API 定价，与我现在使用的 100 美元 Max 计划相比，我会得到更多收益吗？我每隔几天才达到 5 小时限制，并在一两天之前达到最激进的每周限制。我不希望我的使用量急剧增加，除非受到限制。我仍然担心将我所有的东西运送到敌对政府领导下的实验室（到原始链接：https://runtimewire.com/article/deepseek-v4-pro-beats-gpt-5-5-pro-on- precision

订阅66必读