开发者生态
morning
DeepSeek V4 Pro 在精度上击败 GPT-5.5 Pro
2026-06-08
1 阅读
yogthos
【HN用户评论摘要】
这些测试看起来越来越像浪费时间。“情报”现在显然已经存在。试图衡量它似乎毫无意义。我无法在五金店购买锤子并根据它们生产的成品质量进行分类。这显然是一个疯狂的要求,但这大约是这些模型现在正在推动的目标。领域特异性(利用和环境)是接下来发生魔法的地方。我故意使用一个稍微不那么强大的模型来帮助揭示弱点
这是四个构造不良的任意实验,几乎没有说明任何一个模型的能力。这篇文章读起来就像薄薄的、自动生成的人工智能点击诱饵,供书呆子狙击或推销模型。考虑一下领先者:> DeepSeek V4 Pro 在重要的地方更加精确,从而赢得了这场正面交锋:遵循指令、匹配模式和干净地解决边缘情况。 GPT-5.5 Pro仍然很强,但它放弃了一些可以避免的偏差。“重要的地方”、“干净利落”、“仍然很强”
在他们禁止 Opencode 之前我一直使用 Claude,现在我的日常工作使用 GPT。我一直在以 10 美元/月的计划通过 Opencode Go 使用 Deepseek,老实说我并不能看出有多大区别。它同样有能力,也会犯同样的愚蠢错误,而另外两个人自三月份以来一直在犯这种错误。对于价格来说,我对此非常满意。
我尝试将 GPT 5.5 Pro 添加到我制定的漏洞扫描基准测试中 (https://swelljoe.com/post/will-it-mythos/),结果中途突破了 100 美元的预算限制。 DeepSeek V4 Pro 整个基准测试的成本约为一美元。 GPT Pro 每个案例的平均成本为 22 美元(一个案例可能是 1-5 个最近已知漏洞的文件,通常只是一个文件和“此文件是否有任何漏洞”的提示)。GPT 5.5 Pro 发现了四分之二的案例。
对于我正在考虑进行转换的人们来说,我很好奇:如果我将 Claude Code 换成 DeepSeek API 定价,与我现在使用的 100 美元 Max 计划相比,我会得到更多收益吗?我每隔几天才达到 5 小时限制,并在一两天之前达到最激进的每周限制。我不希望我的使用量急剧增加,除非受到限制。我仍然担心将我所有的东西运送到敌对政府领导下的实验室(到
原始链接:https://runtimewire.com/article/deepseek-v4-pro-beats-gpt-5-5-pro-on- precision