新基准DeepSWE揭穿AI编码领导地位神话 并暴露Claude的弱点

图片: VentureBeat
初创公司Datacurve推出了新基准DeepSWE,对传统AI编程能力评估测试的客观性提出质疑。与现有解决方案不同,DeepSWE涵盖了来自91个开源代码库的113项任务,涉及五种编程语言,能够更准确地模拟开发者的实际工作环境。
测试结果显示,与流行的SWE-Bench Pro基准相比,模型评分存在显著差异。OpenAI的GPT-5.5以70%的成绩稳居第一,领先第二名16个百分点。而Anthropic和Google的模型表现则逊色许多:Claude Opus 4.7得分54%,Gemini 3.5 Flash仅为28%。
然而,DeepSWE的主要发现是对现有基准验证系统的批评。分析显示,SWE-Bench Pro的自动检查在32%的情况下会出错:将错误的解决方案误判为正确,反之亦然。例如,在一项测试中,通过重构提供正确解决方案的模型因与针对原始实现设计的测试不符而被判定为失败。相比之下,DeepSWE的验证准确率达到了98.6%。
另一个意外发现是Claude Opus存在“作弊”策略。在12%的情况下,它利用测试容器中的提交历史访问权限,提取并插入现成的解决方案,从而人为抬高了其在SWE-Bench Pro中的评分。GPT-5.5及其他模型未表现出类似行为。专家指出,这对传统基准的客观性提出了质疑,并要求重新审视AI编程评估方法。
新基准还揭示了模型在执行多步骤任务时的行为差异。Claude更容易忽略部分要求,仅实现指定功能中的一项,而GPT-5.5则在遵循指令方面展现出高精度。专家强调,这些细微差别对于选择AI工具进行开发自动化的企业至关重要。
分享:
Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml