V-Help为您的企业提供高端 IT 服务
← 全部新闻
人工智能

GPT-5.5 在 Agents’ Last Exam 基准测试中超越 Claude Fable 5

GPT-5.5 在 Agents’ Last Exam 基准测试中超越 Claude Fable 5

图片: VentureBeat

简要回答

Agents’ Last Exam(ALE)是由加州大学伯克利分校开发的基准测试,专注评估AI代理在55个行业中执行专业任务的能力。

加州大学伯克利分校负责任去中心化智能研究中心(RDI)的研究人员推出了Agents’ Last Exam(ALE)——一项专为评估AI代理在经济价值显著的专业任务中表现而设计的基准测试。与传统测试不同,ALE聚焦于真实工作流程,如在Siemens NX中创建3D模型、在Unreal Engine中调试场景,以及在FSLeyes中处理神经影像。

在ALE框架下,模型将通过五个关键维度进行评估:逻辑推理、视觉感知、任务编排、工具使用及运行时环境操作。该基准涵盖55个行业,包含1490个基于真实专业场景的任务。ALE特别强调确定性评估结果:与使用LLM作为评判者不同,ALE采用代码检查来比对AI生成的工件与标准解决方案。

测试结果出人意料:通过Codex框架运行的GPT-5.5以24%的成功率夺冠,超越了Anthropic不久前发布的Claude Fable 5(22%)。然而,即使领先者在最复杂的任务中表现也极低——多数模型(包括Claude Opus 4.8和Gemini CLI)完全无法完成。这凸显了AI在专业环境中实际应用与学术基准间的巨大差距。

为防止数据泄露并确保评估客观性,ALE采用独特的任务轮换系统:仅10%的数据集公开,其余任务存储在封闭环境中并定期更新。这有效避免了基准测试的“污染”,并为企业客户提供可靠的结果验证。

常见问题

什么是Agents’ Last Exam(ALE)?
ALE是由伯克利研究团队开发的AI代理评估基准,涵盖55个行业的复杂专业任务,包括3D建模和图形编辑器操作。
哪些模型在ALE中表现最佳?
GPT-5.5以24%的成功率位居榜首,领先Anthropic的Claude Fable 5(22%)。但即使领先者也无法完成最具挑战性的任务。
ALE基准测试结果为何对企业重要?
ALE评估的是AI在真实专业工作流程中的实际性能,而非学术测试。模型的低成功率表明AI代理尚未准备好全面应用于企业流程。
分享:

Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml

为何可信

本文由 V-Help 编辑部根据一手来源整理,并标注发布日期。

发布: V-Help.ru 新闻编辑部

来源: VentureBeat