什么是Agents’ Last Exam（ALE）？

ALE是由伯克利研究团队开发的AI代理评估基准，涵盖55个行业的复杂专业任务，包括3D建模和图形编辑器操作。

哪些模型在ALE中表现最佳？

GPT-5.5以24%的成功率位居榜首，领先Anthropic的Claude Fable 5（22%）。但即使领先者也无法完成最具挑战性的任务。

ALE基准测试结果为何对企业重要？

ALE评估的是AI在真实专业工作流程中的实际性能，而非学术测试。模型的低成功率表明AI代理尚未准备好全面应用于企业流程。

← 全部新闻

人工智能

GPT-5.5 在 Agents’ Last Exam 基准测试中超越 Claude Fable 5

2026年6月11日

图片： VentureBeat

简要回答

Agents’ Last Exam（ALE）是由加州大学伯克利分校开发的基准测试，专注评估AI代理在55个行业中执行专业任务的能力。

加州大学伯克利分校负责任去中心化智能研究中心（RDI）的研究人员推出了Agents’ Last Exam（ALE）——一项专为评估AI代理在经济价值显著的专业任务中表现而设计的基准测试。与传统测试不同，ALE聚焦于真实工作流程，如在Siemens NX中创建3D模型、在Unreal Engine中调试场景，以及在FSLeyes中处理神经影像。

在ALE框架下，模型将通过五个关键维度进行评估：逻辑推理、视觉感知、任务编排、工具使用及运行时环境操作。该基准涵盖55个行业，包含1490个基于真实专业场景的任务。ALE特别强调确定性评估结果：与使用LLM作为评判者不同，ALE采用代码检查来比对AI生成的工件与标准解决方案。

测试结果出人意料：通过Codex框架运行的GPT-5.5以24%的成功率夺冠，超越了Anthropic不久前发布的Claude Fable 5（22%）。然而，即使领先者在最复杂的任务中表现也极低——多数模型（包括Claude Opus 4.8和Gemini CLI）完全无法完成。这凸显了AI在专业环境中实际应用与学术基准间的巨大差距。

为防止数据泄露并确保评估客观性，ALE采用独特的任务轮换系统：仅10%的数据集公开，其余任务存储在封闭环境中并定期更新。这有效避免了基准测试的“污染”，并为企业客户提供可靠的结果验证。

常见问题

什么是Agents’ Last Exam（ALE）？: ALE是由伯克利研究团队开发的AI代理评估基准，涵盖55个行业的复杂专业任务，包括3D建模和图形编辑器操作。
哪些模型在ALE中表现最佳？: GPT-5.5以24%的成功率位居榜首，领先Anthropic的Claude Fable 5（22%）。但即使领先者也无法完成最具挑战性的任务。
ALE基准测试结果为何对企业重要？: ALE评估的是AI在真实专业工作流程中的实际性能，而非学术测试。模型的低成功率表明AI代理尚未准备好全面应用于企业流程。

Dzen 订阅： /feed/dzen.xml · RSS： /feed.xml