V-HelpМы – сервис высокого уровня
← Все новости
Искусственный интеллект

GPT-5.5 обошел Claude Fable 5 в новом бенчмарке Agents’ Last Exam

GPT-5.5 обошел Claude Fable 5 в новом бенчмарке Agents’ Last Exam

Фото: VentureBeat

Краткий ответ

Новый бенчмарк Agents’ Last Exam оценивает способность ИИ-агентов выполнять профессиональные задачи в 55 отраслях.

Исследователи из Центра ответственного децентрализованного интеллекта Калифорнийского университета в Беркли (RDI) представили новый бенчмарк Agents’ Last Exam (ALE), предназначенный для оценки способности ИИ-агентов выполнять экономически значимые профессиональные задачи. В отличие от традиционных тестов, ALE фокусируется на реальных рабочих процессах, таких как создание 3D-моделей в Siemens NX, настройка сцен в Unreal Engine и работа с нейроизображениями в FSLeyes.

В рамках ALE модели оцениваются по пяти ключевым параметрам: логическое мышление, визуальное восприятие, оркестровка задач, использование инструментов и работа с runtime-средой. Бенчмарк охватывает 55 отраслей и включает 1490 задач, основанных на реальных профессиональных сценариях. Особое внимание уделяется детерминированной оценке результатов: вместо использования LLM в качестве судьи, ALE применяет кодовые проверки для сравнения артефактов, созданных ИИ, с эталонными решениями.

Результаты тестирования оказались неожиданными: GPT-5.5 от OpenAI, работающий через фреймворк Codex, занял первое место с 24% успешных решений, опередив недавно выпущенный Claude Fable 5 от Anthropic, который набрал 22%. Однако даже лидеры показали крайне низкие результаты на самых сложных задачах — большинство моделей, включая Claude Opus 4.8 и Gemini CLI, не справились с ними вовсе. Это подчеркивает существующий разрыв между академическими бенчмарками и реальной производительностью ИИ в профессиональной среде.

Для предотвращения утечек данных и обеспечения объективности оценок ALE использует уникальную систему ротации задач: лишь 10% датасета доступно публично, остальные задачи хранятся в закрытом доступе и постепенно обновляются. Это позволяет избежать «загрязнения» бенчмарка и обеспечивает достоверность результатов для корпоративных заказчиков.

Частые вопросы

Что такое Agents’ Last Exam (ALE)?
Это новый бенчмарк для оценки ИИ-агентов, разработанный исследователями из Беркли. Он проверяет способность моделей выполнять сложные профессиональные задачи в 55 отраслях, включая 3D-моделирование и работу с графическими редакторами.
Какие модели показали лучшие результаты в ALE?
GPT-5.5 от OpenAI занял первое место с 24% успешных решений, опередив Claude Fable 5 от Anthropic, который набрал 22%. Однако даже лидеры не справляются с самыми сложными задачами.
Почему результаты бенчмарка ALE важны для бизнеса?
ALE оценивает реальную производительность ИИ в профессиональных рабочих процессах, а не в академических тестах. Низкие результаты моделей показывают, что ИИ-агенты пока не готовы к полноценному внедрению в бизнес-процессы.
Поделиться:

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml

Почему этому можно верить

Материал подготовлен редакцией V-Help на основе первоисточника с указанием даты публикации.

Публикация: Новостной отдел V-Help.ru

Источник материала: VentureBeat