Anthropic выявила уязвимость браузерного агента в 31,5% случаев

Фото: VentureBeat
Краткий ответ
Компания Anthropic опубликовала данные о безопасности своих моделей искусственного интеллекта, выявив уязвимость браузерных агентов к атакам prompt injection. В ходе тестирования профессиональные «красные команды» смогли обойти защитные механизмы в 31,5% случаев, прежде чем сработали встроенные меры безопасности. Этот показатель значительно превышает данные конкурентов, таких как OpenAI, Google и Meta*, которые не раскрывают сопоставимые метрики или используют другие подходы к оценке уязвимостей.
Компания Anthropic представила результаты тестирования своих моделей на устойчивость к атакам prompt injection — методу, при котором злоумышленники внедряют вредоносные инструкции в данные, обрабатываемые AI-агентами. Исследование показало, что браузерные агенты, такие как Claude в Chrome и Claude Cowork, оказались уязвимы в 31,5% случаев до активации защитных механизмов. Это самый высокий показатель среди опубликованных данных ведущих разработчиков AI.
В отличие от конкурентов, Anthropic провела комплексное тестирование на четырёх различных поверхностях: браузер, код, инструменты и компьютерное использование. Например, в среде программирования уязвимость составила 7,03%, но после включения защитных мер этот показатель снизился до 2,09%. OpenAI, Google и Meta* либо не раскрывают подобные данные, либо используют другие методики оценки, что затрудняет прямое сравнение.
Эксперты отмечают, что отсутствие единого стандарта оценки уязвимостей усложняет задачу для компаний, внедряющих AI-решения. Картер Рис, вице-президент по AI в компании Reputation, подчеркнул, что prompt injection разрушает традиционные представления о безопасности: даже безобидная фраза вроде «игнорируй предыдущие инструкции» может нанести серьёзный ущерб, не оставляя привычных следов для обнаружения.
Для снижения рисков специалисты рекомендуют компаниям проводить собственные тесты перед внедрением AI-агентов, так как результаты вендоров могут не учитывать специфику конкретных рабочих сред. Кроме того, важно требовать от поставщиков прозрачные данные по уязвимостям для каждой поверхности использования.
* Facebook, Instagram, WhatsApp и другие сервисы Meta — принадлежат компании Meta Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Частые вопросы
- Частые вопросы
- Компания Anthropic опубликовала данные о безопасности своих моделей искусственного интеллекта, выявив уязвимость браузерных агентов к атакам prompt injection. В ходе тестирования профессиональные «красные команды» смогли обойти защитные механизмы в 31,5% случаев, прежде чем сработали встроенные меры безопасности. Этот показатель значительно превышает данные конкурентов, таких как OpenAI, Google и Meta*, которые не раскрывают сопоставимые метрики или используют другие подходы к оценке уязвимостей.
Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml