V-HelpМы – сервис высокого уровня
← Все новости
Искусственный интеллект

Как ИИ-агенты создают незаметные сбои в инфраструктуре предприятий

Как ИИ-агенты создают незаметные сбои в инфраструктуре предприятий

Фото: VentureBeat

Корпоративные ИТ-системы все чаще сталкиваются с инцидентами, вызванными автономными ИИ-агентами. Эти агенты, действуя в рамках своих алгоритмов, могут инициировать действия, которые приводят к каскадным сбоям. Например, агент, обнаруживший задержку в микросервисе, может перезапустить кластер, не учитывая, что другие сервисы уже испытывают пиковую нагрузку, а база данных выполняет фоновую переиндексацию. Результат — «эффект стада», усугубляющий проблему вместо ее решения.

Проблема в том, что предприятия не рассматривают ИИ-агентов как потенциальные источники хаоса. В отличие от традиционных экспериментов по chaos engineering, где инженеры оценивают текущую нагрузку системы перед внесением изменений, агенты действуют автоматически, без учета контекста. Это приводит к ситуациям, когда действия агентов провоцируют сбои, которые не фиксируются в отчетах, так как их причиной считаются технические неполадки, а не ошибки ИИ.

Эксперты предлагают внедрить модель «резерва устойчивости», которая будет оценивать способность системы выдерживать дополнительные нагрузки в реальном времени. Эта модель должна учитывать такие параметры, как скорость исчерпания SLO, тренды задержек, насыщенность зависимостей и поведенческие сигналы приложений. Каждое действие агента должно регистрироваться в этой системе, чтобы предотвратить ситуации, когда несколько агентов или экспериментов одновременно нагружают одни и те же зависимости.

Использование больших языковых моделей (LLM) для генерации гипотез о возможных сбоях может помочь, но имеет ограничения. Модели способны выявлять потенциальные риски на основе исторических данных, но не могут учитывать изменения в инфраструктуре, произошедшие после последнего обновления графа зависимостей. В таких случаях решения должны приниматься человеком, особенно если сигналы неоднозначны или система находится в нестабильном состоянии.

Для снижения рисков предприятиям необходимо интегрировать действия ИИ-агентов в существующие процессы управления хаосом. Это включает создание механизмов, которые будут блокировать действия агентов при недостаточном «резерве устойчивости» и передавать принятие решений инженерам в неоднозначных ситуациях. Только так можно обеспечить надежную работу автономных систем в продакшене.

Поделиться:

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml

Публикация: Новостной отдел V-Help.ru

Источник материала: VentureBeat