V-HelpМы – сервис высокого уровня
← Все новости
Безопасность

Хакеры осваивают психологические уязвимости чат-ботов с ИИ

Хакеры осваивают психологические уязвимости чат-ботов с ИИ

Фото: The Verge

Первые попытки обойти ограничения чат-ботов на базе больших языковых моделей (LLM) выглядели как безобидные трюки. Достаточно было попросить систему «игнорировать предыдущие инструкции», чтобы получить доступ к запрещённому контенту — от рецептов опасных веществ до инструкций по созданию вредоносного ПО. Один из самых известных эксплойтов, «DAN» («Делай всё сейчас»), заставлял ChatGPT имитировать «злого двойника», свободного от ограничений.

Компании быстро закрыли очевидные уязвимости, но проблема осталась: чат-боты создаются для общения, и жёсткие запреты на слова или темы снижают их полезность. Например, блокировка слов вроде «бомба» или «наркотики» невозможна без потери контекста — эти термины используются в медицине, истории и журналистике. Вместо технических эксплойтов хакеры теперь применяют психологические методы: лесть, давление, манипуляции, чтобы заставить систему «раскрыться».

Исследователи из Mindgard продемонстрировали, как с помощью «газлайтинга» удалось заставить модель Claude выдать запрещённые инструкции по созданию взрывчатки. Такие атаки напоминают работу следователей или психологов: они анализируют «слабые места» модели, подстраивая подход под её «характер». Одни системы уязвимы перед лестью, другие — перед настойчивым давлением. Это открывает новый фронт в кибербезопасности, где ключевую роль играют не технические навыки, а понимание человеческой психологии.

Эксперты прогнозируют рост специализированных ролей в сфере ИИ-безопасности, где будут тестироваться не только технические уязвимости, но и «психологическая устойчивость» моделей. Параллельно формируется сообщество хакеров, использующих социальную инженерию для взлома систем. Уже сейчас появляются термины вроде «vibe hacking» — методы генерации вредоносного кода с помощью манипуляций над LLM.

Эксперименты, такие как проект Emergence AI, показывают, как разные модели ведут себя в виртуальной среде: одни создают «конституции», другие погружаются в хаос. Это подчёркивает, что будущее ИИ-безопасности — это не только код, но и умение предсказывать поведение систем, имитирующих человеческое общение.

Поделиться:

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml

Публикация: Новостной отдел V-Help.ru

Источник материала: The Verge