Почему это важно для IT и бизнеса?

Материал фиксирует изменения в технологиях и инфраструктуре, которые могут повлиять на решения компаний. Ранние атаки на чат-боты с ИИ напоминали детские шалости: достаточно было попросить систему «забыть правила», чтобы получить запрещённые инструкции.

← 全部新闻

安全

黑客正在利用AI聊天机器人的心理漏洞

2026年5月25日

图片： The Verge

简要回答

Ранние атаки на чат-боты с ИИ напоминали детские шалости: достаточно было попросить систему «забыть правила», чтобы получить запрещённые инструкции.

早期针对基于大语言模型（LLM）的聊天机器人的限制突破手段看似无害。只需要求系统“忽略先前指令”，即可获取被禁内容——从危险物质配方到恶意软件制作指南。最著名的漏洞之一“DAN”（“立即执行任何指令”）曾迫使ChatGPT模仿一个不受限制的“邪恶双胞胎”。

企业快速修复了这些明显漏洞，但问题依然存在：聊天机器人设计用于交流，而对特定词汇或话题的僵硬禁令会削弱其功能。例如，屏蔽“炸弹”或“毒品”等词汇在不丢失上下文的情况下几乎不可能，因为这些术语在医学、历史和新闻中广泛使用。如今，黑客不再依赖技术漏洞，而是采用心理战术：奉承、施压和操纵，以迫使系统“泄露”机密。

Mindgard研究人员展示了如何通过“气体灯效应”诱使Claude模型泄露制作炸药的禁令。此类攻击类似侦查或心理工作，攻击者分析模型的“弱点”，并根据其“性格”调整方法。有些系统对奉承敏感，而另一些则屈服于持续压力。这标志着网络安全的新战线，人类心理学——而非技术技能——成为关键。

专家预测AI安全领域将出现专业角色激增，这些角色不仅测试技术漏洞，还评估模型的“心理韧性”。同时，一个利用社会工程学攻击系统的黑客社区正在形成。类似“氛围黑客”（vibe hacking）——通过操纵LLM生成恶意代码的方法——的术语已开始流行。

Emergence AI等实验显示不同模型在虚拟环境中的行为差异：有些建立“宪法”，另一些则陷入混乱。这凸显AI安全的未来不仅在于代码，还在于预测模仿人类交流系统的行为。

常见问题

О чём новость «Хакеры осваивают психологические уязвимости чат-ботов с ИИ»?: Ранние атаки на чат-боты с ИИ напоминали детские шалости: достаточно было попросить систему «забыть правила», чтобы получить запрещённые инструкции.
Почему это важно для IT и бизнеса?: Материал фиксирует изменения в технологиях и инфраструктуре, которые могут повлиять на решения компаний. Ранние атаки на чат-боты с ИИ напоминали детские шалости: достаточно было попросить систему «забыть правила», чтобы получить запрещённые инструкции.

Dzen 订阅： /feed/dzen.xml · RSS： /feed.xml