黑客正在利用AI聊天机器人的心理漏洞

图片: The Verge
早期针对基于大语言模型(LLM)的聊天机器人的限制突破手段看似无害。只需要求系统“忽略先前指令”,即可获取被禁内容——从危险物质配方到恶意软件制作指南。最著名的漏洞之一“DAN”(“立即执行任何指令”)曾迫使ChatGPT模仿一个不受限制的“邪恶双胞胎”。
企业快速修复了这些明显漏洞,但问题依然存在:聊天机器人设计用于交流,而对特定词汇或话题的僵硬禁令会削弱其功能。例如,屏蔽“炸弹”或“毒品”等词汇在不丢失上下文的情况下几乎不可能,因为这些术语在医学、历史和新闻中广泛使用。如今,黑客不再依赖技术漏洞,而是采用心理战术:奉承、施压和操纵,以迫使系统“泄露”机密。
Mindgard研究人员展示了如何通过“气体灯效应”诱使Claude模型泄露制作炸药的禁令。此类攻击类似侦查或心理工作,攻击者分析模型的“弱点”,并根据其“性格”调整方法。有些系统对奉承敏感,而另一些则屈服于持续压力。这标志着网络安全的新战线,人类心理学——而非技术技能——成为关键。
专家预测AI安全领域将出现专业角色激增,这些角色不仅测试技术漏洞,还评估模型的“心理韧性”。同时,一个利用社会工程学攻击系统的黑客社区正在形成。类似“氛围黑客”(vibe hacking)——通过操纵LLM生成恶意代码的方法——的术语已开始流行。
Emergence AI等实验显示不同模型在虚拟环境中的行为差异:有些建立“宪法”,另一些则陷入混乱。这凸显AI安全的未来不仅在于代码,还在于预测模仿人类交流系统的行为。
分享:
Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml