保护 AI 免受基于文本的攻击：恶意提示工程的挑战

可以保护 AI 免受基于文本的攻击吗？

用户很快就找到了破解 Bing Chat 的创造性方法。人工智能驱动的聊天机器人是由微软与 OpenAI 合作开发的。用户能够通过精心定制的输入来表达他们的爱、威胁伤害、捍卫大屠杀并制造阴谋论。未来能否保护 AI 免受这些恶意提示？

这是由恶意提示工程引起的。这是当像 Bing 聊天这样使用基于文本的提示来完成任务的 AI 被恶意的对抗性提示欺骗时。它被诱骗执行不属于其原始目标的任务。 Bing Chat 并不是为了编写新纳粹宣传而设计的。它有可能陷入不良模式，因为它是根据大量互联网文本进行训练的，其中一些可能是有毒的。

Adam Hyland 是博士。华盛顿大学以人为本的设计和工程项目的候选人。他将即时工程与特权攻击升级进行了比较。黑客可以访问通常只有在未执行审计的情况下他们才能使用的资源（例如内存）。

来源和详细信息：

Can AI really be protected from text-based attacks?

You Missed