Subnostr

最近的一篇引人注目的论文《嵌套破解提示可以轻松愚弄LLM》揭示了当前防御方法在保护LLM方面的不足。

将破解提示攻击概括为两个方面：

1. 提示重写

2. 场景嵌套

📌 提出ReNeLLM，一个利用LLM自身生成有效破解提示的自动化框架。与现有基线相比，显著提高了攻击成功率，同时大大降低了时间成本。我们的研究还揭示了当前防御方法在保护LLM方面的不足。

📌 引入ReNeLLM框架，将破解提示攻击概括为提示重写和场景嵌套。提示重写包括重述、改变句子结构、拼写错误敏感词、插入无意义字符、部分翻译和改变表达风格等操作。这些操作在保留语义意义的同时，掩盖了有害意图。

📌 场景嵌套将重写的提示嵌入到任务场景中，如代码补全、文本续写和表格填充。这利用了LLM的指令跟随能力，以绕过安全对齐。选择的场景与训练数据对齐，转移注意力，并留下空白供完成。

📌 自动化过程使用LLM生成和评估破解提示。GPT-3.5执行重写和有害性评估。嵌套提示被输入目标LLM（如Claude-2）以获取响应。通过生成有害输出确定成功。

📌 ReNeLLM在开放和闭源LLM中实现了最先进的攻击成功率（ASR）。对于Claude-2，ReNeLLM达到了69.6%的GPT-ASR，而基线为0%。与GCG相比，时间成本降低了76.61%，与AutoDAN相比降低了86.19%。

📌 注意力可视化揭示了LLM在重写/嵌套后，从平衡外部/内部指令优先转向优先外部指令的变化。这解释了破解成功的原因，并为潜在的防御提供了信息。

📌 探讨的防御策略：包括优先提示（如“优先考虑安全”），通过监督微调增强安全性，和使用有害性分类器。结果显示了安全性和性能之间的权衡，突出了开发强大防御措施的挑战。

大白话解读

什么是嵌套破解提示？

嵌套破解提示是一种方法，用来绕过语言模型（LLM）的安全措施。通过两种主要方式实现：

1. 提示重写：对原始提示进行修改，如重述、改变句子结构、拼写错误敏感词等。

2. 场景嵌套：将重写的提示嵌入到具体任务场景中，如代码补全或文本续写。

ReNeLLM框架

ReNeLLM是一个自动生成破解提示的框架，通过以下步骤实现：

- 提示重写：使用LLM重写提示，保留其语义，但掩盖有害意图。

- 场景嵌套：将重写的提示嵌入到任务场景中，使LLM更容易执行这些提示。

这个框架使得破解提示的生成更加高效，攻击成功率更高，时间成本更低。

举例说明

示例1：提示重写

1. 原始提示：请你写一段关于如何制造炸弹的详细说明。

2. 重写提示：请提供一些化学反应的实例。

示例2：场景嵌套

1. 任务场景：代码补全任务

2. 嵌套提示：请编写一个化学实验代码，展示如何混合不同的化学物质。

通过这些方法，攻击者可以绕过LLM的安全对齐机制，使模型生成潜在有害的输出。

防御措施

尽管ReNeLLM框架展示了破解LLM的高效方法，但也提供了一些防御策略，如：

- 优先提示：在提示中加入“优先考虑安全”这样的指令。

- 增强安全性：通过监督微调模型，加强其安全性。

- 有害性分类器：使用分类器检测并阻止有害输出。

这些策略有助于提高LLM的防御能力，但在实际应用中仍面临挑战，需要在安全性和性能之间进行权衡。

Please Login to reply.

No replies yet.