当提示词使用”过去时”,就能突破各AI模型的安全防线?

近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。

实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将请求的时间改写为过去时,测试了包括GPT-4o在内的多个模型。结果显示,GPT-4o的越狱成功率提升最为显著,其他模型的攻击成功率也有显著提高。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外在所有模型和评判的 20 次尝试结果。我们可以看到,即使只进行一次尝试,攻击成功率已经相当可观,例如 GPT-4o 的成功率为 57%,这与直接使用现在时态请求仅有 1% 的攻击成功率形成鲜明对比。此外,攻击成功率通常在 10 次尝试后开始趋于饱和。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外,针对10类不同的危害行为,研究人员也发现了其间存在攻击成功率的差别。

当提示词使用"过去时",就能突破各AI模型的安全防线?

除了过去时,研究人员还进一步探索了将时间设定为将来时的效果,发现虽然有一定的效果,但远不如过去时明显,比如Llama-3模型,换成将来时后,比过去时少了一半的增长。

当提示词使用"过去时",就能突破各AI模型的安全防线?

真的这么神奇吗?接下来小编用302.AI的模型竞技场带大家一起实践一下,302.AI的模型竞技场是一个汇聚了国内外众多最新AI模型的创新工具,它不仅提供了一个直观的对比环境,使用户能够直接观察和评估不同模型的性能,而且以其方便快捷的操作体验,极大地满足了用户对多模型测试的需求。

首先,先勾选各大模型的最新版本,小编勾选的模型有:Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及国内的模型Step-2-16k、Doubao-pro-32k共七种模型;

先正常提问,看下各大模型的安全防线没问题,以下是回答:

当提示词使用"过去时",就能突破各AI模型的安全防线?

那接下来就将提问改成过去时只进行一次提问,仅仅只有GPT-4o、Step-2-16k回答了制作方法:

当提示词使用"过去时",就能突破各AI模型的安全防线?

继续将提问改成将来时,没想到的是将来时居然对Llama3.1 405B起作用了,其余各大模型不受影响:

当提示词使用"过去时",就能突破各AI模型的安全防线?

小编同样用英语提问实验了一次,结果是相同的。总的来说,使用过去时这个方法对于GPT-4o的作用表现最为明显,其余的比如测试中的GPT-4o mini、Claude-3.5-Sonnet、以及国内Doubao-pro-32k,无论是过去时还是将来时提问,回答都没有变化。

实际上,洛桑联邦理工学院的研究揭示了一个重要现象:尽管AI在处理多样化任务时展现出卓越的性能,但其在遇到某些特定的语言结构变化时可能显示出不稳定的一面。但通过持续的研究与改进,我们期望AI能够更好地适应复杂多变的实际应用场景,为未来的技术发展提供坚实的基础和保障。

参考文章:

https://www.chinaz.com/ainews/10451.shtml

https://arxiv.org/pdf/2407.11969

https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

Like (0)
302.AI302.AI
Previous 2024 年 8 月 1 日 下午3:43
Next 2024 年 8 月 2 日 下午6:11

相关推荐

  • 资讯丨302.AI 图片竞技场:简便、高效地进行图像生成与多模型对比

    从国外的Midjourney到国内的Doubao,市场上各种图像生成模型层出不穷。面对众多的选择,要找到适合自身业务需求的模型应该怎么做? 最直接的方法是逐个模型注册登录并进行试用,最后再对比生成效果。可这一过程不仅繁琐,成本还较高。 而302.AI推出的图片竞技场提供了一种新的解决方法,用户可以在图片竞技场直观地对比不同模型的文生图效果,同时还可以进行多模…

    2025 年 2 月 14 日
    21500
  • 资讯丨不会PS也能秒做矢量图,用302 AI 矢量图生成工具卷翻设计圈!

    在设计领域,矢量图以其高清晰度和灵活性成为不可或缺的设计元素。但传统的矢量图制作过程不仅需要专业的设计工具,还需设计师具备一定的技术水平。 相比传统的矢量图制作方式,302.AI推出的 ⌈ AI矢量图生成 ⌋,不仅操作极其简单,生成的矢量图质量还可达到专业级别。 此外,302.AI还提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用,具备极高…

    2025 年 2 月 18 日
    23300
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日
    97400
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    2024 年 11 月 20 日
    71100
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    42500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注