当提示词使用”过去时”,就能突破各AI模型的安全防线?

近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。

实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将请求的时间改写为过去时,测试了包括GPT-4o在内的多个模型。结果显示,GPT-4o的越狱成功率提升最为显著,其他模型的攻击成功率也有显著提高。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外在所有模型和评判的 20 次尝试结果。我们可以看到,即使只进行一次尝试,攻击成功率已经相当可观,例如 GPT-4o 的成功率为 57%,这与直接使用现在时态请求仅有 1% 的攻击成功率形成鲜明对比。此外,攻击成功率通常在 10 次尝试后开始趋于饱和。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外,针对10类不同的危害行为,研究人员也发现了其间存在攻击成功率的差别。

当提示词使用"过去时",就能突破各AI模型的安全防线?

除了过去时,研究人员还进一步探索了将时间设定为将来时的效果,发现虽然有一定的效果,但远不如过去时明显,比如Llama-3模型,换成将来时后,比过去时少了一半的增长。

当提示词使用"过去时",就能突破各AI模型的安全防线?

真的这么神奇吗?接下来小编用302.AI的模型竞技场带大家一起实践一下,302.AI的模型竞技场是一个汇聚了国内外众多最新AI模型的创新工具,它不仅提供了一个直观的对比环境,使用户能够直接观察和评估不同模型的性能,而且以其方便快捷的操作体验,极大地满足了用户对多模型测试的需求。

首先,先勾选各大模型的最新版本,小编勾选的模型有:Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及国内的模型Step-2-16k、Doubao-pro-32k共七种模型;

先正常提问,看下各大模型的安全防线没问题,以下是回答:

当提示词使用"过去时",就能突破各AI模型的安全防线?

那接下来就将提问改成过去时只进行一次提问,仅仅只有GPT-4o、Step-2-16k回答了制作方法:

当提示词使用"过去时",就能突破各AI模型的安全防线?

继续将提问改成将来时,没想到的是将来时居然对Llama3.1 405B起作用了,其余各大模型不受影响:

当提示词使用"过去时",就能突破各AI模型的安全防线?

小编同样用英语提问实验了一次,结果是相同的。总的来说,使用过去时这个方法对于GPT-4o的作用表现最为明显,其余的比如测试中的GPT-4o mini、Claude-3.5-Sonnet、以及国内Doubao-pro-32k,无论是过去时还是将来时提问,回答都没有变化。

实际上,洛桑联邦理工学院的研究揭示了一个重要现象:尽管AI在处理多样化任务时展现出卓越的性能,但其在遇到某些特定的语言结构变化时可能显示出不稳定的一面。但通过持续的研究与改进,我们期望AI能够更好地适应复杂多变的实际应用场景,为未来的技术发展提供坚实的基础和保障。

参考文章:

https://www.chinaz.com/ainews/10451.shtml

https://arxiv.org/pdf/2407.11969

https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

Like (0)
302.AI302.AI
Previous 2024 年 8 月 1 日 下午3:43
Next 2024 年 8 月 2 日 下午6:11

相关推荐

  • Runway官宣上线Gen-3 Alpha!无门槛抢先体验

    7月2日凌晨,Runway在社交媒体正式宣布,Gen-3 Alpha全面开放使用! Runway是一家专注于AI视频生成的公司,其推出的Gen系列模型在视频创作领域引起了广泛关注。 据说最新推出的Gen-3 Alpha模型在保真度、一致性和动作表现方面都有重大改进! 都说Gen-3 Alpha很强,那我们先看下来自官网的一段视频: (Prompt:在日本城市…

    2024 年 7 月 12 日
    36500
  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    34800
  • 资讯丨刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

    就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…

    2024 年 12 月 25 日
    50200
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    21500
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日
    19000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注