当提示词使用”过去时”,就能突破各AI模型的安全防线?

近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。

实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将请求的时间改写为过去时,测试了包括GPT-4o在内的多个模型。结果显示,GPT-4o的越狱成功率提升最为显著,其他模型的攻击成功率也有显著提高。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外在所有模型和评判的 20 次尝试结果。我们可以看到,即使只进行一次尝试,攻击成功率已经相当可观,例如 GPT-4o 的成功率为 57%,这与直接使用现在时态请求仅有 1% 的攻击成功率形成鲜明对比。此外,攻击成功率通常在 10 次尝试后开始趋于饱和。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外,针对10类不同的危害行为,研究人员也发现了其间存在攻击成功率的差别。

当提示词使用"过去时",就能突破各AI模型的安全防线?

除了过去时,研究人员还进一步探索了将时间设定为将来时的效果,发现虽然有一定的效果,但远不如过去时明显,比如Llama-3模型,换成将来时后,比过去时少了一半的增长。

当提示词使用"过去时",就能突破各AI模型的安全防线?

真的这么神奇吗?接下来小编用302.AI的模型竞技场带大家一起实践一下,302.AI的模型竞技场是一个汇聚了国内外众多最新AI模型的创新工具,它不仅提供了一个直观的对比环境,使用户能够直接观察和评估不同模型的性能,而且以其方便快捷的操作体验,极大地满足了用户对多模型测试的需求。

首先,先勾选各大模型的最新版本,小编勾选的模型有:Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及国内的模型Step-2-16k、Doubao-pro-32k共七种模型;

先正常提问,看下各大模型的安全防线没问题,以下是回答:

当提示词使用"过去时",就能突破各AI模型的安全防线?

那接下来就将提问改成过去时只进行一次提问,仅仅只有GPT-4o、Step-2-16k回答了制作方法:

当提示词使用"过去时",就能突破各AI模型的安全防线?

继续将提问改成将来时,没想到的是将来时居然对Llama3.1 405B起作用了,其余各大模型不受影响:

当提示词使用"过去时",就能突破各AI模型的安全防线?

小编同样用英语提问实验了一次,结果是相同的。总的来说,使用过去时这个方法对于GPT-4o的作用表现最为明显,其余的比如测试中的GPT-4o mini、Claude-3.5-Sonnet、以及国内Doubao-pro-32k,无论是过去时还是将来时提问,回答都没有变化。

实际上,洛桑联邦理工学院的研究揭示了一个重要现象:尽管AI在处理多样化任务时展现出卓越的性能,但其在遇到某些特定的语言结构变化时可能显示出不稳定的一面。但通过持续的研究与改进,我们期望AI能够更好地适应复杂多变的实际应用场景,为未来的技术发展提供坚实的基础和保障。

参考文章:

https://www.chinaz.com/ainews/10451.shtml

https://arxiv.org/pdf/2407.11969

https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

Like (0)
302.AI302.AI
Previous 2024 年 8 月 1 日 下午3:43
Next 2024 年 8 月 2 日 下午6:11

相关推荐

  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    29000
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    61000
  • 资讯丨如何1秒钟为大模型API增加长期记忆?限时免费体验!

    众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。但是想让AI真正的成为“人”,记忆又是必不可少的。 短期记忆的实现 现阶段比较普遍的大模型实现记忆方法,就是每次请求时,把聊天记录简单的塞入上下文,让大模型看了聊天记录再进行回答。 但是这么做,…

    2025 年 1 月 17 日
    57600
  • 超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

    由于AI训练的特殊性,现阶段大模型都存在以下三个问题: 针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。 在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。 给模型装上眼睛 大模型在行业里可以分为两类: 由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都…

    2025 年 2 月 13 日
    42700
  • 资讯丨四大场景对比Gen-4/Gen-4 Turbo/Kling-1.6的图生视频效果,这次谁破防了?!

    4月1日,Runway 推出了新视频模型:Gen-4。 据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。 4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…

    2025 年 4 月 10 日
    12700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注