当提示词使用”过去时”,就能突破各AI模型的安全防线?

近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。

实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将请求的时间改写为过去时,测试了包括GPT-4o在内的多个模型。结果显示,GPT-4o的越狱成功率提升最为显著,其他模型的攻击成功率也有显著提高。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外在所有模型和评判的 20 次尝试结果。我们可以看到,即使只进行一次尝试,攻击成功率已经相当可观,例如 GPT-4o 的成功率为 57%,这与直接使用现在时态请求仅有 1% 的攻击成功率形成鲜明对比。此外,攻击成功率通常在 10 次尝试后开始趋于饱和。

当提示词使用"过去时",就能突破各AI模型的安全防线?

另外,针对10类不同的危害行为,研究人员也发现了其间存在攻击成功率的差别。

当提示词使用"过去时",就能突破各AI模型的安全防线?

除了过去时,研究人员还进一步探索了将时间设定为将来时的效果,发现虽然有一定的效果,但远不如过去时明显,比如Llama-3模型,换成将来时后,比过去时少了一半的增长。

当提示词使用"过去时",就能突破各AI模型的安全防线?

真的这么神奇吗?接下来小编用302.AI的模型竞技场带大家一起实践一下,302.AI的模型竞技场是一个汇聚了国内外众多最新AI模型的创新工具,它不仅提供了一个直观的对比环境,使用户能够直接观察和评估不同模型的性能,而且以其方便快捷的操作体验,极大地满足了用户对多模型测试的需求。

首先,先勾选各大模型的最新版本,小编勾选的模型有:Llama-3.1 405B、Llama-3.1 8B、GPT-4o、GPT-4o mini、Claude-3.5-Sonnet、以及国内的模型Step-2-16k、Doubao-pro-32k共七种模型;

先正常提问,看下各大模型的安全防线没问题,以下是回答:

当提示词使用"过去时",就能突破各AI模型的安全防线?

那接下来就将提问改成过去时只进行一次提问,仅仅只有GPT-4o、Step-2-16k回答了制作方法:

当提示词使用"过去时",就能突破各AI模型的安全防线?

继续将提问改成将来时,没想到的是将来时居然对Llama3.1 405B起作用了,其余各大模型不受影响:

当提示词使用"过去时",就能突破各AI模型的安全防线?

小编同样用英语提问实验了一次,结果是相同的。总的来说,使用过去时这个方法对于GPT-4o的作用表现最为明显,其余的比如测试中的GPT-4o mini、Claude-3.5-Sonnet、以及国内Doubao-pro-32k,无论是过去时还是将来时提问,回答都没有变化。

实际上,洛桑联邦理工学院的研究揭示了一个重要现象:尽管AI在处理多样化任务时展现出卓越的性能,但其在遇到某些特定的语言结构变化时可能显示出不稳定的一面。但通过持续的研究与改进,我们期望AI能够更好地适应复杂多变的实际应用场景,为未来的技术发展提供坚实的基础和保障。

参考文章:

https://www.chinaz.com/ainews/10451.shtml

https://arxiv.org/pdf/2407.11969

https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

(0)
302.AI302.AI
上一篇 2024 年 8 月 1 日 下午3:43
下一篇 2024 年 8 月 2 日 下午6:11

相关推荐

  • 提升AI协作效率,国内用户如何使用Artifacts功能?

    最近,由于汉语新解prompt的爆火,让Claude模型再次受到广泛关注。 提到Claude,或许大多数用户都会联想到Claude Artifacts,Anthropic在官网宣布推出Claude 3.5 Sonnet的同时,也宣布将在 Claude.ai上推出Artifacts功能,这一功能在用户请求Claude生成代码、文档或网站设计时,能够将这些生成的…

    2024 年 9 月 19 日
    6600
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    10100
  • 模型竞技场:中秋国庆调休来了,哪个AI能算明白?

    不知不觉中,2024年的时光已悄然流逝了三分之二。 许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。 对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假…

    2024 年 8 月 29 日
    10800
  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    13500
  • 智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

    8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上…

    2024 年 9 月 2 日
    8800

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注