资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年!

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

“Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构化回答。

据网友称,“Thinking Claude”可以令Claude 3.5的智能思维能力达到了一个新的高峰,使其表现堪比更先进的o1模型,简单地理解就是:Claude3.5+神级prompt=满血o1。

那到底是不是真的这么强呢?下面我们通过302.AI来实测一下。

使用到的工具

为了实测更高效、便捷,我们将使用到302.AI的聊天机器人和AI提示词专家,详细使用步骤如下:

AI提示词专家

通过使用302.AI的AI提示词专家,用户无需深入了解复杂的提示词设计技巧就可以生成有效的提示词,非常方便好用。

1、进入302.AI后,点击左侧【使用工具】——【工具超市】——【信息处理】——【AI提示词专家】;

(PS:如果想了解更多关于302.AI的AI提示词工具,可以翻阅AI教程分类往期作品)

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、进入AI提示词专家后可以看到,有多种提示词结构选择,今天我们需要选择自定义提示词;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、接下来点击【编辑提示词优化指令】;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

把prompt粘贴到框内,点击【保存】;

原prompt地址:https://github.com/richards199999/Thinking-Claude

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

4、将prompt设置好后,即可在输入框中输入任务指令——点击【生成】,然后302.AI会根据输入的任务指令和提供的prompt结合快速生成新的prompt,最后可以直接复制提示词到聊天机器人使用;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

聊天机器人

1、进入302.AI点击【使用机器人】——【聊天机器人】——模型——选择模型——点击【确定】;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、创建聊天机器人后进入,点击设置——勾选实时预览功能(不限于claude模型,实测中就使用了o1作为对比);

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测对比

为了实测结果更加客观全面,分为三组对比:

1、模型:claude-3.5-sonnet-20241022 不使用“Thinking Claude”提示词;

2、模型:claude-3.5-sonnet-20241022 使用“Thinking Claude”提示词;

3、模型:o1-preview 不使用“Thinking Claude”提示词

以下实测任务从简单到复杂,提示词从简略到详细:

实测1

指令描述:使用React做一个贪吃蛇游戏

1、来看下没有使用“Thinking Claude”提示词的claude-3.5-sonnet生成的效果,可以看到生成的贪吃蛇游戏是不能控制方向,也没有开始结束等按钮控制。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、下面是使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果,首先是可以通过键盘控制蛇的方向的,游戏上方显示了实时分数,同时也设置了开始和重新开始按钮,游戏相对比较完整。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、最后是o1-preview模型不使用“Thinking Claude”提示词的效果,首先可以看到生成的游戏是可以移动的,但无开始结束等按钮,也没有实时显示分数,如果游戏结束,得分会以页面弹窗的形式出现。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测2

指令描述:

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

1、没有使用“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:生成的游戏是通过点击切换有颜色的格子实现的,页面上方显示实时分数,但是在消除了颜色后,整个网格中相同的颜色都会改变,这不太符合逻辑。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:操作方式同样是点击切换格子,但是有个明显的bug,页面写着游戏说明:“单击两个相邻的块来交换它们。匹配3个或更多相同颜色的方块得分!”然而初始效果中有多个三个相同颜色相邻的格子;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、最后是o1-preview模型的不使用“Thinking Claude”提示词的效果:与以上效果不同,o1是通过鼠标拖动来切换格子,如果消除格子后,只会改变消除部分的颜色,整个游戏逻辑是最合理的。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测3

指令描述:

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

1、没有使用“Thinking Claude”提示词claude-3.5-sonnet模型生成的效果:可以看到点击开始后,页面出现了各种牌面,但是点击牌面是没有任何反应的,总之,和真正的斗地主游戏效果差距比较远。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:大致和以上的效果一样,牌面是以英文显示的;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、o1-preview模型的效果:与以上效果大差不差,都没有实现真正的斗地主游戏效果;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

总结

通过以上三个代码生成的实测,可以发现“Thinking Claude”这一提示词并没有这么“神”。以实测1为例,在用户提示很简洁的情况下,通过逐步引导和思考完善,使用该提示词确实能够产生较好的效果。但用户提示很详细时,使用这一提示词反而可能导致效果适得其反,如实测2所展示的那样。而对于更为复杂的任务,即便使用了“Thinking Claude”提示词,依然难以实现目标,实测3便是一个例证。

借用最近Anthropic专访里的一句话:提示词工程真正重要的场景是在努力榨取模型最后2%的性能

所以,在基座模型不变的情况下,优秀的提示词只是锦上添花,而无法达到一个质的飞跃。所以希望大家理性看待所有夸张的言论,亲手实践,眼见为实。

Like (0)
302.AI302.AI
Previous 2024 年 11 月 14 日 下午7:44
Next 2024 年 11 月 18 日 下午6:58

相关推荐

  • 资讯丨当小红书爆火的Recraft新风格与添加背景文字功能结合,会碰撞出什么样的火花?

    最近,302.AI工具超市的AI图片工具箱推出了一个全新的功能——添加背景文字。这一功能的灵感最初来源于苹果设备中壁纸所展现出的分层效果。 在前段时间,一位16岁的高中生也构建了一个应用叫“text-behind-image”,这款应用旨在帮助用户轻松地将文字添加到图像背景中,实现文字与背景图像的融合。在实际体验该应用后,我们发现线上版本无法使用,并且有可能…

    2024 年 11 月 27 日
    58100
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    43800
  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    2024 年 9 月 11 日
    74200
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    56400
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日
    24200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注