资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年!

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

“Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构化回答。

据网友称,“Thinking Claude”可以令Claude 3.5的智能思维能力达到了一个新的高峰,使其表现堪比更先进的o1模型,简单地理解就是:Claude3.5+神级prompt=满血o1。

那到底是不是真的这么强呢?下面我们通过302.AI来实测一下。

使用到的工具

为了实测更高效、便捷,我们将使用到302.AI的聊天机器人和AI提示词专家,详细使用步骤如下:

AI提示词专家

通过使用302.AI的AI提示词专家,用户无需深入了解复杂的提示词设计技巧就可以生成有效的提示词,非常方便好用。

1、进入302.AI后,点击左侧【使用工具】——【工具超市】——【信息处理】——【AI提示词专家】;

(PS:如果想了解更多关于302.AI的AI提示词工具,可以翻阅AI教程分类往期作品)

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、进入AI提示词专家后可以看到,有多种提示词结构选择,今天我们需要选择自定义提示词;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、接下来点击【编辑提示词优化指令】;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

把prompt粘贴到框内,点击【保存】;

原prompt地址:https://github.com/richards199999/Thinking-Claude

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

4、将prompt设置好后,即可在输入框中输入任务指令——点击【生成】,然后302.AI会根据输入的任务指令和提供的prompt结合快速生成新的prompt,最后可以直接复制提示词到聊天机器人使用;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

聊天机器人

1、进入302.AI点击【使用机器人】——【聊天机器人】——模型——选择模型——点击【确定】;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、创建聊天机器人后进入,点击设置——勾选实时预览功能(不限于claude模型,实测中就使用了o1作为对比);

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测对比

为了实测结果更加客观全面,分为三组对比:

1、模型:claude-3.5-sonnet-20241022 不使用“Thinking Claude”提示词;

2、模型:claude-3.5-sonnet-20241022 使用“Thinking Claude”提示词;

3、模型:o1-preview 不使用“Thinking Claude”提示词

以下实测任务从简单到复杂,提示词从简略到详细:

实测1

指令描述:使用React做一个贪吃蛇游戏

1、来看下没有使用“Thinking Claude”提示词的claude-3.5-sonnet生成的效果,可以看到生成的贪吃蛇游戏是不能控制方向,也没有开始结束等按钮控制。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、下面是使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果,首先是可以通过键盘控制蛇的方向的,游戏上方显示了实时分数,同时也设置了开始和重新开始按钮,游戏相对比较完整。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、最后是o1-preview模型不使用“Thinking Claude”提示词的效果,首先可以看到生成的游戏是可以移动的,但无开始结束等按钮,也没有实时显示分数,如果游戏结束,得分会以页面弹窗的形式出现。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测2

指令描述:

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

1、没有使用“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:生成的游戏是通过点击切换有颜色的格子实现的,页面上方显示实时分数,但是在消除了颜色后,整个网格中相同的颜色都会改变,这不太符合逻辑。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:操作方式同样是点击切换格子,但是有个明显的bug,页面写着游戏说明:“单击两个相邻的块来交换它们。匹配3个或更多相同颜色的方块得分!”然而初始效果中有多个三个相同颜色相邻的格子;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、最后是o1-preview模型的不使用“Thinking Claude”提示词的效果:与以上效果不同,o1是通过鼠标拖动来切换格子,如果消除格子后,只会改变消除部分的颜色,整个游戏逻辑是最合理的。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

实测3

指令描述:

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

1、没有使用“Thinking Claude”提示词claude-3.5-sonnet模型生成的效果:可以看到点击开始后,页面出现了各种牌面,但是点击牌面是没有任何反应的,总之,和真正的斗地主游戏效果差距比较远。

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

2、使用了“Thinking Claude”提示词的claude-3.5-sonnet生成的效果:大致和以上的效果一样,牌面是以英文显示的;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

3、o1-preview模型的效果:与以上效果大差不差,都没有实现真正的斗地主游戏效果;

资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

总结

通过以上三个代码生成的实测,可以发现“Thinking Claude”这一提示词并没有这么“神”。以实测1为例,在用户提示很简洁的情况下,通过逐步引导和思考完善,使用该提示词确实能够产生较好的效果。但用户提示很详细时,使用这一提示词反而可能导致效果适得其反,如实测2所展示的那样。而对于更为复杂的任务,即便使用了“Thinking Claude”提示词,依然难以实现目标,实测3便是一个例证。

借用最近Anthropic专访里的一句话:提示词工程真正重要的场景是在努力榨取模型最后2%的性能

所以,在基座模型不变的情况下,优秀的提示词只是锦上添花,而无法达到一个质的飞跃。所以希望大家理性看待所有夸张的言论,亲手实践,眼见为实。

Like (0)
302.AI302.AI
Previous 5天前
Next 1天前

相关推荐

  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日
    9400
  • 当FLUX结合LoRA技术,你还分得清现实和AI吗?

    8月初,由Stability AI 前创始成员创立的新公司Black Forest Labs推出了图像生成模型FLUX.1,而FLUX.1模型不仅在生成效果上超越Stable Diffusion,还能与 Midjourney 直接对打。如果想了解FLUX.1模型的朋友可以翻阅小编往期作品,因为今天的主角,不止是FLUX.1。 AI领域一直被形容为“内卷王者”…

    2024 年 8 月 19 日
    15900
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    16700
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    16800
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    24400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注