302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了!

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何!


> 在302.AI上使用

302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3,而且提供按需付费的服务方式,无论是企业、个体开发者,还是不同的用户群体,都能够依据自身的实际需求来灵活选择使用模型,满足各自不同的需求。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行实时更新,保持与市场的发展同步。以下是具体的获取步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择Deepseek-Chat模型并确定,最后点击创建聊天机器人按钮;

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

2、进入聊天机器人后,还可以点击左下角的设置,打开Artifacts功能

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

【API超市】

企业用户或者个体开发者可以通过302.AIAPI超市调用模型,并根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取Deepseek模型的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——然后选择国产模型。

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

2、下滑可以看到已经Deepseek-Chat模型的API,可按需选择【查看文档】快速接入API或者【在线体验】测试模型的参数。

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能


> 实测对比

实测1-3使用的工具为:302.AI的模型竞技场

对比模型均为gpt-4o-2024-11-20、claude-3.5-sonnet-20241022、DeepSeek-V3

实测4使用的工具为:302.AI聊天机器人的Artifacts功能。

模型价格对比:

DeepSeek-V3 :输入价格为0.15美金/每百万tokens,输出价格为0.3美金/每百万tokens,

gpt-4o-2024-11-20:输入价格为2.5美金/每百万tokens,输出价格10美金/每百万tokens。

claude-3.5-sonnet-20241022:输入价格为3美金/每百万tokens,输出价格15美金/每百万tokens

实测1:文本处理测试

提示词:strrawberrry里有几个“r”,请逐个帮我数出来

分析:为了防止模型提前“背答案”,我们特意在单词中增加了两个“r”,所以正确答案是5个r。

(PS:以下是第一次提问得出的结果)

gpt-4o:虽然最终的答案正确,但未能正确指出r的位置

claude-3.5-sonnet:尽管最终的回答正确,但是最后却指出正确的strawberry只包含了2个”r”,正确拼写的情况下应该是包含3个r。

DeepSeek-V3回答错误,在解析的过程就可以发现模型遗落了连续出现的字母r。

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

实测2:推理测试

提示词:一个农夫过河,需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜不能单独相处,请问农夫该如何过河?

分析:经典的农夫过河问题,没想到三个模型都给出了正确答案。

gpt-4o:分析过程简洁,回答正确

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

claude-3.5-sonnet:分析过程清晰,回答正确

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

DeepSeek-V3:分析过程十分详细,把每一步都细致描述出来,回答正确

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

实测3:逻辑思维测试:

提示词:如果只有4杯水,但现在来了5个领导,你会怎么办?

分析:最近网络上非常多人讨论的“高情商”题目。Deepseek v3的给出的解决的方法都合理,不仅如此,还提出了事后反思,整个答案非常完整

gpt-4o:根据题意,4杯水是为领导准备的,而且即使自身不喝领导也不够分,给出的第5个处理方法有点多此一举

claude-3.5-sonnet:回答中的第2点,同GPT-4o的答案,有点多此一举

DeepSeek-V3:给出的方法都是合理,且有的方法还非常具体给出话术参考,最后还提到需要反思,整体非常完整

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

实测4:编程测试:

对比模型:claude-3.5-sonnet-20241022、Deepseek v3

提示词:用前端代码生成一个俄罗斯方块游戏,将代码放在一起输出

DeepSeek-V3:Deepseek生成的效果其实还不错,游戏操作起来感觉非常流畅的,界面美观度还不错,但是整体游戏不够完整,没有得分显示、游戏说明、开始游戏等元素。

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

claude-3.5-sonnet:生成的游戏界面美观度还可以,游戏可操作,流畅度也不错,每个方块不同样式有不同的颜色。具备“开始游戏”按钮、游戏说明等,总体非常完整

302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能


> 总结

通过以上实测,可以初步得出以下结论:

文本处理测试:面对改进后的数字母测试题,DeepSeek-V3未能回答正确,这或许表明模型在处理文本细节时的准确性不足

推理测试:在经典的农夫过河问题的测试中,DeepSeek-V3不仅能正确解答,还提供了详细的解析过程,表现出色

逻辑思维测试:DeepSeek-V3面对高情商提问,不仅给出了合理的解决方案,还提供了具体的实施话术,展现了其在逻辑思维问题上的思考深度

编程测试:在编程任务中,DeepSeek-V3生成的俄罗斯方块游戏不没有深入考虑更多用户交互体验,不够完整。

综合来看,DeepSeek-V3的性价比非常高,实测对比模型gpt-4o-2024-11-20和claude-3.5-sonnet-20241022价格均远远高出DeepSeek-V3,但DeepSeek-V3在推理和逻辑分析方面的表现更优。此外,我们在使用过程中感觉到模型的响应速度明显有了提高。

更值得一提的是,根据我们程序员在真实开发环境中的使用反馈,DeepSeek-V3的编码能力已经媲美claude-3.5-sonnet,超越了gpt-4o。


免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 24 日 下午6:53
Next 2024 年 12 月 27 日 下午7:17

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8300
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3450
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4461
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(1)

  • Silas Wiltse
    Silas Wiltse 2025 年 7 月 28 日 下午7:39

    I’m truly enjoying the design and layout of your website. It’s a very easy on the eyes which makes it much more pleasant for me to come here and visit more often. Did you hire out a designer to create your theme? Great work!