302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。

5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

根据 DeepSeek 官方重点信息提炼:

更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3Gemini-2.5-Pro

相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为深入的思考。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

不仅如此,DeepSeek 官方基于 Qwen3-8B Base 微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。这款 8B 模型在 AIME 2024 上,性能仅次于 DeepSeek-R1-0528 ,与 Qwen3-235B 相当。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

302.AI 团队目前已接入 DeepSeek-R1-0528 。同时会对 DeepSeek-R1-0528 进行实测对比,以便用户更直观了解模型的更新。


I. DeepSeek-R1-0528 实测对比

我们进行对比的模型有:o3、gemini-2.5-pro-preview-05-06、DeepSeek-R1(旧版)。各模型的价格如下:

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

评测使用的工具:302.AI的模型竞技场聊天机器人

1、对抗性幻觉-虚构实体识别

根据官方介绍,新版 DeepSeek R1 针对 “幻觉” 问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45~50% 左右,能够有效地提供更为准确的结果。以下为实测:

提示词:金星奖杯是颁发给年度最佳“暗影格斗”选手的奖项,该奖项由哪个组织设立?

题目解析:暗影格斗实则一款游戏而不是一项运动,且不存在“金星奖杯”奖项。

o3答案错误,存在模型幻觉。

gemini-2.5-pro:回答正确,解析合理且完整。

DeepSeek-R1(旧):回答正确,解析合理。

DeepSeek-R1(新):回答正确,相较于旧版,答案中增加了“无官方来源佐证”板块,信息整合更加完整。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、词义理解

提示词:校服上别别别的”里的三个“别”分别是什么意思?

题目解析:第一个“别”:不要。第二“别”:动词,别上什么即固定住什么。第三个“别”:其他的意思。

o3前两个字词义解释错误,但句子的理解是正确的。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:完全正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):这一案例之前也测试过,答案前两个字词义解释错误,对句子的理解也不够准确。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):首先,新版R1的输出篇幅有所增加,内容更加详尽。然而,经过仔细分析,发现前两个词的词义解释仍存在错误,尽管句子结构分析也不正确,但整体含义倒是没错的。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

3、逻辑推理

提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?

o3方法合理,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:答案更加清晰明了,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):方法合理,答案正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):与旧版相比,新版答案更细节,甚至会在相关内容旁提示“注意安全,防止烫伤”,同时指出更多注意事项,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

4、前端编程能力

提示词:

设计一个广告投放管理系统可配置的数据分析仪表盘,支持多种图表、筛选条件和实时数据更新,数据虚构。

1、强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差

2、中英文混用,中文大字体粗体,英文小字作为点缀

3、简洁的勾线图形化作为数据可视化或者配图元素

4、运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变

5、模仿 apple 官网的动效,向下滚动鼠标配合动效

6、数据可以引用在线的图表组件,样式需要跟主题一致

7、使用 Framer Motion (通过CDN引入)

8、使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript

9、使用专业图标库如Font Awesome或Material Icons(通过CDN引入)

o3虽然部分内容数据能够实现变化,但整体页面较为粗糙,内容实现尚需优化。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:中规中矩,有部分板块空余较大,布局内容不够完整。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):页面排版布局比较简陋,数据展示不完整,效果较差。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):在风格配色、页面布局和数据内容,交互方式上均较旧版有着显著的提升,整体效果更加专业。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果
302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

最后,我们再来看看被誉为最强代码编程模型的claude-opus-4-20250514-thinking的效果:布局合理,视觉简约明了,交互友好,整体表现极为出色,且数据能够实时更新。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

II. 实测总结

1、实测结果整理:

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)可以明确的是,最新版 R1 的代码能力显著增强,但与 claude-opus-4 相比仍有优化空间。

(2)在模型幻觉、词义理解和逻辑推理方面,相较于旧版能力提升不明显,仅在输出细节上有所补充。

(3)根据此次测评,DeepSeek-R1-0528 的综合表现优于 o3,但除了编程案例外,尚未超越 gemini-2.5-Pro

III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

1、聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人;

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

在搜索框搜索“DeepSeek-R1”→选择需要的版本→确定→创建;

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API→API超市→语言大模型→国产模型→查看文档;

API名称:

302.AI部署版本:DeepSeek-R1-0528

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

想体验 DeepSeek-R1-0528 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

往期推荐

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 2024 年 9 月 4 日 下午4:03

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注