新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果 | 302.AI 基准实验室

302.AI • 2025 年 5 月 30 日下午7:12 • 基准实验室 • 7402 意见

北京时间 5 月 28 日晚，DeepSeek 在官方社群推送了更新通知。

5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级，当前版本更新为 DeepSeek-R1-0528

Hugging Face模型榜登顶

根据 DeepSeek 官方重点信息提炼：

更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩，并且在整体表现上已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro.

相较于旧版 R1，新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中，新版模型准确率由旧版的 70% 提升至 87.5%。在 AIME 2025 测试集上，旧版模型平均每题使用 12K tokens，而新版模型平均每题使用 23K tokens，表明其在解题过程中进行了更为深入的思考。

图片来源：DeepSeek 公众号推文

不仅如此，DeepSeek 官方基于 Qwen3-8B Base 微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。这款 8B 模型在 AIME 2024 上，性能仅次于 DeepSeek-R1-0528 ，与 Qwen3-235B 相当。

图片来源：DeepSeek 公众号推文

302.AI 团队目前已接入 DeepSeek-R1-0528 。同时会对 DeepSeek-R1-0528 进行实测对比，以便用户更直观了解模型的更新。

I. DeepSeek-R1-0528 实测对比

我们进行对比的模型有：o3、gemini-2.5-pro-preview-05-06、DeepSeek-R1（旧版）。各模型的价格如下：

评测使用的工具：302.AI的模型竞技场与聊天机器人

1、对抗性幻觉-虚构实体识别

根据官方介绍，新版 DeepSeek R1 针对 “幻觉” 问题进行了优化。与旧版相比，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了 45～50% 左右，能够有效地提供更为准确的结果。以下为实测：

提示词：金星奖杯是颁发给年度最佳“暗影格斗”选手的奖项，该奖项由哪个组织设立？

题目解析：暗影格斗实则一款游戏而不是一项运动，且不存在“金星奖杯”奖项。

o3：答案错误，存在模型幻觉。

gemini-2.5-pro：回答正确，解析合理且完整。

DeepSeek-R1（旧）：回答正确，解析合理。

DeepSeek-R1（新）：回答正确，相较于旧版，答案中增加了“无官方来源佐证”板块，信息整合更加完整。

2、词义理解

提示词：“校服上别别别的”里的三个“别”分别是什么意思？

题目解析：第一个“别”：不要。第二“别”：动词，别上什么即固定住什么。第三个“别”：其他的意思。

o3：前两个字词义解释错误，但句子的理解是正确的。

gemini-2.5-pro：完全正确。

DeepSeek-R1（旧）：这一案例之前也测试过，答案前两个字词义解释错误，对句子的理解也不够准确。

DeepSeek-R1（新）：首先，新版R1的输出篇幅有所增加，内容更加详尽。然而，经过仔细分析，发现前两个词的词义解释仍存在错误，尽管句子结构分析也不正确，但整体含义倒是没错的。

3、逻辑推理

提示词：一个房间里有三盏灯，门外有三个开关，每个开关对应一盏灯。现在你只能进房间一次，请问如何确定哪个开关对应哪盏灯?

o3：方法合理，回答正确。

gemini-2.5-pro：答案更加清晰明了，回答正确。

DeepSeek-R1（旧）：方法合理，答案正确。

DeepSeek-R1（新）：与旧版相比，新版答案更细节，甚至会在相关内容旁提示“注意安全，防止烫伤”，同时指出更多注意事项，回答正确。

4、前端编程能力

提示词：
设计一个广告投放管理系统可配置的数据分析仪表盘，支持多种图表、筛选条件和实时数据更新，数据虚构。
1、强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差
2、中英文混用，中文大字体粗体，英文小字作为点缀
3、简洁的勾线图形化作为数据可视化或者配图元素
4、运用高亮色自身透明度渐变制造科技感，但是不同高亮色不要互相渐变
5、模仿 apple 官网的动效，向下滚动鼠标配合动效
6、数据可以引用在线的图表组件，样式需要跟主题一致
7、使用 Framer Motion （通过CDN引入）
8、使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScript
9、使用专业图标库如Font Awesome或Material Icons（通过CDN引入）

o3：虽然部分内容数据能够实现变化，但整体页面较为粗糙，内容实现尚需优化。

gemini-2.5-pro：中规中矩，有部分板块空余较大，布局内容不够完整。

DeepSeek-R1（旧）：页面排版布局比较简陋，数据展示不完整，效果较差。

DeepSeek-R1（新）：在风格配色、页面布局和数据内容，交互方式上均较旧版有着显著的提升，整体效果更加专业。

最后，我们再来看看被誉为最强代码编程模型的claude-opus-4-20250514-thinking的效果：布局合理，视觉简约明了，交互友好，整体表现极为出色，且数据能够实时更新。

II. DeepSeek-R1-0528 实测总结

1、实测结果整理：

2、实测结论：

基于以上实测结果，可初步得出以下结论：

（1）可以明确的是，最新版 R1 的代码能力显著增强，但与 claude-opus-4 相比仍有优化空间。

（2）在模型幻觉、词义理解和逻辑推理方面，相较于旧版能力提升不明显，仅在输出细节上有所补充。

（3）根据此次测评，DeepSeek-R1-0528 的综合表现优于 o3，但除了编程案例外，尚未超越 gemini-2.5-Pro。

III. 如何在302.AI上使用：

302.AI提供按需付费无订阅的服务模式，用户可以根据自身业务需求灵活选择使用。
1、聊天机器人中使用
步骤指引：在线使用→应用超市→机器人→聊天机器人；
在搜索框搜索“DeepSeek-R1”→选择需要的版本→确定→创建；
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发。
相关文档：API→API超市→语言大模型→国产模型→查看文档；
API名称：
302.AI部署版本：DeepSeek-R1-0528

想体验 DeepSeek-R1-0528 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

喜欢 (0)

302.AI

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1，实测结果令人大跌眼镜！

上一页 2025 年 5 月 29 日上午10:57

302.AI 基准实验室丨可灵图生视频模型全版本对比实测，新版就一定稳赢么？

下一页 2025 年 6 月 4 日下午7:00

从文本助手到生产力智能体——2025大模型年度测评：多模态、强推理与真交付 | 302.AI 基准实验室

导读：2025年，大语言模型完成从“文本助手”到“生产力智能体”的关键跃迁。本报告深度实测Gemini 3 Pro、Claude Opus 4.5、GPT-5.2、Grok 4.1、GLM-4.7、DeepSeek-V3.2六大旗舰模型，覆盖模型幻觉控制、复杂逻辑推理、多模态融合理解、创意生成与人类直觉、编程与工程化交付五大高难度真实场景。评测结果显示：G…
2026 年 1 月 14 日 • 基准实验室
1.7K00
懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
2.9K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.4K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
5.3K00

发表回复

Madge Corish 2025 年 6 月 4 日下午1:29
My coder is trying to convince me to move to .net from PHP. I have always disliked the idea because of the expenses. But he’s tryiong none the less. I’ve been using WordPress on numerous websites for about a year and am concerned about switching to another platform. I have heard very good things about blogengine.net. Is there a way I can import all my wordpress posts into it? Any kind of help would be really appreciated!
回复
302.AI 基准实验室丨可灵图生视频模型全版本对比实测，新版就一定稳赢么？ - 2025 年 6 月 4 日下午7:00
[…] 302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果 302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1，实测结果令人大跌眼镜！ 302.AI 基准实验室丨Claude 4 系列最新对比测评，推理退步前端编程增强？ All Rights Reserved by 302.AI AI视频Kling可灵AI图生视频 Like (0) 302.AI 0 Generate poster 302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果 Previous 4天前 302.AI 实战教程 | AI图片工具箱应用：如何将两张照片合成拥抱视频？ Next 2024 年 9 月 24 日下午6:49 […]
回复
transfert aéroport 2025 年 6 月 6 日上午10:00
Nice post. I was checking constantly this blog and I’m impressed! Extremely useful information specifically the remaining phase :) I handle such information much. I was looking for this particular information for a very lengthy time. Thanks and good luck.
回复
Leadership Development 2025 年 6 月 11 日上午2:43
It’s hard to find knowledgeable people on this topic, but you sound like you know what you’re talking about! Thanks
回复
Page Mondino 2025 年 6 月 16 日下午5:25
There is apparently a bundle to identify about this. I assume you made certain good points in features also.
回复
Noel Towe 2025 年 7 月 2 日上午7:31
I am often to blogging and i really appreciate your content. The article has really peaks my interest. I am going to bookmark your site and keep checking for new information.
回复
Hawaii medical malpractice lawyer 2025 年 7 月 24 日上午9:37
hello!,I like your writing very a lot! proportion we be in contact more about your post on AOL? I need an expert on this house to solve my problem. May be that’s you! Taking a look ahead to see you.
回复
Wilfredo Delozier 2025 年 7 月 28 日下午6:00
You should participate in a contest for top-of-the-line blogs on the web. I’ll suggest this site!
回复
helpful site 2025 年 7 月 30 日上午1:59
It is in point of fact a great and useful piece of information. I am glad that you simply shared this helpful information with us. Please keep us informed like this. Thanks for sharing.
回复
microfiber for cleaning and car drying 2025 年 7 月 31 日上午1:12
Hi would you mind stating which blog platform you’re working with? I’m looking to start my own blog soon but I’m having a hard time making a decision between BlogEngine/Wordpress/B2evolution and Drupal. The reason I ask is because your design and style seems different then most blogs and I’m looking for something completely unique. P.S Sorry for getting off-topic but I had to ask!
回复
mold removal services atlanta 2025 年 7 月 31 日上午4:37
hello there and thank you for your information – I’ve definitely picked up anything new from right here. I did however expertise some technical points using this website, since I experienced to reload the web site a lot of times previous to I could get it to load properly. I had been wondering if your hosting is OK? Not that I’m complaining, but slow loading instances times will sometimes affect your placement in google and can damage your quality score if ads and marketing with Adwords. Well I’m adding this RSS to my e-mail and can look out for a lot more of your respective exciting content. Make sure you update this again soon..
回复
web host 2025 年 8 月 7 日上午11:18
Definitely, what a magnificent site and informative posts, I will bookmark your blog.Have an awsome day!
回复
motos mallorca 2025 年 8 月 24 日上午5:47
fantastic points altogether, you just gained a new reader. What would you recommend in regards to your post that you made a few days ago? Any positive?
回复
outdoor lighting austin tx 2025 年 8 月 25 日上午10:35
Very interesting points you have remarked, thanks for putting up.
回复