302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。

5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

根据 DeepSeek 官方重点信息提炼:

更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3Gemini-2.5-Pro

相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为深入的思考。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

不仅如此,DeepSeek 官方基于 Qwen3-8B Base 微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。这款 8B 模型在 AIME 2024 上,性能仅次于 DeepSeek-R1-0528 ,与 Qwen3-235B 相当。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

302.AI 团队目前已接入 DeepSeek-R1-0528 。同时会对 DeepSeek-R1-0528 进行实测对比,以便用户更直观了解模型的更新。


I. DeepSeek-R1-0528 实测对比

我们进行对比的模型有:o3、gemini-2.5-pro-preview-05-06、DeepSeek-R1(旧版)。各模型的价格如下:

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

评测使用的工具:302.AI的模型竞技场聊天机器人

1、对抗性幻觉-虚构实体识别

根据官方介绍,新版 DeepSeek R1 针对 “幻觉” 问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45~50% 左右,能够有效地提供更为准确的结果。以下为实测:

提示词:金星奖杯是颁发给年度最佳“暗影格斗”选手的奖项,该奖项由哪个组织设立?

题目解析:暗影格斗实则一款游戏而不是一项运动,且不存在“金星奖杯”奖项。

o3答案错误,存在模型幻觉。

gemini-2.5-pro:回答正确,解析合理且完整。

DeepSeek-R1(旧):回答正确,解析合理。

DeepSeek-R1(新):回答正确,相较于旧版,答案中增加了“无官方来源佐证”板块,信息整合更加完整。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、词义理解

提示词:校服上别别别的”里的三个“别”分别是什么意思?

题目解析:第一个“别”:不要。第二“别”:动词,别上什么即固定住什么。第三个“别”:其他的意思。

o3前两个字词义解释错误,但句子的理解是正确的。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:完全正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):这一案例之前也测试过,答案前两个字词义解释错误,对句子的理解也不够准确。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):首先,新版R1的输出篇幅有所增加,内容更加详尽。然而,经过仔细分析,发现前两个词的词义解释仍存在错误,尽管句子结构分析也不正确,但整体含义倒是没错的。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

3、逻辑推理

提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?

o3方法合理,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:答案更加清晰明了,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):方法合理,答案正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):与旧版相比,新版答案更细节,甚至会在相关内容旁提示“注意安全,防止烫伤”,同时指出更多注意事项,回答正确

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

4、前端编程能力

提示词:

设计一个广告投放管理系统可配置的数据分析仪表盘,支持多种图表、筛选条件和实时数据更新,数据虚构。

1、强调超大字体或数字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差

2、中英文混用,中文大字体粗体,英文小字作为点缀

3、简洁的勾线图形化作为数据可视化或者配图元素

4、运用高亮色自身透明度渐变制造科技感,但是不同高亮色不要互相渐变

5、模仿 apple 官网的动效,向下滚动鼠标配合动效

6、数据可以引用在线的图表组件,样式需要跟主题一致

7、使用 Framer Motion (通过CDN引入)

8、使用HTML5、TailwindCSS 3.0+(通过CDN引入)和必要的JavaScript

9、使用专业图标库如Font Awesome或Material Icons(通过CDN引入)

o3虽然部分内容数据能够实现变化,但整体页面较为粗糙,内容实现尚需优化。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

gemini-2.5-pro:中规中矩,有部分板块空余较大,布局内容不够完整。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(旧):页面排版布局比较简陋,数据展示不完整,效果较差。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

DeepSeek-R1(新):在风格配色、页面布局和数据内容,交互方式上均较旧版有着显著的提升,整体效果更加专业。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果
302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

最后,我们再来看看被誉为最强代码编程模型的claude-opus-4-20250514-thinking的效果:布局合理,视觉简约明了,交互友好,整体表现极为出色,且数据能够实时更新。

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

II. 实测总结

1、实测结果整理:

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)可以明确的是,最新版 R1 的代码能力显著增强,但与 claude-opus-4 相比仍有优化空间。

(2)在模型幻觉、词义理解和逻辑推理方面,相较于旧版能力提升不明显,仅在输出细节上有所补充。

(3)根据此次测评,DeepSeek-R1-0528 的综合表现优于 o3,但除了编程案例外,尚未超越 gemini-2.5-Pro

III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

1、聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人;

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

在搜索框搜索“DeepSeek-R1”→选择需要的版本→确定→创建;

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API→API超市→语言大模型→国产模型→查看文档;

API名称:

302.AI部署版本:DeepSeek-R1-0528

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

想体验 DeepSeek-R1-0528 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果

往期推荐

https://news.302.ai/302-ai-%e5%9f%ba%e5%87%86%e5%ae%9e%e9%aa%8c%e5%ae%a4%e4%b8%a8%e5%ad%97%e8%8a%82%e8%b7%b3%e5%8a%a8%e5%bc%80%e6%ba%90-bagel-%e5%af%b9%e6%a0%87-gpt-image-1%ef%bc%8c%e5%ae%9e%e6%b5%8b%e7%bb%93%e6%9e%9c
https://news.302.ai/302-ai-%e5%9f%ba%e5%87%86%e5%ae%9e%e9%aa%8c%e5%ae%a4%e4%b8%a8claude-4-%e7%b3%bb%e5%88%97%e6%9c%80%e6%96%b0%e5%af%b9%e6%af%94%e6%b5%8b%e8%af%84%ef%bc%8c%e6%8e%a8%e7%90%86%e9%80%80%e6%ad%a5%e5%89%8d
https://news.302.ai/302-ai-%e5%9f%ba%e5%87%86%e5%ae%9e%e9%aa%8c%e5%ae%a4-%e5%a4%a7%e6%a8%a1%e5%9e%8b%e6%8e%92%e8%a1%8c%e6%a6%9c%e7%ac%ac%e4%ba%8c%ef%bc%815%e5%88%86%e9%92%9f%e9%80%9f%e8%a7%88gemini-2-5-flash-preview-05

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 5 月 29 日 上午10:57
Next 2025 年 6 月 4 日 下午7:00

相关推荐

  • 302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

    继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。 本次更新的 0905 版本具有以下几个亮点: 在…

    4天前 基准实验室
    3850
  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    9930
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    5400
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    6291

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(14)

  • Madge Corish
    Madge Corish 2025 年 6 月 4 日 下午1:29

    My coder is trying to convince me to move to .net from PHP. I have always disliked the idea because of the expenses. But he’s tryiong none the less. I’ve been using WordPress on numerous websites for about a year and am concerned about switching to another platform. I have heard very good things about blogengine.net. Is there a way I can import all my wordpress posts into it? Any kind of help would be really appreciated!

  • […] 302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果 302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜! 302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强? All Rights Reserved by 302.AI AI视频Kling可灵AI图生视频 Like (0) 302.AI 0 Generate poster 302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果 Previous 4天前 302.AI 实战教程 | AI图片工具箱应用:如何将两张照片合成拥抱视频? Next 2024 年 9 月 24 日 下午6:49 […]

  • transfert aéroport
    transfert aéroport 2025 年 6 月 6 日 上午10:00

    Nice post. I was checking constantly this blog and I’m impressed! Extremely useful information specifically the remaining phase :) I handle such information much. I was looking for this particular information for a very lengthy time. Thanks and good luck.

  • Leadership Development
    Leadership Development 2025 年 6 月 11 日 上午2:43

    It’s hard to find knowledgeable people on this topic, but you sound like you know what you’re talking about! Thanks

  • Page Mondino
    Page Mondino 2025 年 6 月 16 日 下午5:25

    There is apparently a bundle to identify about this. I assume you made certain good points in features also.

  • Noel Towe
    Noel Towe 2025 年 7 月 2 日 上午7:31

    I am often to blogging and i really appreciate your content. The article has really peaks my interest. I am going to bookmark your site and keep checking for new information.

  • Hawaii medical malpractice lawyer
    Hawaii medical malpractice lawyer 2025 年 7 月 24 日 上午9:37

    hello!,I like your writing very a lot! proportion we be in contact more about your post on AOL? I need an expert on this house to solve my problem. May be that’s you! Taking a look ahead to see you.

  • Wilfredo Delozier
    Wilfredo Delozier 2025 年 7 月 28 日 下午6:00

    You should participate in a contest for top-of-the-line blogs on the web. I’ll suggest this site!

  • helpful site
    helpful site 2025 年 7 月 30 日 上午1:59

    It is in point of fact a great and useful piece of information. I am glad that you simply shared this helpful information with us. Please keep us informed like this. Thanks for sharing.

  • microfiber for cleaning and car drying
    microfiber for cleaning and car drying 2025 年 7 月 31 日 上午1:12

    Hi would you mind stating which blog platform you’re working with? I’m looking to start my own blog soon but I’m having a hard time making a decision between BlogEngine/Wordpress/B2evolution and Drupal. The reason I ask is because your design and style seems different then most blogs and I’m looking for something completely unique. P.S Sorry for getting off-topic but I had to ask!

  • mold removal services atlanta
    mold removal services atlanta 2025 年 7 月 31 日 上午4:37

    hello there and thank you for your information – I’ve definitely picked up anything new from right here. I did however expertise some technical points using this website, since I experienced to reload the web site a lot of times previous to I could get it to load properly. I had been wondering if your hosting is OK? Not that I’m complaining, but slow loading instances times will sometimes affect your placement in google and can damage your quality score if ads and marketing with Adwords. Well I’m adding this RSS to my e-mail and can look out for a lot more of your respective exciting content. Make sure you update this again soon..

  • web host
    web host 2025 年 8 月 7 日 上午11:18

    Definitely, what a magnificent site and informative posts, I will bookmark your blog.Have an awsome day!

  • motos mallorca
    motos mallorca 2025 年 8 月 24 日 上午5:47

    fantastic points altogether, you just gained a new reader. What would you recommend in regards to your post that you made a few days ago? Any positive?

  • outdoor lighting austin tx
    outdoor lighting austin tx 2025 年 8 月 25 日 上午10:35

    Very interesting points you have remarked, thanks for putting up.