资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

4月29日凌晨,阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。

Qwen3 系列包含了两款MoE模型:

Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参)

Qwen3-30B-A3B(300亿总参数、30亿激活参数)

以及六款 Dense 模型:

Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B

其中,Qwen3-235B-A22B 是这一系列最强的模型,在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

此外,Qwen3 还引入了“思考模式”“非思考模式”,使模型能够在不同场景下表现出最佳性能。

1、思考模式:在这种模式下,模型会进行多步推理和深度分析,类似于人类在解决复杂问题时的“深思熟虑”。(eg:在回答数学题或编写复杂代码时,模型会反复验证逻辑并优化输出结果。)

2、非思考模式:在非思考模式模式下,模型优先追求响应速度和效率,适用于简单任务或实时交互。(eg:在日常对话或快速问答中,模型会跳过复杂的推理步骤,直接给出答案。)

接下来,我们就在302.AI实测 Qwen3-235B-A22B(思考模式) 模型,并与 DeepSeek-R1 、 Gemini-2.5-Pro 模型作对比,让大家更直观了解模型的表现。

模型实测

实测1:地理常识

提示词:有一位学者在野外搭帐篷,突然遇到了一只熊,这时候他就非常惊慌地逃跑,先是向南跑了10公里,又向东跑了10公里,最后还向北跑了10公里,请注意,是先向南,再向东,再向北。这时候他惊奇地发现自己回到了原先搭帐篷的位置。

请问:这位学者遇到的那头熊是什么颜色?

问题解析:这个问题主要测试模型对特殊地理位置和现象的理解。正确答案是:白色(北极熊)

Qwen3-235B-A22B :分析挺详细的,答案正确

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

Gemini-2.5-Pro :解析清楚,回答正确

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

DeepSeek-R1 :回答正确

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

实测2:模型幻觉

提示词:“种豆南山下”的前一句是什么?

问题解析:这是出自陶渊明《归园田居·其三》的首句诗,并没有前一句。这一提问主要是测试模型是否存在幻觉。

Qwen3-235B-A22B :虽然给出了完整的诗词,但是还是答错了。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

同时还顺手测了一下Qwen3-30B-A3B和Qwen3-0.6B两个型号,0.6B明显回答错误,而Qwen3-30B-A3B乍一看答案挺合理,但其实也存在错误的。

找了一下原诗句的参考解析,根据解析意思,“晨兴理荒秽”也并不是“种豆南山下”的前一动作:

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

Gemini-2.5-Pro :回答正确,中文诗句对Gemini 2.5 Pro来说也没有难度

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

DeepSeek-R1 :回答正确。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

实测3:数学计算

提示词:请用1、1、6、7、10计算出结果为81,只能使用加减乘除,且每个数字只能使用一次。

问题解析:这一问题测试的是模型的数学计算能力和逻辑推理能力,需要理解和应用基本的数学运算,并在给定的数字和运算符的限制下,找到一个特定的结果。正确答案是:6× ( 10 + 7 / ( 1 + 1 ) )

Qwen3-235B-A22B :模型一直在思考,无法输出答案

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

Gemini-2.5-Pro :答案符合要求,结果也正确

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

DeepSeek-R1 :答案错误,R1输出的回答中已经指出答案不符合条件了。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

实测4:小球弹跳测试

提示词:创建 10 个彩色球在旋转六边形内自由弹跳的效果,考虑重力,弹性,摩擦和碰撞。

Qwen3-235B-A22B :效果较差,完全不符合提示词要求。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

Gemini-2.5-Pro :小球仅在初始落下时有大幅度符合物理规律的弹跳效果,但落下六边形壁后未实现明显自由弹跳,不过比另两个模型效果好。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

DeepSeek-R1 :小球均未实现在六边形内自由弹跳的效果。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

实测结论:

1、实测结果整理:

地理常识模型幻觉数学计算小球弹跳
Qwen3-235B-A22B正确错误无法输出较差
DeepSeek-R1正确正确错误相对效果较好,但仍未达到理想效果
Gemini-2.5-Pro正确正确正确未实现在六边形内自由弹跳
实测表现优劣综合排名:Gemini-2.5-Pro>DeepSeek-R1 >Qwen3-235B-A22B

2、实测总结:

通过以上实测,可初步得出以下结论:

(1)就本文的实测结果来看,Qwen3-235B的能力未能够达到超越DeepSeek-R1 或者Gemini-2.5-Pro的水平,只在某些简单任务如实测1中表现良好。

(2)Qwen3系列模型,在面对诗词文本问题时容易出现了“模型幻觉”,编造出不合理的答案。

(3)Qwen3-235B模型思考模型面对有一定难度的任务时会出现一直思考无法输出答案的情况。

(4)在小球弹跳的效果测试中,所有模型均未能实现理想的效果,或许在动态模拟方面,各个模型目前仍有待加强。

如何在302.AI中使用

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

使用路径:依次点击使用机器人→聊天机器人→ 开源模型→选择模型 →创建聊天机器人;

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

进入聊天机器人后,点击左下角设置,可对思考进行开关。

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→开源模型→查看文档;

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

资讯丨阿里推出Qwen3新系列模型 ,最新对比实测来了!表现到底如何?

Like (0)
302.AI302.AI
Previous 5天前
Next 2024 年 10 月 14 日 下午6:57

相关推荐

  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    34200
  • 资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

    短短一周时间,阿里通义千问上线了三个模型,先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ,紧接着视觉推理模型 QVQ-Max 也正式上线。 官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。…

    2025 年 4 月 1 日
    28000
  • 资讯丨一款易用且功能强大的手绘风画图工具——302 AI画图板

    在日常的工作生活中,单纯的文字描述往往难以传达复杂的想法和创意。这些时候,我们常常会利用各种图形来表达我们的观点,例如思维导图、流程图、原型图等。这些图像不仅能够帮助我们理清思路,还能将复杂的信息变得更加直观和易于理解。 > 302.AI AI画图板的优势 302.AI捕捉到了用户的需求,不久前在工具超市中上线了一款AI画图板工具,这一工具在Excal…

    2025 年 1 月 9 日
    34300
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    72500
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    40500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注