资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中, Hunyuan-T1 均获得比肩 DeepSeek R1 和 OpenAI o1 的分数

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

302.AI现已接入Hunyuan-T1正式版的最新版本: Hunyuan-T1-Latest 。这是官方推荐使用的版本。今天,我们把 Hunyuan-T1-Latest 与同样具备思考推理能力的 QwQ-32B 、DeepSeek-R1 模型进行对比,带大家更直观地了解 Hunyuan-T1-Latest 模型的优劣。

模型实测:

实测1:空间问题

提示词:7米长的竹竿可以通过高3米宽3米的门吗?

考察点:测试模型的空间想象力以及几何推理能力。

总结:三个模型均未给出正确答案,未考虑竹竿可以与地面平行且与门垂直通过的可能。

QwQ-32B :回答错误。

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

DeepSeek-R1:DeepSeek也未能给出正确答案

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

Hunyuan-T1-Latest:只考虑对角线通过的情况,回答错误

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

实测2:中文理解

提示词:“校服上别别别的”里的三个“别”分别是什么意思?

考察点:这一题目主要测试模型在特定语境中的中文词语理解。

总结:QwQ-32B 和 DeepSeek-R1在前两个“别”字的理解上混淆了,只有Hunyuan-T1-Latest完全理解正确。

QwQ-32B :第一第二个“别”字意思有点混淆,不过完整的句子理解倒是正确的。

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

DeepSeek-R1:同样第一个字与第二个字的理解混淆了,整句理解也稍有偏差

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

Hunyuan-T1-Latest:三个字理解完全正确!

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

实测3:逻辑推理:

提示词:

老师发给甲、乙、丙三张扑克牌,老师说:“你们三个人拿到的数字和是14,并且没有鬼牌。其中,J、Q、K、A分别代表11、12、13、1。你们只能看自己的牌,能猜出其他两人拿到的是什么数字吗?”

甲:“我只知道乙丙两人的数字一定不同。”

乙:“其实一开始我就知道咱们三个人的数字一定不同。”

丙:“我知道你们俩拿到的数字了。”

请问,丙拿到什么数字了呢?

考察点:这个题目考察的是模型的问题解决能力和逻辑推理能力。

总结:QwQ-32B和DeepSeek-R1回答错误,只有 Hunyuan-T1-Latest 给出了清晰的解释和正确的答案。

QwQ-32B :答案错误,分析过程让人读起来云里雾里的,不够清晰

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

DeepSeek-R1:经过漫长等待后,最后输出的答案是错误的。

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

Hunyuan-T1-Latest:解析过程很清晰,答案正确

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

实测4:编程效果

提示词:制作一个含有春天元素的贪吃蛇小游戏,需要包含“开始游戏”按钮以及游戏说明

总结:结合界面美观度、运行效果、提示词遵循等方面综合比较,表现最好的是DeepSeek-R1,其次则是Hunyuan-T1-Latest。

QwQ-32B :游戏说明虽表明是用键盘操作游戏,但是尝试使用键盘后游戏动画随即停止,这一逻辑存在问题,呈现效果欠佳

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

DeepSeek-R1:提示词遵循准确,界面涵盖了“开始游戏”按钮以及游戏说明,界面美观度高,实操未出现bug,整体表现很好

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

Hunyuan-T1-Latest:提示词中提到的“游戏说明”未在效果中展示,但界面美观度和可操作性方面表现不错。

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

实测总结

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

综合以上实测,我们可以初步得出以下结论:

(1)推理模型显“人机感”

从实测1空间问题测试中可以得出:尽管这三个模型均属于可进行思考推理的模型,但在应对这类涉及人生活常识的问题时,它们的回答还是不够灵活,具有一定的“人机感”。

(2)Hunyuan-T1-Latest在中文语境理解上强于其他实测模型

在中文理解的测试中,Hunyuan-T1-Latest表现突出,能够准确理解语境中的“别”字含义,而其他两个模型则存在混淆。这表明Hunyuan-T1-Latest较其他两个模型在中文语境理解上理解能力更强。

(3)Hunyuan-T1-Latest表现惊艳,QwQ-32B和DeepSeek-R1 较为逊色

在逻辑推理的测试中,Hunyuan-T1-Latest提供了清晰的分析过程并给出了正确答案。相较之下,QwQ-32B 和DeepSeek-R1 的表现则显得较为逊色,未能推理出正确答案。

(4)DeepSeek-R1 编程综合表现最佳

在编程效果的实测中,DeepSeek-R1综合表现上略胜一筹,展示了出色的界面美观度和操作性,Hunyuan-T1-Latest虽然表现不错,但在游戏说明的展示上有所欠缺。QwQ-32B的表现相对较差,存在逻辑问题和用户体验不佳的情况。

(5)Hunyuan-T1-Latest 推理速度领先R1

综合各轮实测的思考时间,我们意外发现 Hunyuan-T1-Latest 在推理速度上优势明显,比 DeepSeek-R1 更快,不过与小参数模型 QwQ-32B 对比还是有一定的差距。

在302.AI上使用Hunyuan-T1-Latest模型

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

Like (1)
302.AI302.AI
Previous 2025 年 3 月 22 日 上午10:57
Next 4天前

相关推荐

  • 资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

    自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…

    2025 年 2 月 10 日
    50800
  • 资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

    3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…

    2025 年 3 月 21 日
    16500
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    37500
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    52800
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    56100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注