302.AI 基准实验室 | 谷歌再发布实验模型Gemini 2.0 Flash Thinking，实测中能否正确解出考研数学题？！

302.AI • 2024 年 12 月 24 日下午6:53 • 基准实验室 • 1495 意见

12月20日凌晨，谷歌DeepMind首席科学家宣布推出全新模型——Gemini 2.0 Flash Thinking。

据了解，Gemini 2.0 Flash thinking是一个实验性模型，它以Gemini 2.0 Flash版本为基础，经过特别训练后，能够在回答问题时展示其“思考过程”，这与o1模型的慢思维思考方式相似，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面，能持续输出全部推理过程，而不是直接给出答案。

根据官方文档显示，Gemini 2.0 Flash Thinking支持32k令牌输入，以及8k令牌输出限制，此外，该模型还具备处理文本和图片输入的能力。

> 在302.AI上使用

目前，302.AI的聊天机器人和API超市均上线了Gemini 2.0 Flash thinking模型，旨在满足不同用户群体的需求。

此外，302.AI提供按需付费的使用方式，用户无需担心有月费和捆绑套餐，成本更加灵活可控。以下是详细的获取步骤。

【聊天机器人】

想要直接使用模型的用户，可以通过302.AI的聊天机器人获得，聊天机器人提供了多种AI模型，且分类明晰，用户可以快速找到并使用所需的AI模型，省去了在不同平台之间切换和搜索的繁琐步骤和时间，更加便捷。

1、进入302.ai，登录后在左侧菜单栏点击使用机器人——选择聊天机器人——模型中选择gemini-2.0-flash-thinking-exp——最后点击确定即可。

【API超市】

企业用户可以通过302.AI提供的接口来调用大模型，并根据自身项目需求快速开发AI应用，大大加快开发和部署速度。以下是在API超市中获取Gemini 2.0 Flash thinking的详细步骤：

1、进入302.ai后——点击使用API——选择API超市——分类中点击语言大模型——然后选择Gemini。

2、下滑可以看到已经提供了模型Gemini 2.0 Flash thinking的API，可以根据需求选择【查看文档】快速接入API或者选择【在线体验】测试模型的参数。

> Gemini 2.0 Flash Thinking实测对比：

为了让大家更好了解Gemini 2.0 Flash thinking这一模型，下面会实测对比数学、推理、编程等方面的表现。

实测1-3使用的工具为302.AI的模型竞技场。

实测4使用的工具为302.AI聊天机器人的Artifacts功能。

实测1：数学测试

对比模型：o1-plus（完整版o1）、Gemini 2.0 Flash thinking

提示词：已知函数f(x,y)=x³+y³-(x+y)²+3，设T是曲面z=f(x，y)在点(1，1，1)处的切平面，D为T与坐标平面所围成的有界区域在xOy平面上的投影.

(1)求T的方程

(2)求f(x，y)在D上的最大值和最小值

参考答案：

（1）x+y+z=3

（2）最大值是21，最小值是17/27

分析：这一题目来自刚刚结束的2024全国考研数学一卷。此前，考研数学在社交媒体平台热搜榜引发了广泛的讨论和关注。而我们选择的这一题目难度适中，看下模型的回答：

（无论第一次答案是否正确，都会给出第二轮提示词让模型验算答案）

o1完整版：o1 完整版两次输出的答案均为正确的，下面附上第一次回答的答案。可以看到输出了答案先是给出思考链路，篇幅非常详细，非常完整。

Gemini 2.0 Flash thinking：即使经过验算，Gemini 2.0 Flash thinking第二小问中的“最小值”还是没有给出正确答案。下面附上第一次输出的答案，可以看到输出的答案同样先是展示了思考链路，再回答问题，但是整体的输出整洁度不如o1 完整版。

实测2：图片理解测试

模型对比：Gemini 2.0 Flash thinking、Gemini 2.0 Flash、

提示词:如果我两个人吃饭，只需要1份炒花甲、1串羊肉串和2份绿茶，共需要花费多少钱？

分析：在初次提问回答的答案中，两个模型的回答都遗漏了餐具费。

Gemini 2.0 Flash thinking：回答错误。

Gemini 2.0 Flash：回答错误。

经过提醒后：

Gemini 2.0 Flash thinking：虽然同样给出了思考过程，但没有修正答案，最后回答错误。

Gemini 2.0 Flash：修正了答案，回答正确。

实测3：推理测试

对比模型：Gemini 2.0 Flash thinking、Claude-3.5-sonnet20241022

提示词：

分析：

Gemini 2.0 Flash thinking：回答正确，但这里通过对比发现，Gemini虽然展示了非常详细的思考链路，但是整体回答篇幅非常长。

Claude-3.5-sonnet：整体回答简洁易读，回答正确。

实测4：编程测试：

对比模型：Gemini 2.0 Flash thinking、Claude-3.5-sonnet20241022

提示词：请用前端代码实现石头剪刀布游戏，将所有代码放在一起输出。

分析：

Gemini 2.0 Flash thinking：整体效果没有看出有任何界面设计，但是游戏能够操作交互，不过给人的感觉还是比较粗糙。

Claude-3.5-sonnet：对比后，可以看到界面简洁清晰，游戏能操作，整体效果不错。

> 总结

通过多轮实测，可以初步得出以下结论：

数学测试：两个模型的训练集中可能都未曾出现过的考研数学题目，虽然Gemini 2.0 Flash thinking提供了详细的推理过程，但可惜最终的答案并未完全正确。

图片理解：两个模型初次输出的答案均未正确，但是Gemini 2.0 Flash经过提醒后能够检查出错误并纠正答案，而Gemini 2.0 Flash thinking经过提醒依然回答错误。

推理测试：Gemini 2.0 Flash thinking虽然能够展示思考链条，但其回答的篇幅较长，可能影响用户的理解和使用体验。

编程测试：Gemini 2.0 Flash thinking的整体效果较为粗糙，并且缺乏良好的界面设计。

虽然Gemini 2.0 Flash thinking在展示思考过程方面的创新值得肯定，但从用户的角度出发，模型回答问题时答案篇幅过长，很大程度会影响用户阅读。通过以上实测认为，Gemini 2.0 Flash thinking在实际应用中仍需进一步优化其输出的准确性和用户体验。

免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 新品发布 | 图像创意站：GPT-Image-1玩法全解析，轻松生成惊艳作品

Gemini LLM302.AI 基准实验室 | 模型测评

喜欢 (0)

302.AI

302.AI 基准实验室 | DeepSeek-VL2发布，实测看图说话、文字识别和图形推理能力如何？

上一页 2024 年 12 月 23 日下午6:59

302.AI 基准实验室 | 刚刚，DeepSeek更新了V3版本，快来302抢先实测了解模型性能

下一页 2024 年 12 月 25 日下午7:43

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
1.7K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.1K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
3.5K00
谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

12 月 18 日深夜，谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热，但其展现出的性能与成本组合，足以让整个 AI 领域重新审视现有的竞争格局。简而言之，Gemini 3 Flash 做了一件看似矛盾的事：它以一个“轻量版”模型的定位和极低的成本，提供了接近甚至部分超越旗舰模型的顶尖性能。性能：打破“轻量即…
2025 年 12 月 19 日 • 基准实验室
1.6K00

发表回复

Arthur Elgar 2025 年 6 月 4 日下午1:47
I enjoy the efforts you have put in this, thanks for all the great posts.
回复
leadership coaching for managers 2025 年 6 月 11 日上午3:07
You made some decent factors there. I appeared on the internet for the problem and located most individuals will go together with along with your website.
回复
Nisha Emme 2025 年 6 月 16 日下午4:54
Hello! I just would like to give a huge thumbs up for the great info you have here on this post. I will be coming back to your blog for more soon.
回复
Watch NBA Online 2025 年 6 月 23 日上午9:16
Este site é realmente incrível. Sempre que consigo acessar eu encontro novidades Você também pode acessar o nosso site e descobrir mais detalhes! Conteúdo exclusivo. Venha descobrir mais agora! :)
回复
Geraldo Finazzo 2025 年 7 月 1 日下午7:33
As I site possessor I believe the content matter here is rattling wonderful , appreciate it for your efforts. You should keep it up forever! Best of luck.
回复
seo agency 2025 年 8 月 7 日上午11:14
Thanks, I’ve recently been looking for info approximately this topic for a while and yours is the best I’ve came upon so far. However, what concerning the conclusion? Are you sure concerning the supply?
回复
bandar toto macau 2025 年 8 月 17 日上午10:41
Would love to perpetually get updated great site! .
回复
olxtoto 2025 年 8 月 17 日下午11:38
I have been absent for some time, but now I remember why I used to love this website. Thank you, I¦ll try and check back more often. How frequently you update your website?
回复
toto slot login alternatif 2025 年 8 月 22 日上午12:29
I am extremely impressed with your writing skills and also with the layout on your weblog. Is this a paid theme or did you modify it yourself? Either way keep up the excellent quality writing, it is rare to see a nice blog like this one these days..
回复
canon soporte tecnico 2025 年 8 月 24 日上午2:17
Hi! I just wanted to ask if you ever have any issues with hackers? My last blog (wordpress) was hacked and I ended up losing months of hard work due to no data backup. Do you have any methods to stop hackers?
回复
Slideout Shelves 2025 年 10 月 16 日上午7:39
Hello.This post was really fascinating, particularly since I was investigating for thoughts on this issue last Friday.
回复