LLM

302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月，各大模型厂商如同上了“发条”，新品发布纷至沓来。 6月11日，Force 2025 原动力大会上，火山引擎正式发布豆包大模型 1.6 版（Doubao-Seed-1.6）。该系列中包含了三个主要版本：标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…
2025 年 6 月 19 日 • 基准实验室
7.2K30
302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿

AI 行业大事记 2025 年 6 月联合出品： Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心说明: ① 本期月刊期次 2506（2025年6月），整理和分析的是上个月（5月）AI 领域里有重大意义和影响的各类事件； ② 本期月刊共收录 101 条内容； ③ 月刊分类中的「…
2025 年 6 月 17 日 • 赛博月刊
2.8K10
新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果 | 302.AI 基准实验室

北京时间 5 月 28 日晚，DeepSeek 在官方社群推送了更新通知。 5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级，当前版本更新为 DeepSeek-R1-0528 Hugging Face模型榜登顶根据 DeepSeek 官方重点信息提炼：更新后的 R1 模型在数学、编程与通用逻辑等多个基准…
2025 年 5 月 30 日 • 基准实验室
7.0K140
302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1，实测结果令人大跌眼镜！

2025年5月20日，字节跳动团队于 Hugging Face 平台推出了全新开源的统一多模态模型：BAGEL 。模型一经发布，不仅迅速登上Hugging Face趋势榜，同时引发海内外热议。 Hugging Face登顶海外AI从业者评价 BAGEL 基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-384-flash-…
2025 年 5 月 29 日 • 基准实验室
3.3K120
Claude 4 系列最新对比测评，推理退步前端编程增强？| 302.AI 基准实验室

美东时间5月22日周四，Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型：Claude Opus 4和Claude Sonnet 4。据了解，Claude Opus 4 和 Sonnet 4 都是混合推理模型，同时支持 Extended thinking（扩展推…
2025 年 5 月 23 日 • 基准实验室
16.5K2450
302.AI 基准实验室 | 大模型排行榜第二！Gemini-2.5-flash-preview-05-20全方位对比测评

北京时间 5 月 21 日，谷歌在 I/O 2025大会上带来了新模型：gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计，更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进，同时使用的 token 减少了 20-30%。在lmarena.a…
2025 年 5 月 22 日 • 基准实验室
7.2K1670
302.AI 赛博月刊丨Vol.5 神仙打架，Manus 之后的新玩家们

AI 行业大事记 2025 年 5 月联合出品： Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心说明: ① 本期月刊收录 AI 行业大事共 104 件； ② 本文分类中的【模型】均指代语言模型； ③ 本文 Agent、代理、智能体等词语的含义相同； ④ 一般产品接入 MCP 不再单独列出，头部公…
2025 年 5 月 1 日 • 赛博月刊
2.3K10
阿里推出Qwen3新系列模型，性能全面测试对比 | 302.AI 基准实验室

4月29日凌晨，阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型： Qwen3-235B-A22B（2350多亿总参数、 220多亿激活参） Qwen3-30B-A3B（300亿总参数、30亿激活参数）以及六款 Dense 模型： Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…
2025 年 4 月 30 日 • 基准实验室
16.4K2812
302.AI 深度拆解 | 大白话聊一聊：AI下半场，Agent 的本质与变革

文 | Jomy @302.AI 编 | 南乔River @ShowMeAI ✦✦✦ 上一篇文章我们聊了聊 Tool、MCP 和 Agent 三者之间的关系。简单来说就是 Agent = LLM + Tools，而 MCP 统一了 Tools 开发和使用的过程。文章很受欢迎，很多朋友跟我进行了交流讨论。但在沟通中，我发现还是有部分朋友对 Agent 存在…
2025 年 4 月 25 日 • 深度拆解
2.8K221
302.AI 基准实验室 | OpenAI o4-mini & o3，实测编程效果与多模态能力到底如何？

上周，OpenAI在直播中发布了 o 系列新模型：o4-mini 和 o3。 OpenAI表示，o3是他们目前最强大的推理模型，在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型，专注于快速且经济高效的推理，特别在数学、编码和视觉任务中实现了优异的性能。接下来，我们将在 302.AI 平台上分别对 o4-mini 和 o…
2025 年 4 月 23 日 • 基准实验室
4.3K260

4 / 12
1
2
3
4
5
6