LLM
-
302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评
6月,各大模型厂商如同上了“发条”,新品发布纷至沓来。 6月11日,Force 2025 原动力大会上,火山引擎正式发布豆包大模型 1.6 版(Doubao-Seed-1.6)。该系列中包含了三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…
-
302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿
AI 行业大事记 2025 年 6 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ① 本期月刊期次 2506(2025年6月),整理和分析的是上个月(5月)AI 领域里有重大意义和影响的各类事件; ② 本期月刊共收录 101 条内容; ③ 月刊分类中的「…
-
302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果
北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。 5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528。 Hugging Face模型榜登顶 根据 DeepSeek 官方重点信息提炼: 更新后的 R1 模型在数学、编程与通用逻辑等多个基…
-
302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!
2025年5月20日,字节跳动团队于 Hugging Face 平台推出了全新开源的统一多模态模型:BAGEL 。模型一经发布,不仅迅速登上Hugging Face趋势榜,同时引发海内外热议。 Hugging Face登顶 海外AI从业者评价 BAGEL 基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-384-flash-…
-
302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?
美东时间5月22日周四,Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。 据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推…
-
302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评
北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。 在lmarena.a…
-
302.AI 基准实验室 | 阿里推出Qwen3新系列模型 ,性能全面测试对比
4月29日凌晨,阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型: Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参) Qwen3-30B-A3B(300亿总参数、30亿激活参数) 以及六款 Dense 模型: Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…
-
302.AI 深度拆解 | 大白话聊一聊:AI下半场,Agent 的本质与变革
文 | Jomy @302.AI 编 | 南乔River @ShowMeAI ✦✦✦ 上一篇文章 我们聊了聊 Tool、MCP 和 Agent 三者之间的关系。简单来说就是 Agent = LLM + Tools,而 MCP 统一了 Tools 开发和使用的过程。 文章很受欢迎,很多朋友跟我进行了交流讨论。但在沟通中,我发现还是有部分朋友对 Agent 存在…
-
302.AI 基准实验室 | OpenAI o4-mini & o3,实测编程效果与多模态能力到底如何?
上周,OpenAI在直播中发布了 o 系列新模型:o4-mini 和 o3。 OpenAI表示,o3是他们目前最强大的推理模型,在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型,专注于快速且经济高效的推理,特别在数学、编码和视觉任务中实现了优异的性能。 接下来,我们将在 302.AI 平台上分别对 o4-mini 和 o…
-
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?
4 月 15 日凌晨,OpenAI 发布了全新 GPT-4.1 系列模型,其中包括:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程、指令遵循和上下文理解方面有显著提升。 与此同时,OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…