Claude
302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测
视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
302.AI 基准实验室丨全球首发亿级参数模型Kimi K2:代码能力测评,是真香还是噱头?
北京时间 7 月 11 日,人工智能领域迎来重磅消息!月之暗面(Moonshot AI)正式发布并开源了其旗舰级大模型 Kimi K2。这款模型采用先进的 MoE(Mixture of Experts)架构,总参数量高达惊人的 1 万亿(1T),激活参数也达到 320 亿(32B),其规模和技术深度令人瞩目。 Kimi K2 的核心优势在于其显著增强的代码能…
302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?
美东时间5月22日周四,Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。 据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推…
302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评
北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。 在lmarena.a…
302.AI 基准实验室 | Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决
近日,谷歌提前推出了Gemini 2.5 Pro的最新版:Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍,这一版本模型的编码能力更强,用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等 而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7,到底谁在前端任务上更胜一筹?
3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比
在上一篇文章中,我们给大家介绍了 Claude 3.7 Sonnet 模型,同时对Claude 3.7 Sonnet的标准模式(Normal)进行了实测对比。 而现在,我们将会对Claude 3.7 Sonnet 推理模式(Extended)进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet(标准模式)的对比,更全面地…
302.AI 基准实验室 | “Thinking Claude”prompt真的这么神?302带你实测揭秘看看
最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…
302.AI 基准实验室 | Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?
11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…