GPT-5
Kimi K2 Thinking 实测:复杂推理已堪大用,深度编程尚待提升丨302.AI 基准实验室
2025年的夏天,当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”(Agentic Intelligence)时,一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面(Moonshot AI)公司于2025年7月11日发布的突破性开源大语言模型,不仅是业界第一个宣称达到万亿参数的大模型,总参数量高达惊人的1.04万亿,更重要的是…
Doubao-Seed-Translation翻译模型实测:距离真正的“翻译大师”还有多远?丨302.AI 基准实验室
字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation,支持包括中、英、日、韩、德、法等 28 种语言互译,基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1,而在多语言综合表现上,甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro,展现出国际一流的翻译水准。…
Sonnet 4 平替?Claude Haiku 4.5 实测杀疯了:性能不输,价格砍半丨302.AI 基准实验室
距 Claude Sonnet 4 问鼎业界编程翘楚五个月后,Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5,并宣称该模型在编码性能上已媲美 Sonnet 4,而价格仅为后者的三分之一,速度更是提升一倍以上,堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄丨302.AI 基准实验室
继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。 本次更新的 0905 版本具有以下几个亮点: 在…
编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测丨302.AI 基准实验室
DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…
从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室
视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…