302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型的计算精度和效率。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

Hugging Face 的联合创始人 Clement Delangue 也发帖调侃,Deepseek V3.1悄然发布后几小时之内就已登上模型趋势榜第四,这就是 8w 关注者的力量。而截止今日上午,排名已上升至第二。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

那么,此次升级的 V3.1 版本模型性能表现有和提升?由于官方说明并未释出,相信大家都存有一样的疑惑。

话不多说,实测先行。302.AI 已第一时间接入 Deepseek-V3.1,支持聊天机器人使用和 API 在线调用。本篇实测将从多个维度入手,供大家参考该版本的实际性能表现。


I. 实测模型基本信息

参与对比测评的模型输入价格输出价格上下文长度
deepseekV3.1$0.286/ 1M$1.15/ 1M128000
gpt-5$1.5 / 1M$10 / 1M400000
qwen3-235b-a22b-thinking$0.33/ 1M$3.135128000
claude-opus-4-1$16.5 / 1M$82.5 / 1M200000

评测使用工具:302.AI 的模型竞技场聊天机器人


Ⅱ. 实测案例

实测 1:逻辑推理-排序问题

提示词:有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?

答案:6528

deepseek-V3.1:回答错误

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

gpt-5:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

qwen3-235b-a22b-thinking:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

claude-opus-4-1:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

实测 2:网页制作

提示词:为一个名为 “AURA SWIM” 的虚构女性泳装品牌,创建一个精美、逼真且完全交互的电商网站首页的完整代码(HTML、CSS 和 JavaScript)。整个页面的所有视觉元素都必须在一个单独的 <canvas> 元素内进行渲染。

目标用户与品牌美学: 品牌 AURA SWIM 的目标用户是Z世代消费者(年龄在16-25岁之间)。网站的整体美学必须充满活力、能量充沛,并具有数字原生感,以反映核心的Z世代设计趋势。

  • 核心氛围: “多巴胺夏日”。风格需大胆、自信、有趣。
  • 色彩搭配: 运用动态、流动的渐变色。想象日落与海洋交汇的景象:鲜艳的粉色 (#FF6B6B)、橙色 (#FFA500)、深紫色 (#8338EC) 和电光蓝 (#00C6FF)。
  • 字体设计: 标题使用加粗的、圆润的无衬线字体(例如 ‘Poppins’, ‘Nunito’, 或类似的 Google Font)。正文文本应保持清晰易读。
  • 布局与形状: 拥抱柔和的圆角(“soft-UI”风格)和非对称布局。避免使用尖锐、死板的矩形。对背景元素使用模糊效果以创造深度感。

技术要求与页面结构(需在Canvas上渲染): 你必须以编程方式将每一个元素绘制到Canvas上。除了<canvas>本身,<body>标签内不应包含任何用于构建界面的标准HTML元素。

deepseek-V3.1 :整体最佳。页面完整度最高, UI/UX 美观高级,自主添加了商品和品牌的文字描述。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

gpt-5:完整实现。布局合理,UI 美观,已达到一个完整网页首页的要求。自主添加了商品滚轴设计、搜索框和加入购物车的交互。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

qwen3-235b-a22b-thinking:基本实现。UI/UX 相对较混乱。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

claude-opus-4-1:基本实现。添加了品牌信息,组件布局还有提升空间。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

实测 3:高考数学

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

答案:B

deepseek-V3.1:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

gpt-5:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

qwen3-235b-a22b-thinking:回答正确

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

claude-opus-4-1:回答错误

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

实测 4:小游戏制作

提示词:你是一位独立游戏开发者和创意技术专家,尤其擅长在浏览器中利用Canvas实现复古街机风格的物理效果和令人惊叹的视觉特效。你的任务是使用 HTML, CSS, 和 JavaScript,从零开始创建一个完整、可玩、单屏的赛博朋克风格弹珠机游戏。游戏的所有图形、动画和交互都必须在 一个 <canvas> 元素 内完成。

游戏名称与核心概念: 游戏名称为 “CYBER-FLIP”。这是一款快节奏、以得分为导向的街机游戏,玩家的目标是在一个充满霓虹灯、数据流和都市危险的垂直游戏场中,尽可能地获得高分。

视觉美学与赛博朋克风格: 你需要构建一个沉浸式的、霓虹闪烁的反乌托邦大都会景观作为弹珠台的背景和元素。

  • 核心氛围: “高科技,低生活”。整个弹珠台就是一个未来城市的垂直切片。背景是下着酸雨的深夜,远处有若隐若现的摩天大楼和飞行器。
  • 色彩方案: 使用高对比度的霓虹色调。主色调为 电光蓝 (#00FFFF)、品红 (#FF00FF)、剧毒绿 (#39FF14)亮黄色 (#FFFF00)。这些亮色应与 深邃的、近乎黑色的背景(如#1A1A2E 形成鲜明对比。
  • 视觉元素 (将弹珠台元素赛博朋克化):
    • 弹珠 (Ball): 不是普通的银色小球,而是一个发光的 能量球,身后拖着粒子尾迹。
    • 挡板 (Flippers): 设计成带有霓虹边缘的 流畅镀铬金属臂
    • 保险杠 (Bumpers): 设计成 脉冲式的数据节点,每次撞击都会发出环状光波。
    • 坡道 (Ramps): 设计成 半透明的数据流管道磁悬浮轨道,弹珠进入时会有特殊音效和视觉效果。
    • 目标 (Targets): 设计成 闪烁故障的公司Logo 或需要击中的 “接入面板”
  • 特效:
    • 所有霓虹元素都要有 辉光/泛光 (Glow/Bloom) 效果。
    • 弹珠撞击时,产生 粒子爆发 效果。
    • 高分撞击或完成特定任务时,可以加入轻微的 屏幕震动 效果。

游戏机制与玩法: 你需要实现一个经典且令人上瘾的弹珠游戏循环。

  • 游戏目标: 通过撞击目标、完成“数据入侵”任务来最大化你的分数。
  • 控制:
    • 左/右方向键 控制左右挡板。
    • 空格键下方向键 用于发射弹珠。

deepseek-V3.1:未能实现。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

gpt-5:界面初步实现,但 UX 存在 bug,无法触发完整游戏。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

qwen3-235b-a22b-thinking:界面初步实现,但 UX 存在 bug,无法触发完整游戏。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

claude-opus-4-1:完整实现。交互流畅,玩法还原提示词要求,碰撞触发效果炫酷。

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

III. DeepSeek V3.1 实测结论

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失
  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
逻辑推理网页制作高考数学小游戏制作
deepseek-V3.1★★★★★✔️
gpt-5✔️★★★★★✔️★★
qwen3-235b-a22b-thinking✔️★★★✔️★★★
claude-opus-4-1✔️★★★★★★★★★

2. 实测结论

根据以上实测结果,DeepSeek V3.1 的实际性能呈现以下特点:

  1. 综合表现仍有短板。 DeepSeek V3.1 在主流任务中似乎延续了稳定实力。但在案例 1 的逻辑推理类任务和案例 4 的小游戏编程任务中却暴露出明显问题,说明其推理深度和稳定性较之前版本相比未体现出明显升级。
  2. 编程能力和响应速度有所提升。 DeepSeek V3.1 在网页制作案例的表现十分亮眼,面对复杂前端网页制作的任务,其生成能力、交互设计和内容完整度出乎意料达到或接近顶尖大模型水平,可见其在实际应用场景上理解用户需求的能力有所提升。在最新的 aider 测试中也指出,DeepSeek V3.1 取得了 71.6% 的成绩,比 Claude Opus 4 得分还多 1%,创下非推理模型的最佳记录。这一表现也显示了其在代码生成和编程辅助方面的实用价值。
  3. 成本优势明显。 从价格和上下文长度来看,DeepSeek V3.1 相较同级别大模型有显著优势。上下文窗口扩展至 128k,为大规模知识处理、长文档理解、批量内容生成等应用提供了更大空间,极大降低了使用门槛。随着 API 服务的完善,预计将在编程辅助和智能对话领域发挥更佳作用。

总体而言,V3.1 的反响虽褒贬不一,但却进一步拉高了市场对即将亮相的 R2 的期待,期望其能交出一份更亮眼的答卷。


Ⅳ. 如何在 302.AI 上使用DeepSeek V3.1

1. 聊天机器人中使用

步骤指引 :应用超市→机器人→聊天机器人

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

选择模型→国产模型→Deepseek-V3.1→确认→创建

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

2. 使用模型 API

相关文档:API超市→语言大模型→Deepseek→deepseek-v3.1→查看文档

API 名称:deepseek-v3.1

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

想即刻体验 DeepSeek V3.1 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 8 月 19 日 下午6:03
Next 5天前

相关推荐

  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3420
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4361
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1
  • 302.AI 基准实验室丨开源新SOTA? Open AI GPT-OSS系列模型对决国产开源模型评测

    2025 年 8 月 5 日,OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 开源 GPT-2 以来,时隔 6 年首次重返开源生态。 本次开源的 gpt-oss 系列包含两个高性能版本,均采用混合专家架构(MoE) 与 Apache 2.0 开源许可,支持自由修改、…

    2025 年 8 月 6 日 基准实验室
    1.8K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注