基准实验室
302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!
2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。 在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?
2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…
302.AI 基准实验室 | 通义万相2.1模型实测绝了!汉字竟在视频里“活”了
继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…
302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比
自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK
原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气,但没想到最近几日接连有新模型发布。 1月20日晚,DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI …
302.AI 基准实验室 | MiniMax-Text-01,数学、上下文理解、编程能力表现如何?
1月15日,MiniMax发布并开源了全新MiniMax-01系列基础语言大模型——MiniMax-Text-01。 据了解,MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,单次激活459 亿个参数 。为了解锁其长上下文功能,它采用了一种混合架构,集成了闪电注意力(Lightning Attention)、Softmax 注…
302.AI 基准实验室 | 智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?
在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…
302.AI 基准实验室 | 实测Doubao文生图模型v2.1版本,中英文内容生成轻松拿捏!
12月,字节跳动豆包大模型团队推出文生图模型 v2.1版本,这次的升级对比通用 2.0和通用 2.0 PRO版本,除了结构准确和美感明显提升外,重点支持了中英文字符渲染。 据了解,豆包文生图模型v2.1通过打通 LLM 和 DiT 构架,构建了高质量文字渲染能力,大幅提升文字生成准确率。这种原生的文字渲染能力,让文字与整体画面的融合更为自然和实用。 >…
302.AI 基准实验室 | 实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!
12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBe…
302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能
就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…