302.AI
-
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?
4 月 15 日凌晨,OpenAI 发布了全新 GPT-4.1 系列模型,其中包括:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程、指令遵循和上下文理解方面有显著提升。 与此同时,OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
-
302.AI 深度拆解 | 大白话聊一聊:Tool、MCP和Agent的来龙去脉
大白话系列,是希望用最通俗的文字,揭示复杂技术背后的简单本质。 文 | Jomy @302.AI 编 | 南乔River @ShowMeAI 我们 302.AI 做 MCP 和 Agent 相关开发有一段时间了,期间一直与开发者和用户们保持着密切的交流。 有一个普遍的感受:尽管行业内几乎所有人都听过 MCP、Agent 这些术语,但只有极少数人真正理解它们的…
-
302.AI 基准实验室 | 四大场景对比Gen-4 vs. Kling-1.6图生视频效果,这次谁破防了?!
4月1日,Runway 推出了新视频模型:Gen-4。 据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。 4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…
-
302.AI 基准实验室 | 文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?
上个月,AI图像生成模型领域涌现出了很多新面孔,例如MiniMax推出的首款图像模型Image-01,以及智谱2025年开源的首个文生图模型CogView-4-250304等。 今天,302.AI将对市场上的文生图模型进行评测,期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个,具体包括: MiniMax-Image-01、Midjourney…
-
302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!
短短一周时间,阿里通义千问上线了三个模型,先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ,紧接着视觉推理模型 QVQ-Max 也正式上线。 官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。…
-
302.AI 新品发布 | 视频竞技场:模型PK+视频生成,打造AI视频新玩法
当AI视频模型同台竞技,谁将获得最终胜利? 目前,AI视频生成领域涌现出越来越多的新模型,作为使用者是不是常常会面临这样的困惑:“哪个视频模型最符合我的需求?哪个模型的效果更佳?” 为了帮助用户解开这些疑惑,302.AI最新推出了一款工具:视频竞技场。这是一个集成了多种功能的竞技场,用户不仅能够在视频竞技场进行AI模型视频生成能力的比拼,还可以根据自己的需求…
-
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7,到底谁在前端任务上更胜一筹?
3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…
-
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测:速度提升,推理与中文理解表现惊艳!
3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
-
302.AI 基准实验室 | Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?
要说近期AI圈里最红的,应该就是来自谷歌的Gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型,gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成,还能够通过自然语言对话直接对图像进行修改。 这种把传统的语言大模…
-
302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B
3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…