基准实验室
302.AI 基准实验室 | 四大场景对比Gen-4 vs. Kling-1.6图生视频效果,这次谁破防了?!
4月1日,Runway 推出了新视频模型:Gen-4。 据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。 4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…
文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?| 302.AI 基准实验室
上个月,AI图像生成模型领域涌现出了很多新面孔,例如MiniMax推出的首款图像模型Image-01,以及智谱2025年开源的首个文生图模型CogView-4-250304等。 今天,302.AI将对市场上的文生图模型进行评测,期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个,具体包括: MiniMax-Image-01、Midjourney…
302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!
短短一周时间,阿里通义千问上线了三个模型,先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ,紧接着视觉推理模型 QVQ-Max 也正式上线。 官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。…
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7,到底谁在前端任务上更胜一筹?
3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测:速度提升,推理与中文理解表现惊艳!
3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
302.AI 基准实验室 | Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?
要说近期AI圈里最红的,应该就是来自谷歌的Gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型,gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成,还能够通过自然语言对话直接对图像进行修改。 这种把传统的语言大模…
302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B
3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…
302.AI 基准实验室 | ComfyUI API vs. Gemini-2.0-Flash图片编辑:突破玩具到商用的临界点
近期,302.AI上线了 ComfyUI 系列 API,这是基于 ComfyUI 实现的图片处理服务,可实现换装、换脸、换物、漫画图变真人、风格迁移等任务,生成的效果达到商用级,能够真正帮助电商企业制作出优质的产品宣传图。 同期,Google 的 Gemini 2.0 Flash 原生多模态能力在AI圈子掀起了一阵浪潮。据闻,这一功能可以通过文字描述处理文本…
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架,到底谁更出色?
3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比
在上一篇文章中,我们给大家介绍了 Claude 3.7 Sonnet 模型,同时对Claude 3.7 Sonnet的标准模式(Normal)进行了实测对比。 而现在,我们将会对Claude 3.7 Sonnet 推理模式(Extended)进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet(标准模式)的对比,更全面地…