基准实验室
年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
在上篇《顶流开源模型Flux.2是否依然能打?硬钢Nano Banana Pro五轮实测》我们对Flux.2的两个闭源版本(Pro和Flex)进行了测试。而在同一周(11月27日),阿里通义紧随Flux的步伐,也发布了全新的开源图像模型:Z-Image-Turbo. Z-Image-Turbo 是 Z-Image 的蒸馏版本,仅使用 8 次函数评估(NFE)…
昔日顶流更新,Flux.2是否依然能打?硬钢Nano Banana Pro五轮实测丨302.AI 基准实验室
11月25日,Black Forest Labs终于将其2024年发布的图像模型Flux迭代至2.0版本。作为开源模型,Flux曾凭借其性价比与微调能力,一时风头无两,几乎取代了Stable Diffusion的生态。诸如腾讯混元针对人像微调的Flux-1-SRPO也获得过我们不错的评价。但近半年,随着谷歌Nano Banana和字节跳动SeeDance的问…
美学大师 vs 世界模拟器:Seedream 4.5对决Nano Banana Pro,SOTA能否易主?丨302.AI 基准实验室
12月3日,火山引擎正式发布了新一代 AI 图像模型 Seedream 4.5,又进入到了熟悉的中国模型后发制人的节奏:今年 8 月末 Nano Banana 横空出世不久,字节跳动便带着 Seedream 4.0 进行精准狙击。在我们当时的横评文章中,Seedream 4.0 六战五胜,实现了对 Nano Banana 的全面反超。回顾一下对于 4.0 版…
实测开源标杆 DeepSeek-V3.2:在“效率”与“深度”之间寻找新平衡丨302.AI 基准实验室
刚进入12月,DeepSeek 又一次无预告地发布了备受期待的 V3.2 系列模型—— DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale,距离上次9月末发布Deepseek-V3.2-Exp仅过去2个月。本次更新不仅是技术迭代的成果,更像是一次针对大模型能力天花板的主动探索。两款模型师出同门,却有着清晰的分工:一个追求高效实用的日…
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
11月25日,当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时,Anthropic 携其王炸产品 Claude Opus 4.5 强势回归,并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型,编程能力超越人类专家。 Claude 系列最引人瞩目的王牌,始终是它在编程领域的统治级表现。在权威的真实世界软…
卷完参数卷“人格”?Grok 4.1 实测:情商满点,编程大幅提升丨302.AI 基准实验室
上周当整个 AI 圈的目光聚焦在 Google、OpenAI 两巨头的版本迭代时,xAI 再次以它标志性的突袭方式于 11 月 18 日凌晨向所有用户免费开放了 Grok 4.1 系列模型。这代表着在短短四个月内,Grok 4 系列完成了一次关键升级,并且这一升级,向外界清晰地传递出 xAI 独特的竞争策略:大模型的下一个前沿,或许不再是冰冷的算力与参数,而…
六战全胜!4K输出,从信息图到超写实人像:Nano Banana Pro重回王座丨302.AI 基准实验室
本周的 LLM 战场硝烟未散,谷歌又投下了一枚重磅炸弹。 北京时间 11 月 20 日晚,Nano Banana Pro(官方版本号 Gemini-3-Pro-Image-Preview)正式开放。仅仅三个月前,那个曾以“万物皆可 3D 手办”席卷 AIGC 社区的“魔法香蕉”,如今在 Gemini 3 Pro 强大基座的加持下强势回归。 既然挂上了“Pro…
全能SOTA还是术业专攻?Gemini 3 Pro 深度实测:是 UI 构建的“神”,也是算法推导的“凡人”丨302.AI 基准实验室
说实话,到了 2025 年底这个节点,大家对 AI 的感觉可能都有点“疲惫”了。过去这两年,各家大厂像疯了一样堆参数、拼算力,动不动就是参数翻倍,但日常任务用起来的感觉却大同小异。这种“卷算力”的游戏,多少已经到了边际效应递减的时刻。 但就在昨晚(北京时间11月18日),谷歌如果不声不响地扔出了 Gemini 3.0,这潭死水可能还真就被搅活了。 很多人的记…
Doubao-Seed-Code 实测:卷价格、卷跑分,却卷不动真实代码?丨302.AI 基准实验室
今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队,后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战,MiniMax 也推出最新力作MiniMax-M2,实力登顶开源榜首。不难发现,这些如投石入湖般接连涌现的模型,在发布时无一例外地强调自身在编程能力上的显著提升。 这一趋势清晰…
一图生成高质量3D模型,字节跳动Seed3D 1.0实测:有惊艳,也有遗憾丨302.AI 基准实验室
字节跳动的 Seed 团队近日推出了其最新成果 Seed3D 1.0 —— 一款兼具物理模拟精确性与可扩展性的 3D 基础模型。只需一张图片,就能生成高精度的 3D 模型,并且自带精细纹理和材质,可以直接用于仿真和机器人训练。 当前 3D 生成技术的核心挑战,在于实现“从一张照片到可用三维世界的跨越”。这要求模型必须解决三个根本性问题:首先,它不能只生成一个…