基准实验室

AI生图新王登基？即梦Seedream 4.0对决Nano Banana六轮实测全揭晓丨302.AI 基准实验室

在 Google 的图片编辑模型 Nano Banana 热度尚未消退之际，字节跳动 Seed 团队于昨日发布了其全新升级的生图模型 Seedream 4.0。该模型首次支持 4K 多模态生图，灵活支持文本、图像的组合输入，实现多图融合创作、参考生图、组合生图、图像编辑等核心功能。且其推理性能较 3.0 版本提升了近 10 倍，“画”之前会先“想”，能够深度…
2025 年 9 月 10 日 • 基准实验室
4.1K20
11 种语言直译+版式精准还原：阿里 Qwen-MT-Image 图片翻译能力实测丨302.AI 基准实验室

在跨语言信息处理需求日益增长的今天，大量图片中的外语文本、复杂排版与专业术语壁垒，始终是许多用户面临的现实难题。传统的解决方式往往需要分步操作：先提取图片中的文本，单独进行翻译，再进行图像编辑处理。而如今，越来越多支持端到端图片翻译的 AI 模型正不断涌现，致力于探寻“即视即译”的技术边界——这不仅要求模型具备出色的多模态感知能力，以准确识别图像中的文字与结…
2025 年 9 月 8 日 • 基准实验室
1.0K10
Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

继 7 月开源万亿参数模型 Kimi K2 后，月之暗面（Moonshot）于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看，作为 K2 的最新版本，该模型在编程能力上进行了重大升级，并将上下文长度扩展至 256K，远超之前版本的 128K 支持能力。本次更新的 0905 版本具有以下几个亮点：在…
2025 年 9 月 5 日 • 基准实验室
2.9K00
自动运镜+原生音效：PixVerse V5跻身AI视频生成模型第一梯队丨302.AI 基准实验室

2025 年 8 月 27 日，爱诗科技 AISphere 全球同步上线了其最新 AI 视频生成模型 PixVerse V5，并免费开放 96 小时供所有用户使用，在这期间，视频生成、关键帧转场、口型同步、热门模板等全部功能均可无障碍体验。这个活动一举激发了社区用户们的创作热情，不少海外网友纷纷晒出了用 PixVerse V5 与 Nano Banana 共…
2025 年 9 月 2 日 • 基准实验室
2.0K00
AI文档解析：六大模型/工具性能实测，AI真能理解复杂文档么？丨302.AI 基准实验室

在文档数字化的进程中，我们始终面临一个核心难题：如何让机器真正“理解”一份结构复杂的文档——无论是布满合并单元格的财务报表、公式交织的学术论文，还是版式迥异的商业合同。传统的 OCR 工具往往在此折戟，留下需要大量人工校对的数据残片，反而加重处理负担。尽管目前行业在文档解析领域已有显著突破，从识别准确率到语义解构深度，模型能力仍在持续提升。可面对层出不穷的…
2025 年 8 月 29 日 • 基准实验室
2.0K00
神秘的Nano Banana终现真身：Gemini-2.5-flash-image展示统治级实力丨302.AI 基准实验室

昨晚，Google 终于公开了其最新图像生成与编辑模型 gemini-2.5-flash-image-preview——这正是前段时间在 X 上爆火的 Nano Banana。早在 Google 还未出来“认领”时，Nano Banana 就因强大的主体一致性和闪电般的响应速度而广获好评，在社区圈粉无数。出道即巅峰，此模型一经公开就在 Artificial…
2025 年 8 月 27 日 • 基准实验室
2.5K20
编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传，甚至没有放上模型卡。唯一已知的信息是：上下文窗口从原有的64k扩展至128k，从网页、App、小程序都可体验这一模型。从上传的模型版本看，模型尺寸达 685B，支持 BF16、F8_E4M3、F32 等张量类型，平衡模型…
2025 年 8 月 20 日 • 基准实验室
2.6K10
从写实人像到超现实插画：快手Kling 2.1生图模型创作实测丨302.AI 基准实验室

快手Kling AI近期开放了其图像生成模型 Kolors 2.1 的 API 接口，Kolors 2.1 自 7 月官宣发布以来，凭借卓越性能广受用户好评。近日 Artificial Analysis 官方也指出， Kolors 2.1 在图像生成领域的排名迅速跻身第五，表现出强劲势头。 Kolors 2.1 主要具备以下特点：凭借出色的性价比与稳定的出…
2025 年 8 月 19 日 • 基准实验室
97800
从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • 基准实验室
2.0K10
中文渲染新 SOTA！Qwen-Image 实测：多语言文本全面领先丨302.AI 基准实验室

复杂文本渲染的准确性，一直是 AI 生图领域长期存在的技术瓶颈。即便顶尖的生图模型，在处理复杂文本时也难免出现乱码现象。就在上周，阿里开源了通义千问系列的首个图像生成基础模型——Qwen-Image，其核心突破便在于卓越的复杂文本渲染能力。通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估，公开数据表明其在通用图像生成和图像编辑的所有基准…
2025 年 8 月 13 日 • 基准实验室
2.3K20

4 / 14
1
2
3
4
5
6