Benchmark laboratory

追平 DeepSeek-V3？美团 LongCat-Flash-Chat 实测：快，但不够“聪明”丨302.AI 基准实验室

美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat，并同步上线了官网。官方资料称，作为一款非思考型基础模型，LongCat-Flash-Chat 仅激活少量参数，性能就可比肩当前主流领先模型，尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度，更擅长处理长耗时的复杂智能体应用。 Lo…
2025 年 9 月 19 日 • Benchmark laboratory
1.7K00
2025年AI音乐模型评测：孤独的Suno与国产模型的追赶者们丨302.AI 基准实验室

在开始这篇万字长文前，可以先看两则我刚剪的短视频，配乐均来自本篇评测中生成的 AI 音乐案例，能对目前的 AI 音乐质量有个直接的认知。相信我若不说明，能一耳朵辨别出这是 AI 音乐的人，恐怕寥寥无几。放眼今天的 AIGC 版图，图像/视频领域早已卷得飞起，这周刚被万千用户追捧的 SOTA 模型很可能下周就被新的竞品完爆，潮起又潮落。然而当我们把视线挪到 …
2025 年 9 月 18 日 • Benchmark laboratory
4.1K00
AI生图新王登基？即梦Seedream 4.0对决Nano Banana六轮实测全揭晓丨302.AI 基准实验室

在 Google 的图片编辑模型 Nano Banana 热度尚未消退之际，字节跳动 Seed 团队于昨日发布了其全新升级的生图模型 Seedream 4.0。该模型首次支持 4K 多模态生图，灵活支持文本、图像的组合输入，实现多图融合创作、参考生图、组合生图、图像编辑等核心功能。且其推理性能较 3.0 版本提升了近 10 倍，“画”之前会先“想”，能够深度…
2025 年 9 月 10 日 • Benchmark laboratory
5.6K20
11 种语言直译+版式精准还原：阿里 Qwen-MT-Image 图片翻译能力实测丨302.AI 基准实验室

在跨语言信息处理需求日益增长的今天，大量图片中的外语文本、复杂排版与专业术语壁垒，始终是许多用户面临的现实难题。传统的解决方式往往需要分步操作：先提取图片中的文本，单独进行翻译，再进行图像编辑处理。而如今，越来越多支持端到端图片翻译的 AI 模型正不断涌现，致力于探寻“即视即译”的技术边界——这不仅要求模型具备出色的多模态感知能力，以准确识别图像中的文字与结…
2025 年 9 月 8 日 • Benchmark laboratory
1.7K10
Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

继 7 月开源万亿参数模型 Kimi K2 后，月之暗面（Moonshot）于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看，作为 K2 的最新版本，该模型在编程能力上进行了重大升级，并将上下文长度扩展至 256K，远超之前版本的 128K 支持能力。本次更新的 0905 版本具有以下几个亮点：在…
2025 年 9 月 5 日 • Benchmark laboratory
3.6K00
自动运镜+原生音效：PixVerse V5跻身AI视频生成模型第一梯队丨302.AI 基准实验室

2025 年 8 月 27 日，爱诗科技 AISphere 全球同步上线了其最新 AI 视频生成模型 PixVerse V5，并免费开放 96 小时供所有用户使用，在这期间，视频生成、关键帧转场、口型同步、热门模板等全部功能均可无障碍体验。这个活动一举激发了社区用户们的创作热情，不少海外网友纷纷晒出了用 PixVerse V5 与 Nano Banana 共…
2025 年 9 月 2 日 • Benchmark laboratory
3.5K00
AI文档解析：六大模型/工具性能实测，AI真能理解复杂文档么？丨302.AI 基准实验室

在文档数字化的进程中，我们始终面临一个核心难题：如何让机器真正“理解”一份结构复杂的文档——无论是布满合并单元格的财务报表、公式交织的学术论文，还是版式迥异的商业合同。传统的 OCR 工具往往在此折戟，留下需要大量人工校对的数据残片，反而加重处理负担。尽管目前行业在文档解析领域已有显著突破，从识别准确率到语义解构深度，模型能力仍在持续提升。可面对层出不穷的…
2025 年 8 月 29 日 • Benchmark laboratory
2.8K00
神秘的Nano Banana终现真身：Gemini-2.5-flash-image展示统治级实力丨302.AI 基准实验室

昨晚，Google 终于公开了其最新图像生成与编辑模型 gemini-2.5-flash-image-preview——这正是前段时间在 X 上爆火的 Nano Banana。早在 Google 还未出来“认领”时，Nano Banana 就因强大的主体一致性和闪电般的响应速度而广获好评，在社区圈粉无数。出道即巅峰，此模型一经公开就在 Artificial…
2025 年 8 月 27 日 • Benchmark laboratory
3.0K20
编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传，甚至没有放上模型卡。唯一已知的信息是：上下文窗口从原有的64k扩展至128k，从网页、App、小程序都可体验这一模型。从上传的模型版本看，模型尺寸达 685B，支持 BF16、F8_E4M3、F32 等张量类型，平衡模型…
2025 年 8 月 20 日 • Benchmark laboratory
3.2K10
从写实人像到超现实插画：快手Kling 2.1生图模型创作实测丨302.AI 基准实验室

快手Kling AI近期开放了其图像生成模型 Kolors 2.1 的 API 接口，Kolors 2.1 自 7 月官宣发布以来，凭借卓越性能广受用户好评。近日 Artificial Analysis 官方也指出， Kolors 2.1 在图像生成领域的排名迅速跻身第五，表现出强劲势头。 Kolors 2.1 主要具备以下特点：凭借出色的性价比与稳定的出…
2025 年 8 月 19 日 • Benchmark laboratory
1.2K00

5 / 16
2
3
4
5
6
7
8