Benchmark laboratory

302.AI 基准实验室 | 实测对比阿里首个多模态模型QVQ-72B-Preview，能力还行但有点“话痨”？！

12月25日圣诞节当天，阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview，包括MMMU、MathVista、MathVision 、OlympiadBe…
2024 年 12 月 27 日 • Benchmark laboratory
1.5K00
302.AI 基准实验室 | 刚刚，DeepSeek更新了V3版本，快来302抢先实测了解模型性能

就在刚刚，DeepSeek了更新V3版本！据了解，模型的速度有了明显提升。官方还没有来得及正式宣发，我们迫不及待尝试了下，的确更新了！那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3，看看其在文本处理、推理逻辑、编程等方面的表现如何！ > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…
2024 年 12 月 25 日 • Benchmark laboratory
1.4K10
302.AI 基准实验室 | 谷歌再发布实验模型Gemini 2.0 Flash Thinking，实测中能否正确解出考研数学题？！

12月20日凌晨，谷歌DeepMind首席科学家宣布推出全新模型——Gemini 2.0 Flash Thinking。据了解，Gemini 2.0 Flash thinking是一个实验性模型，它以Gemini 2.0 Flash版本为基础，经过特别训练后，能够在回答问题时展示其“思考过程”，这与o1模型的慢思维思考方式相似，可以深度可视化展示整个思维链…
2024 年 12 月 24 日 • Benchmark laboratory
1.5K110
302.AI 基准实验室 | DeepSeek-VL2发布，实测看图说话、文字识别和图形推理能力如何？

12月13日，DeepSeek 官方发布博文，宣布开源 DeepSeek-VL2 模型。据了解，在模型架构上，DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能， MoE是一种混合专家（Mixture-of-Experts）架构，旨在提高模型的性能和效率。在官方给出的测评结果中显示，DeepSeek-…
2024 年 12 月 23 日 • Benchmark laboratory
4.1K150
资讯丨首个支持多主体一致性的大模型Vidu 1.5，在302.AI上玩到停不下来！

11中旬，生数科技推出了最新AI视频生成模型Vidu 1.5版本，并声称这一版本模型为“全球首个支持多主体一致性的大模型”。先简单理解下多主体一致性的意思，多主体一致性即多个主体如人物、物体、场景等，在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说，就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为，使得整个视频看起…
2024 年 12 月 19 日 • Benchmark laboratory
2.0K90
302.AI 基准实验室 | MINIMAX发布abab7-preview模型，数学编程能力不足但推理长文理解表现都不错

11月初，MINIMAX发布了新款abab7-preview模型，该模型支持245K上下文，相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。根据网上搜索到的关于abab7-preview模型的资料并不多，想要进一步了解这一模型，可以通过实测看看真实的表现。 > 在302.AI上使用目前，302.AI已经提供了abab7-previ…
2024 年 12 月 18 日 • Benchmark laboratory
1.6K10
302.AI 基准实验室 | 带你在302.AI玩转Runway新功能Expand Video

11月底，Runway推出了新功能——Expand Video。这项功能允许用户通过简单的文本提示，在原始视频画面基础上生成额外的视觉内容，并灵活调整视频比例。这和早前很火的“图片扩图”功能非常相似，只不过Expand Video扩的不是静态的图片而是视频。 Expand Video功能的主要特点包括： 1、无缝扩展框架，同时保持视觉一致性，并以…
2024 年 12 月 16 日 • Benchmark laboratory
1.6K01
302.AI 基准实验室 | 谷歌突袭发布新模型Gemini 2.0 Flash实验版，原来这才是性价比之王？！

12月12日的凌晨，当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时，谷歌在毫无预兆的情况下，带来了其新系列大模型：Gemini 2.0，而Gemini 2.0 Flash Exp，则是Gemini 2.0 系列模型中的第一个模型。虽然没有找到准确的参数，但据了解，Flash是Gemini模型序列中，除了专为端侧开发的Nano模型外，参数最小…
2024 年 12 月 12 日 • Benchmark laboratory
1.1K01
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版，到底是王者还是青铜？！

12月初，OpenAI 开启了为期十二天的直播活动。而在直播的首日，OpenAI带来了推理大模型o1的完整版！据了解，o1 完整版在数学和代码能力上都有了显著提升，推理速度比之前的preview版本快了60%，并且支持多模态！在高难度数学题（AIME 2024）、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中，o1 完整…
2024 年 12 月 11 日 • Benchmark laboratory
1.3K90
302.AI 基准实验室 | Meta AI新模型Llama 3.3 70B推理、编程全面评测，真实表现如何？

12月6日，Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示，这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当，但运行起来更简单、更经济高效。据了解，Llama 3.3 70B上下文长度为128K，是一款自回归…
2024 年 12 月 10 日 • Benchmark laboratory
1.6K180

11 / 16
8
9
10
11
12
13
14