基准实验室

302.AI 基准实验室 | 谷歌再发布实验模型Gemini 2.0 Flash Thinking，实测中能否正确解出考研数学题？！

12月20日凌晨，谷歌DeepMind首席科学家宣布推出全新模型——Gemini 2.0 Flash Thinking。据了解，Gemini 2.0 Flash thinking是一个实验性模型，它以Gemini 2.0 Flash版本为基础，经过特别训练后，能够在回答问题时展示其“思考过程”，这与o1模型的慢思维思考方式相似，可以深度可视化展示整个思维链…
2024 年 12 月 24 日 • 基准实验室
1.4K110
302.AI 基准实验室 | DeepSeek-VL2发布，实测看图说话、文字识别和图形推理能力如何？

12月13日，DeepSeek 官方发布博文，宣布开源 DeepSeek-VL2 模型。据了解，在模型架构上，DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能， MoE是一种混合专家（Mixture-of-Experts）架构，旨在提高模型的性能和效率。在官方给出的测评结果中显示，DeepSeek-…
2024 年 12 月 23 日 • 基准实验室
3.7K150
资讯丨首个支持多主体一致性的大模型Vidu 1.5，在302.AI上玩到停不下来！

11中旬，生数科技推出了最新AI视频生成模型Vidu 1.5版本，并声称这一版本模型为“全球首个支持多主体一致性的大模型”。先简单理解下多主体一致性的意思，多主体一致性即多个主体如人物、物体、场景等，在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说，就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为，使得整个视频看起…
2024 年 12 月 19 日 • 基准实验室
1.7K90
302.AI 基准实验室 | MINIMAX发布abab7-preview模型，数学编程能力不足但推理长文理解表现都不错

11月初，MINIMAX发布了新款abab7-preview模型，该模型支持245K上下文，相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。根据网上搜索到的关于abab7-preview模型的资料并不多，想要进一步了解这一模型，可以通过实测看看真实的表现。 > 在302.AI上使用目前，302.AI已经提供了abab7-previ…
2024 年 12 月 18 日 • 基准实验室
1.2K10
302.AI 基准实验室 | 带你在302.AI玩转Runway新功能Expand Video

11月底，Runway推出了新功能——Expand Video。这项功能允许用户通过简单的文本提示，在原始视频画面基础上生成额外的视觉内容，并灵活调整视频比例。这和早前很火的“图片扩图”功能非常相似，只不过Expand Video扩的不是静态的图片而是视频。 Expand Video功能的主要特点包括： 1、无缝扩展框架，同时保持视觉一致性，并以…
2024 年 12 月 16 日 • 基准实验室
1.3K01
302.AI 基准实验室 | 谷歌突袭发布新模型Gemini 2.0 Flash实验版，原来这才是性价比之王？！

12月12日的凌晨，当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时，谷歌在毫无预兆的情况下，带来了其新系列大模型：Gemini 2.0，而Gemini 2.0 Flash Exp，则是Gemini 2.0 系列模型中的第一个模型。虽然没有找到准确的参数，但据了解，Flash是Gemini模型序列中，除了专为端侧开发的Nano模型外，参数最小…
2024 年 12 月 12 日 • 基准实验室
88801
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版，到底是王者还是青铜？！

12月初，OpenAI 开启了为期十二天的直播活动。而在直播的首日，OpenAI带来了推理大模型o1的完整版！据了解，o1 完整版在数学和代码能力上都有了显著提升，推理速度比之前的preview版本快了60%，并且支持多模态！在高难度数学题（AIME 2024）、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中，o1 完整…
2024 年 12 月 11 日 • 基准实验室
1.1K90
302.AI 基准实验室 | Meta AI新模型Llama 3.3 70B推理、编程全面评测，真实表现如何？

12月6日，Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示，这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当，但运行起来更简单、更经济高效。据了解，Llama 3.3 70B上下文长度为128K，是一款自回归…
2024 年 12 月 10 日 • 基准实验室
1.3K180
302.AI 基准实验室 | 字节豆包推出新图片理解功能，实测底层模型Doubao-vision-pro-32k竟大翻车？

12月3日，字节跳动豆包上线了一项新功能——图片理解。官方表示，这一功能可精准识别图片内容，并对相关问题进行解答，无论是查找景点位置，还是辨认动漫人物身份，都能轻松应对。据了解，图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k，Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…
2024 年 12 月 5 日 • 基准实验室
2.6K90
302.AI 基准实验室 | 实测对比Luma Labs新图像模型，Luma Photon能否胜出？

近日，Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash，这两个图像生成模型是建立在新的突破性架构之上的，可提供超高品质的生成质量，不仅生成速度比市场上其他模型快，而且价格成本更低，为用户带来了新的视觉生成体验。据官方介绍，在大规模双盲评估中，Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…
2024 年 12 月 4 日 • 基准实验室
1.1K180

10 / 14
7
8
9
10
11
12
13