基准实验室

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121，实测竟发现模型能力出现了倒退？

时隔gemini-exp-1114发布仅一周，谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍，gemini-exp-1121在编码、推理和视觉能力都有提升。在gemini-exp-1121发布之后，它迅速赢得了Arena榜单的冠军宝座，根据测评结果显示，除了风格控制外，其他方面都位于第一。但在发布gem…
2024 年 12 月 3 日 • 基准实验室
92380
302.AI 基准实验室 | Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1？来实测看看表现

11月28日，由Qwen团队推出了实验性研究模型QwQ-32B-Preview，这一模型专注于增强AI推理能力，同时在数学和编程方面表现也十分出色。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化，基于此QwQ取得了解决复杂问题的突破性进展，包括： 1、在考察科学问题解决能力的GPQA评测集上，QwQ获得65.…
2024 年 12 月 2 日 • 基准实验室
1.3K80
302.AI 基准实验室 | xAI API列表新增视觉模型Grok-vision-beta，实测对比后竟有意外发现？！

11月初，xAI官宣Grok API开启公测后，我们便对当时列表中唯一的模型grok-beta进行了实测，尽管grok-beta在实测中发现了了一些不足，但其整体表现还是不错的。最近，xAI的API迎来了更新，其API列表中新增了一个名为grok-vision-beta的模型。根据xAI官方介绍，grok-vision-beta模型是其最新的图像理解模型，…
2024 年 11 月 29 日 • 基准实验室
1.5K00
302.AI 基准实验室 | OpenAI发布GPT-4o更新版本，竟能轻松拿捏《再见爱人4》经典语录？

上周，OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制，以提高相关性和可读性。此外，它还可以更好地处理上传的文件，提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口，输入价格为每百万tokens 2…
2024 年 11 月 25 日 • 基准实验室
1.3K121
302.AI 基准实验室 | Mistral AI推出多模态模型Pixtral Large，实测结果让人眼前一亮？

11月19日，Mistral AI宣布推出新视觉模型——Pixtral Large。 Pixtral Large是基于Mistral Large 2构建，具有124B开放权重的多模态模型，支持128K上下文窗口，能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。根据Mistral AI提供的Pixtral La…
2024 年 11 月 21 日 • 基准实验室
1.1K160
302.AI 基准实验室 | 阿里发布长上下文模型Qwen2.5-Turbo，实测结果不达预期？

继9月Qwen2.5发布后，11月18日，阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo，大幅提升了上下文处理能力与推理速度。据了解，Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens，约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…
2024 年 11 月 20 日 • 基准实验室
2.2K10
302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一？实测结果出人意料

11月15日，谷歌DeepMind推出Gemini-exp-1114，这是一个实验性模型。据了解，在经过6000+网友匿名投票后，Gemini-exp-1114模型在AI基准测试中位居总体排名第一，Gemini-exp-1114模型分数直涨40+，与GPT-4-latest并列第一，并超越了o1-preview。 Gemini-exp-1114在处理复杂提…
2024 年 11 月 18 日 • 基准实验室
97800
302.AI 基准实验室 | “Thinking Claude”prompt真的这么神？302带你实测揭秘看看

最近，又一个prompt在网上火了起来，这一prompt名为“ Thinking Claude”，有网友称它为Claude3.5的神级prompt，而更让人意想不到的的是，这个prompt背后的作者，居然是一个十七岁的少年！ “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式，强调思维过程的自然流动，而非简单的结构…
2024 年 11 月 15 日 • 基准实验室
1.9K160
302.AI 基准实验室 | FLUX 1.1 Pro推出Ultra模式，实测揭秘真实效果

11月6日，BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式，添加了新的高分辨率功能，还增加了一个RAW参数，这一参数提升了生成图片的拟真度，让生成的图片摆脱了“AI味”，为用户带来了新的视觉体验。据官网介绍，FLUX 1.1 Pro Ultra支持高达4兆像素（4MP）的图像生成，这是标准模式的四倍。这一提升使得生成的图像更加…
2024 年 11 月 11 日 • 基准实验室
1.5K00
302.AI 基准实验室 | xAI官宣Grok API开启公测，grok-beta表现能否达到预期？

11月6日，备受瞩目的2024年美国总统选举结果终于揭晓，马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。作为特朗普的“榜一大哥”马斯克，是人工智能初创公司xAI的始人之一和主要投资者。在11月4日，xAI刚刚官宣Grok API正式开启公测。根据xAI公司官方发布的文档，可以看到xAI的API目前只有一个模型——“grok-beta”。从官方…
2024 年 11 月 8 日 • 基准实验室
1.3K10

11 / 14
9
10
11
12
13
14