Benchmark laboratory
302.AI 基准实验室 | 阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?
继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…
302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料
11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…
302.AI 基准实验室 | “Thinking Claude”prompt真的这么神?302带你实测揭秘看看
最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…
302.AI 基准实验室 | FLUX 1.1 Pro推出Ultra模式,实测揭秘真实效果
11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…
302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?
11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…
302.AI 基准实验室 | Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?
11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…
302.AI 基准实验室 | Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?
10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…
302.AI 基准实验室 | 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果
近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…
302.AI 基准实验室 | Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底如何?
10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。 根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:…
302.AI 基准实验室 | 英伟达微调Llama3很强?来302竞技场跑跑分!
10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。 Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用私有数据集微调后的Llama3.1,旨在提高 LLM 生成的响应对用户查询的帮助性。 根据官方Tech Report,Llama-3.1-…