Benchmark laboratory
302.AI 基准实验室 | 谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!
12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!
12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态! 在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整…
302.AI 基准实验室 | Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?
12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…
302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?
12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。 据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k,Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…
302.AI 基准实验室 | 实测对比Luma Labs新图像模型,Luma Photon能否胜出?
近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…
302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?
时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升。 在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。 但在发布gem…
302.AI 基准实验室 | Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现
11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…
302.AI 基准实验室 | xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!
11月初,xAI官宣Grok API开启公测后,我们便对当时列表中唯一的模型grok-beta进行了实测,尽管grok-beta在实测中发现了了一些不足,但其整体表现还是不错的。最近,xAI的API迎来了更新,其API列表中新增了一个名为grok-vision-beta的模型。 根据xAI官方介绍,grok-vision-beta模型是其最新的图像理解模型,…
302.AI 基准实验室 | OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?
上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…
302.AI 基准实验室 | Mistral AI推出多模态模型Pixtral Large,实测结果让人眼前一亮?
11月19日,Mistral AI宣布推出新视觉模型——Pixtral Large。 Pixtral Large是基于Mistral Large 2构建,具有124B开放权重的多模态模型,支持128K上下文窗口,能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。 根据Mistral AI提供的Pixtral La…