LLM
302.AI 基准实验室 | 实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!
12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBe…
302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能
就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…
302.AI 基准实验室 | 谷歌再发布实验模型Gemini 2.0 Flash Thinking,实测中能否正确解出考研数学题?!
12月20日凌晨,谷歌DeepMind首席科学家宣布推出全新模型——Gemini 2.0 Flash Thinking。 据了解,Gemini 2.0 Flash thinking是一个实验性模型,它以Gemini 2.0 Flash版本为基础,经过特别训练后,能够在回答问题时展示其“思考过程”,这与o1模型的慢思维思考方式相似,可以深度可视化展示整个思维链…
302.AI 基准实验室 | DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?
12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…
302.AI 基准实验室 | MINIMAX发布abab7-preview模型,数学编程能力不足但推理长文理解表现都不错
11月初,MINIMAX发布了新款abab7-preview模型,该模型支持245K上下文,相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。 根据网上搜索到的关于abab7-preview模型的资料并不多,想要进一步了解这一模型,可以通过实测看看真实的表现。 > 在302.AI上使用 目前,302.AI已经提供了abab7-previ…
302.AI 基准实验室 | 谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!
12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!
12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态! 在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整…
302.AI 基准实验室 | Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?
12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…
302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?
12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。 据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k,Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…
302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?
时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升。 在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。 但在发布gem…