LLM
-
302.AI 基准实验室 | 智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?
在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…
-
302.AI 基准实验室 | 实测Doubao文生图模型v2.1版本,中英文内容生成轻松拿捏!
12月,字节跳动豆包大模型团队推出文生图模型 v2.1版本,这次的升级对比通用 2.0和通用 2.0 PRO版本,除了结构准确和美感明显提升外,重点支持了中英文字符渲染。 据了解,豆包文生图模型v2.1通过打通 LLM 和 DiT 构架,构建了高质量文字渲染能力,大幅提升文字生成准确率。这种原生的文字渲染能力,让文字与整体画面的融合更为自然和实用。 >…
-
302.AI 基准实验室 | 实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!
12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBe…
-
302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能
就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…
-
302.AI 基准实验室 | 谷歌再发布实验模型Gemini 2.0 Flash Thinking,实测中能否正确解出考研数学题?!
12月20日凌晨,谷歌DeepMind首席科学家宣布推出全新模型——Gemini 2.0 Flash Thinking。 据了解,Gemini 2.0 Flash thinking是一个实验性模型,它以Gemini 2.0 Flash版本为基础,经过特别训练后,能够在回答问题时展示其“思考过程”,这与o1模型的慢思维思考方式相似,可以深度可视化展示整个思维链…
-
302.AI 基准实验室 | DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?
12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…
-
302.AI 基准实验室 | MINIMAX发布abab7-preview模型,数学编程能力不足但推理长文理解表现都不错
11月初,MINIMAX发布了新款abab7-preview模型,该模型支持245K上下文,相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。 根据网上搜索到的关于abab7-preview模型的资料并不多,想要进一步了解这一模型,可以通过实测看看真实的表现。 > 在302.AI上使用 目前,302.AI已经提供了abab7-previ…
-
302.AI 基准实验室 | 谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!
12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…
-
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!
12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态! 在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整…
-
302.AI 基准实验室 | Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?
12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…