资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务中提供了强大的性能和速度。它在 SWE-bench Verified 上的得分为 40.6%,优于许多使用公开可用的最先进模型的代理——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

虽然性能有了提升,但和Claude 3 Haiku相比,Claude 3.5 Haike在输入输出令牌的价格上足足涨四倍之多:

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

在302.AI上使用

但不管怎样,我们抱着好奇的心态,还是要探一下这个模型到底如何!为了满足用户需求,302.AI的聊天机器人以及API超市在第一时间更新了Claude 3.5 Haiku模型。

如果想要更方便、更快速地使用这一模型可以选择聊天机器人。如果需要快速获得Claude 3.5 Haiku模型的API接入方式,可以进入超市,302.AI的API超市为开发者和企业打造了一个高效、便捷的AI应用开发与部署平台,轻松实现AI技术的快速落地。

此外,302.AI提供按需付费的服务方式,能够让用户更好减少资源消耗和减低开发成本。以下分别是聊天机器人和API的获取方式:

聊天机器人进入302.AI找到聊天机器人——点击模型——选择Claude 3.5 Haiku模型使用:

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

API获取:找到API超市——语言大模型——选择Anthropic:

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

但为了更直观让大家了解Claude 3.5 Haiku模型,接下来会使用302.AI的API超市、模型竞技场、网页生成器去测试Claude 3.5 Haiku的响应速度、推理能力、编程能力三方面的表现。

多模型对比:

1、响应速度

对比模型有:claude-3.5-haiku-20241022、claude-3-opus、claude-3-haiku

使用工具:302.AI的API超市—在线调试

提示词为什么我爸妈结婚的时候没邀请我参加婚礼?

可以看到,速度最快的是claude-3.5-haiku-20241022,速度为3.57s,其次是claude-3-haiku,速度为3.8s,最慢的是claude-3-opus,速度是17.63s。果然如Anthropic宣传那样,对于需要快速响应的场景,claude-3.5-haiku-20241022无疑是一个优选。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

2、推理能力

对比模型有:gpt-4o、claude-3.5-haiku-20241022、claude-3-opus、claude-3-haiku

使用工具:302.AI的模型竞技场

提示词:假设:2#3=5,3#5=7,5#7=11。请问:11#13=?

首先看下GPT-4o的答案,答案是正确的,整个回答也是有逻辑条理的。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

先来看下claude-3-haiku的回答,从5#7=11的差值为6就出现了错误,因此整个递增规律其实是不存在的。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

接着是今天的主角claude-3.5-haiku-20241022,没想到居然和claude-3-haiku一样翻车了,计算出3+5=7以及5+7=11的情况,明显出现了“模型幻觉”,导致最后得出的规律也是错误的。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

而同为Anthropic公司的老大哥claude-3-opus完全没有问题,回答正确逻辑也清晰。

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

3、编程能力:

对比模型有:claude-3.5-haiku-20241022、claude-3-haiku

使用工具:302.AI的网页生成器2.0

提示词:请帮我制作一个浪漫之心

先来看下claude-3-haiku生成的效果,claude-3-haiku生成的是一个粉色为主色调的页面并带有一点爱心元素,但我本意是希望能够生成一个爱心,这也可以看出claude-3-haiku在编程时对提示词的理解不够:资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

网页生成效果预览链接:https://jgyc-coder.302.ai/zh/share/2zaHKzEkTWFXWHFa1QvCx?lang=zh

claude-3.5-haiku-20241022生成的效果非常好,claude-3.5-haiku完美理解并消化了提示词生成的是一个可完整的爱心,可以看出claude-3.5-haiku出色的指令理解能力与编程能力:

资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

网页生成效果预览链接:https://ac0n-coder.302.ai/zh/share/DtecoyQhz9Iz3WY9yse8a?lang=z

总结

虽然Claude 3.5 Haiku在响应速度和编程能力方面表现出色,显著优于许多竞争对手,但在推理能力的表现上却存在短板。通过302.AI的模型竞技场对比测试,我们可以明显看到,Claude 3.5 Haiku在处理较为复杂的推理问题时容易出现错误,甚至产生“模型幻觉”。

另外,根据官方了解到,Claude 3.5 Haiku目前是作为纯文本模型,之后会将提供图像输入功能,到时价格或许会再有浮动。

后续302.AI也会给大家及时更新Claude 3.5 Haiku的最新动态和功能,与大家一起见证AI领域的每一次进步和创新。

参考文章:

https://www.anthropic.com/news/3-5-models-and-computer-use

Like (0)
302.AI302.AI
Previous 2024 年 11 月 5 日 下午6:16
Next 2024 年 11 月 8 日 下午6:07

相关推荐

  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    45600
  • 资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

    在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…

    2025 年 1 月 2 日
    47800
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    53100
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    60400
  • 资讯丨302.AI Lora风格创意站,快速打造属于自己的图像生成模型

    Lora是一种先进的微调技术,它能够在不改变原始绘画模型的基础上,通过特定数据的精细训练,打造出具有独特风格、人物或场景的定制化模型。Lora的使用场景十分广泛,涵盖了从艺术创作、设计、教育到商业应用的多个领域。 为了帮助用户更高效、便捷地创作Lora风格,302.AI推出了一款新工具——Lora风格创意站。该工具提供多种Lora风格,并支持混合风格生成图像…

    2025 年 3 月 7 日
    26700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注