302.AI 基准实验室 | Anthropic最新模型Claude 3.5 Haiku，与其他模型对比表现如何？

11月5日，Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型，在许多评估中的性能与 Claude 3 Opus不相上下，而成本和速度却与上一代Haiku相当。

根据官方介绍，Claude 3.5 Haiku 在各种编码、工具使用和推理任务中提供了强大的性能和速度。它在 SWE-bench Verified 上的得分为 40.6%，优于许多使用公开可用的最先进模型的代理——包括原始版本的Claude 3.5 Sonnet和GPT-4o。

虽然性能有了提升，但和Claude 3 Haiku相比，Claude 3.5 Haike在输入输出令牌的价格上足足涨四倍之多：

在302.AI上使用Claude 3.5 Haiku

但不管怎样，我们抱着好奇的心态，还是要探一下这个模型到底如何！为了满足用户需求，302.AI的聊天机器人以及API超市在第一时间更新了Claude 3.5 Haiku模型。

如果想要更方便、更快速地使用这一模型可以选择聊天机器人。如果需要快速获得Claude 3.5 Haiku模型的API接入方式，可以进入超市，302.AI的API超市为开发者和企业打造了一个高效、便捷的AI应用开发与部署平台，轻松实现AI技术的快速落地。

此外，302.AI提供按需付费的服务方式，能够让用户更好减少资源消耗和减低开发成本。以下分别是聊天机器人和API的获取方式：

聊天机器人：进入302.AI找到聊天机器人——点击模型——选择Claude 3.5 Haiku模型使用：

API获取：找到API超市——语言大模型——选择Anthropic：

但为了更直观让大家了解Claude 3.5 Haiku模型，接下来会使用302.AI的API超市、模型竞技场、网页生成器去测试Claude 3.5 Haiku的响应速度、推理能力、编程能力三方面的表现。

多模型对比：

1、响应速度

对比模型有：claude-3.5-haiku-20241022、claude-3-opus、claude-3-haiku

使用工具：302.AI的API超市—在线调试

提示词：为什么我爸妈结婚的时候没邀请我参加婚礼？

可以看到，速度最快的是claude-3.5-haiku-20241022，速度为3.57s，其次是claude-3-haiku，速度为3.8s，最慢的是claude-3-opus，速度是17.63s。果然如Anthropic宣传那样，对于需要快速响应的场景，claude-3.5-haiku-20241022无疑是一个优选。

2、推理能力

对比模型有：gpt-4o、claude-3.5-haiku-20241022、claude-3-opus、claude-3-haiku

使用工具：302.AI的模型竞技场

提示词：假设：2#3=5，3#5=7，5#7=11。请问：11#13=？

首先看下GPT-4o的答案，答案是正确的，整个回答也是有逻辑条理的。

先来看下claude-3-haiku的回答，从5#7=11的差值为6就出现了错误，因此整个递增规律其实是不存在的。

接着是今天的主角claude-3.5-haiku-20241022，没想到居然和claude-3-haiku一样翻车了，计算出3+5=7以及5+7=11的情况，明显出现了“模型幻觉”，导致最后得出的规律也是错误的。

而同为Anthropic公司的老大哥claude-3-opus完全没有问题，回答正确逻辑也清晰。

3、编程能力：

对比模型有：claude-3.5-haiku-20241022、claude-3-haiku

使用工具：302.AI的网页生成器2.0

提示词：请帮我制作一个浪漫之心

先来看下claude-3-haiku生成的效果，claude-3-haiku生成的是一个粉色为主色调的页面并带有一点爱心元素，但我本意是希望能够生成一个爱心，这也可以看出claude-3-haiku在编程时对提示词的理解不够：

网页生成效果预览链接：https://jgyc-coder.302.ai/zh/share/2zaHKzEkTWFXWHFa1QvCx?lang=zh

而claude-3.5-haiku-20241022生成的效果非常好，claude-3.5-haiku完美理解并消化了提示词生成的是一个可完整的爱心，可以看出claude-3.5-haiku出色的指令理解能力与编程能力：

网页生成效果预览链接：https://ac0n-coder.302.ai/zh/share/DtecoyQhz9Iz3WY9yse8a?lang=z

总结

虽然Claude 3.5 Haiku在响应速度和编程能力方面表现出色，显著优于许多竞争对手，但在推理能力的表现上却存在短板。通过302.AI的模型竞技场对比测试，我们可以明显看到，Claude 3.5 Haiku在处理较为复杂的推理问题时容易出现错误，甚至产生“模型幻觉”。

另外，根据官方了解到，Claude 3.5 Haiku目前是作为纯文本模型，之后会将提供图像输入功能，到时价格或许会再有浮动。

后续302.AI也会给大家及时更新Claude 3.5 Haiku的最新动态和功能，与大家一起见证AI领域的每一次进步和创新。

参考文章：

https://www.anthropic.com/news/3-5-models-and-computer-use

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

发表回复

Comments(1)

vorbelutr ioperbir 2025 年 6 月 14 日下午4:05

The following time I read a blog, I hope that it doesnt disappoint me as a lot as this one. I mean, I do know it was my choice to read, however I actually thought youd have something fascinating to say. All I hear is a bunch of whining about something that you could possibly repair for those who werent too busy looking for attention.

回复

302.AI 基准实验室 | Anthropic最新模型Claude 3.5 Haiku，与其他模型对比表现如何？

在302.AI上使用Claude 3.5 Haiku

多模型对比：

总结

👉立即注册免费试用302.AI，开启你的AI之旅！👈

相关推荐

302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1，实测结果令人大跌眼镜！

发表回复

Comments(1)