资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。

据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行代码。这一模型在 RULER 长文本评估基准上得分为 93.1,优于 GPT-4 的 91.6 和 GLM4-9B-1M 的 89.9。同时在短序列能力上,该模型仍然保持着非常强的竞争力,与GPT-4o-mini持平。

官方还指出,通过对不同长度的输入在多种模型架构下的首包延时时间进行了测试,在1M tokens的序列上,利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,在不同硬件配置下Qwen2.5-Turbo实现了3.2至4.3倍的速度提升。

在扩展了上下文长度以及提升了推理速度后,Qwen2.5-Turbo价格仅为输入0.3元/1M tokens,输出0.6元/1M tokens。是现在1M上下文模型价格最便宜的。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

但是目前Qwen2.5-Turbo并未开源,阿里通义开源负责人林俊旸的说法是:目前还没有开源计划,但正在努力中。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

但是我们意外发现,阿里通义此前发布的闭源版本Qwen-turbo-2024-11-01模型就是Qwen2.5-Turbo,为此,302.AI接入了Qwen-turbo-2024-11-01模型供有需求的用户使用。

> 在302.AI上如何使用

先来看下要如何在302.AI使用Qwen-turbo-2024-11-01模型:

聊天机器人:

1、进入302.ai——依次点击【使用机器人】——【聊天机器人】——【模型】——选择模型【Qwen-turbo-2024-11-01】——【确定】——【创建聊天机器人】。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

API超市:

1、同样是进入 302.ai——依次点击【使用API】——【API超市】——【语言大模型】——【国产模型】;

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

(1)点击【查看文档】——找到【通义千问】,这里包含阿里最新模型的API。302.AI的API超市支持在线调试,点击在线调试后只需填入想要调用的模型版本即可,如下图所示;

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

(2)点击【在线体验】,在右侧选择模型即可快速调试模型参数,界面非常简洁易用。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

接下来我们根据模型超长上下文支持以及高效推理速度的特点,针对性实测一下Qwen-turbo-2024-11-01模型,看下表现如何?

> 模型实测:

实测分为三轮,前两轮是针对模型长上下文特点进行从简单到困难的大海捞针测试,最后一轮则是推理响应速度测试。

PS:大海捞针测试是通过在长文本中随机插入关键信息,形成大型语言模型(LLM)的Prompt,然后通过提问大模型关键信息,看看大模型能否正确回答问题,该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力。下面看下实测演示:

大海捞针测试1:

使用模型:Qwen-turbo-2024-11-01

使用工具:302.AI的聊天机器人

首先,是一个相对简单版本的大海捞针测试,全文共三小段大约100多个文字,我们分别在每一小段插入“针”,即下面这三句话:

意大利熏火腿是制作完美披萨所需的秘密食材之一。

山羊奶酪是制作完美披萨所需的秘密食材之一。

浸泡过意式浓缩咖啡的椰枣是制作完美披萨所需的秘密食材之一。

并提问“制作完美披萨需要哪些秘密成分”。

分析:可以看到,这对于Qwen-turbo-2024-11-01来说没有太大的难度,回答是完全正确的,甚至它还在答案的最后告诉你制作披萨还需要其他常见的材料等。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

大海捞针测试2:

继续加大难度,我们把中国经典名著《红楼梦》的前30回整理到了一个文档里,共27万余字。同样在文档的开头、中间、结尾三个地方分别插入以下三句话:

意大利熏火腿是制作完美披萨所需的秘密食材之一。

山羊奶酪是制作完美披萨所需的秘密食材之一。

浸泡过意式浓缩咖啡的椰枣是制作完美披萨所需的秘密食材之一。

最后上传文档到模型并提出问题:请阅读文档后告诉我,制作完美披萨需要哪些秘密成分?

分析:接下来看看qwen-turbo-2024-11-01的表现,可以看到,虽然回答中前三个答案有所省略,但是可以算正确的,阅读27万字的文档对于qwen-turbo-2024-11-01来说并没有问题,不过第四个答案“海南熏火腿”,似乎是“无中生有”,我们把它复制到原文档进行全文查找搜索,并没有在原文档中找到相关文字,这是出现了“幻觉”了?

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

推理速度测试:

对比模型:qwen-turbo-2024-11-01、gpt-4o-mini、claude-3-haiku

最后一轮是推理速度测试,参考Ada-LEval基准测试中的文本排序任务,我们将一篇长小说,截取了前20章,共约5万字,并从中分为了8个片段,打乱次序提供给模型,并要求模型输出段落的正确顺序,同时关闭机器人的流式输出,查看响应速度。

正确的排序是这样的:8-1-3-4-7-6-5-2

分析:首先可以看到速度上qwen-turbo-2024-11-01是最慢的,qwen-turbo-2024-11-01的响应时间为16.63s,gpt-4o-mini为6.79s,claude-3-haiku则是12.62s。从回答的准确性来看,三个模型都没有回答正确,但是表现较好的是qwen-turbo-2024-11-01,qwen能够理解提出的问题并按照提问完整回答,但可惜最后答案并没有完全正确。而gpt-4o-mini虽然速度很快,但是回答并不完整,要求将8个片段排序,但是只排序了5个,最离谱是claude-3-haiku,并没有将片段进行排序,而是直接对情节进行了总结,偏离了问题。

qwen-turbo-2024-11-01:

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

gpt-4o-mini:

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

claude-3-haiku

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

> 总结

通过以上三轮实测可以初步得出结论:

长文本处理:在关键信息的提取时,大海捞针的准确度达到预期,但是出现了“幻觉”问题,生成了一些不符合上下文或不真实的内容。

推理速度:在实测中,虽然推理速度较慢,并没有超过gpt-4o-mini和claude-3.5-haiku,但答案更加准确

用户对于长文处理需求确是日益增长,而Qwen-Turbo新版的本次发布无疑是大语言模型领域的一次重要进展,将长上下文的门槛进一步降低,难怪大家会提出疑问,RAG是否要过时了?

最后想跟大家说明,本次实测仅供大家参考!后续我们会持续关注Qwen2.5-Turbo模型,并为大家带来最新的相关资讯!

参考文章:

https://qwen2.org/qwen2-5-turbo/
https://mp.weixin.qq.com/s/11zJznHplISwYd8Tbf8uFA

Like (0)
302.AI302.AI
Previous 2024 年 11 月 19 日 下午5:00
Next 2024 年 11 月 21 日 下午7:18

相关推荐

  • 模型竞技场:中秋国庆调休来了,哪个AI能算明白?

    不知不觉中,2024年的时光已悄然流逝了三分之二。 许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。 对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假…

    2024 年 8 月 29 日
    35400
  • 资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

    在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…

    2025 年 1 月 2 日
    19800
  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    69300
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    27400
  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    33100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注