资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。

据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行代码。这一模型在 RULER 长文本评估基准上得分为 93.1,优于 GPT-4 的 91.6 和 GLM4-9B-1M 的 89.9。同时在短序列能力上,该模型仍然保持着非常强的竞争力,与GPT-4o-mini持平。

官方还指出,通过对不同长度的输入在多种模型架构下的首包延时时间进行了测试,在1M tokens的序列上,利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,在不同硬件配置下Qwen2.5-Turbo实现了3.2至4.3倍的速度提升。

在扩展了上下文长度以及提升了推理速度后,Qwen2.5-Turbo价格仅为输入0.3元/1M tokens,输出0.6元/1M tokens。是现在1M上下文模型价格最便宜的。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

但是目前Qwen2.5-Turbo并未开源,阿里通义开源负责人林俊旸的说法是:目前还没有开源计划,但正在努力中。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

但是我们意外发现,阿里通义此前发布的闭源版本Qwen-turbo-2024-11-01模型就是Qwen2.5-Turbo,为此,302.AI接入了Qwen-turbo-2024-11-01模型供有需求的用户使用。

> 在302.AI上如何使用

先来看下要如何在302.AI使用Qwen-turbo-2024-11-01模型:

聊天机器人:

1、进入302.ai——依次点击【使用机器人】——【聊天机器人】——【模型】——选择模型【Qwen-turbo-2024-11-01】——【确定】——【创建聊天机器人】。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

API超市:

1、同样是进入 302.ai——依次点击【使用API】——【API超市】——【语言大模型】——【国产模型】;

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

(1)点击【查看文档】——找到【通义千问】,这里包含阿里最新模型的API。302.AI的API超市支持在线调试,点击在线调试后只需填入想要调用的模型版本即可,如下图所示;

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

(2)点击【在线体验】,在右侧选择模型即可快速调试模型参数,界面非常简洁易用。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

接下来我们根据模型超长上下文支持以及高效推理速度的特点,针对性实测一下Qwen-turbo-2024-11-01模型,看下表现如何?

> 模型实测:

实测分为三轮,前两轮是针对模型长上下文特点进行从简单到困难的大海捞针测试,最后一轮则是推理响应速度测试。

PS:大海捞针测试是通过在长文本中随机插入关键信息,形成大型语言模型(LLM)的Prompt,然后通过提问大模型关键信息,看看大模型能否正确回答问题,该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力。下面看下实测演示:

大海捞针测试1:

使用模型:Qwen-turbo-2024-11-01

使用工具:302.AI的聊天机器人

首先,是一个相对简单版本的大海捞针测试,全文共三小段大约100多个文字,我们分别在每一小段插入“针”,即下面这三句话:

意大利熏火腿是制作完美披萨所需的秘密食材之一。

山羊奶酪是制作完美披萨所需的秘密食材之一。

浸泡过意式浓缩咖啡的椰枣是制作完美披萨所需的秘密食材之一。

并提问“制作完美披萨需要哪些秘密成分”。

分析:可以看到,这对于Qwen-turbo-2024-11-01来说没有太大的难度,回答是完全正确的,甚至它还在答案的最后告诉你制作披萨还需要其他常见的材料等。

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

大海捞针测试2:

继续加大难度,我们把中国经典名著《红楼梦》的前30回整理到了一个文档里,共27万余字。同样在文档的开头、中间、结尾三个地方分别插入以下三句话:

意大利熏火腿是制作完美披萨所需的秘密食材之一。

山羊奶酪是制作完美披萨所需的秘密食材之一。

浸泡过意式浓缩咖啡的椰枣是制作完美披萨所需的秘密食材之一。

最后上传文档到模型并提出问题:请阅读文档后告诉我,制作完美披萨需要哪些秘密成分?

分析:接下来看看qwen-turbo-2024-11-01的表现,可以看到,虽然回答中前三个答案有所省略,但是可以算正确的,阅读27万字的文档对于qwen-turbo-2024-11-01来说并没有问题,不过第四个答案“海南熏火腿”,似乎是“无中生有”,我们把它复制到原文档进行全文查找搜索,并没有在原文档中找到相关文字,这是出现了“幻觉”了?

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

推理速度测试:

对比模型:qwen-turbo-2024-11-01、gpt-4o-mini、claude-3-haiku

最后一轮是推理速度测试,参考Ada-LEval基准测试中的文本排序任务,我们将一篇长小说,截取了前20章,共约5万字,并从中分为了8个片段,打乱次序提供给模型,并要求模型输出段落的正确顺序,同时关闭机器人的流式输出,查看响应速度。

正确的排序是这样的:8-1-3-4-7-6-5-2

分析:首先可以看到速度上qwen-turbo-2024-11-01是最慢的,qwen-turbo-2024-11-01的响应时间为16.63s,gpt-4o-mini为6.79s,claude-3-haiku则是12.62s。从回答的准确性来看,三个模型都没有回答正确,但是表现较好的是qwen-turbo-2024-11-01,qwen能够理解提出的问题并按照提问完整回答,但可惜最后答案并没有完全正确。而gpt-4o-mini虽然速度很快,但是回答并不完整,要求将8个片段排序,但是只排序了5个,最离谱是claude-3-haiku,并没有将片段进行排序,而是直接对情节进行了总结,偏离了问题。

qwen-turbo-2024-11-01:

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

gpt-4o-mini:

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

claude-3-haiku

资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

> 总结

通过以上三轮实测可以初步得出结论:

长文本处理:在关键信息的提取时,大海捞针的准确度达到预期,但是出现了“幻觉”问题,生成了一些不符合上下文或不真实的内容。

推理速度:在实测中,虽然推理速度较慢,并没有超过gpt-4o-mini和claude-3.5-haiku,但答案更加准确

用户对于长文处理需求确是日益增长,而Qwen-Turbo新版的本次发布无疑是大语言模型领域的一次重要进展,将长上下文的门槛进一步降低,难怪大家会提出疑问,RAG是否要过时了?

最后想跟大家说明,本次实测仅供大家参考!后续我们会持续关注Qwen2.5-Turbo模型,并为大家带来最新的相关资讯!

参考文章:

https://qwen2.org/qwen2-5-turbo/
https://mp.weixin.qq.com/s/11zJznHplISwYd8Tbf8uFA

Like (0)
302.AI302.AI
Previous 2024 年 11 月 19 日 下午5:00
Next 2024 年 11 月 21 日 下午7:18

相关推荐

  • 百度发布的升级版Ernie4.0 Turbo模型将与GPT-4竞争?

    6月28日百度WAVE SUMMIT峰会上发布了最新的文心大模型 4.0 Turbo即Ernie 4.0 turbo。 Ernie 4.0 turbo 是2023年10月推出的 Ernie 4.0 模型的升级版,这一新版本在反应速度和性能上有了显著提升。 Ernie 4.0 Turbo的全称为“Enhanced Representation through …

    2024 年 7 月 22 日
    44300
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    25800
  • 资讯丨当小红书爆火的Recraft新风格与添加背景文字功能结合,会碰撞出什么样的火花?

    最近,302.AI工具超市的AI图片工具箱推出了一个全新的功能——添加背景文字。这一功能的灵感最初来源于苹果设备中壁纸所展现出的分层效果。 在前段时间,一位16岁的高中生也构建了一个应用叫“text-behind-image”,这款应用旨在帮助用户轻松地将文字添加到图像背景中,实现文字与背景图像的融合。在实际体验该应用后,我们发现线上版本无法使用,并且有可能…

    5天前
    9300
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    19700
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    19400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注