谈到大模子的"国货之光",除了 DeepSeek 除外,阿里云 Qwen 这边也有新动作—— 初度将开源 Qwen 模子的高下文推广到1M 长度。 具体而言,此次的新模子有两个"杯型": Qwen2.5-7B-Instruct-1M Qwen2.5-14B-Instruct-1M 它们在处理长文本任务中都一经罢了谨慎超越 GPT-4o-mini,何况在处理百万级别长文本输入时可罢了近7 倍的提速! (百万 Tokens 长文本,如果换算来看的话,不错是 10 本长篇演义、150 小时演讲稿或
谈到大模子的"国货之光",除了 DeepSeek 除外,阿里云 Qwen 这边也有新动作——
初度将开源 Qwen 模子的高下文推广到1M 长度。
具体而言,此次的新模子有两个"杯型":
Qwen2.5-7B-Instruct-1M
Qwen2.5-14B-Instruct-1M
它们在处理长文本任务中都一经罢了谨慎超越 GPT-4o-mini,何况在处理百万级别长文本输入时可罢了近7 倍的提速!
(百万 Tokens 长文本,如果换算来看的话,不错是 10 本长篇演义、150 小时演讲稿或 3 万行代码。)
当今,Qwen 新模子干系的推理框架和手艺论说等本色均一经发布。
接下来,咱们就来不竭深远了解一下。
模子性能
率先,让咱们来望望 Qwen2.5-1M 系列模子在长高下文任务和漫笔本任务中的性能发达。
在高下文长度高达 100 万 Tokens 的 "大海捞针" 式任务 —— Passkey Retrieval(密钥检索)中,Qwen2.5-1M 系列模子展现出特别性能,或者精确地从长度为 1M 的文档里检索出隐敝信息。
值得一提的是,在整个这个词系列模子中,仅 7B 模子出现了为数未几的诞妄。
关于更复杂的长高下文理除名务,征询团队遴荐了 RULER、LV-Eval 和 LongbenchChat 等测试集。
轮廓这些成果来看,不错得到的关键论断如下:
一方面,Qwen2.5-1M 系列模子比较之前的 128K 版块有显耀跳跃。
在多数长高下文任务场景中,它发达更为出色,至极是搪塞非常 64K 长度的任务时,或者更灵验地处理信息,展现出相较于 128K 版块更强的恰当性与处理才能。
另一方面,Qwen2.5-14B-Instruct-1M 模子具备一定上风。
在与 Qwen2.5-Turbo 以及 GPT-4o-mini 的对比中,该模子在多个数据集上的测评得益更为杰出。
这意味着,在现存的长高下文模子可选范围内,它行为开源模子,或者为使用者提供一种性能相对可靠、可替代其他家具的遴荐,不外不同模子都有各自的脾气与适用场景,仍需依据具体需求进行判断。
除了长序列任务的性能外,咱们相同关心这些模子在短序列上的发达。
团队谢世俗使用的学术基准测试中比较了 Qwen2.5-1M 系列模子及之前的 128K 版块,并加入了 GPT-4o-mini 进行对比。
由此不错发现:
Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在漫笔本任务上的发达与其 128K 版块颠倒,确保了基本才能莫得因为增多了长序列处理才能而受到影响。
与 GPT-4o-mini 比较,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在漫笔本任务上罢了了附进的性能,同期高下文长度是 GPT-4o-mini 的八倍。
怎样真金不怕火成的?
在先容完性能之后,咱们来看下 Qwen 新模子背后的关键手艺。
主要不错分为三大口头,它们区分是长高下文老师、长度外推和稀疏留心力机制。
长序列的老师需要大批的计较资源,因此团队收受了逐步推广长度的行为,在多个阶段将 Qwen2.5-1M 的高下文长度从 4K 推广到 256K:
团队从预老师的 Qwen2.5 的一个中间检讨点驱动,此时高下文长度为 4K。
在预老师阶段,团队逐步将高下文长度从 4K 增多到 256K,同期使用 Adjusted Base Frequency 的决策,将 RoPE 基础频率从 10,000 提高到 10,000,000。
在监督微调阶段,团队分两个阶段进行以保握短序列上的性能:* 第一阶段:仅在短教导(最多 32K 长度)上进行微调,这里咱们使用与 Qwen2.5 的 128K 版块换取的数据和口头数,以得回访佛的短任务性能。
第二阶段:夹杂短教导(最多 32K)和长教导(最多 256K)进行老师,以罢了在增强长任务的性能的同期,保握短任务上的准确率。
在强化学习阶段,团队在漫笔本(最多 8K 长度)上老师模子。团队发现,即使在漫笔本上进行老师,也能很好地将东说念主类偏好对王人道能泛化到长高下文任务中。
通过以上老师,最终得回了 256K 高下文长度的教导微调模子。
在上述老师历程中,模子的高下文长度仅为 256K 个 Tokens。为了将其推广到 1M ,团队收受了长度外推的手艺。
现时,基于旋转位置编码的大型言语模子会在长高下文任务中产素性能着落,这主若是由于在计较留心力权重时,Query 和 Key 之间的相对位置距离过大,在老师历程中未尝见过。
为了处分这一问题,团队引入了 Dual Chunk Attention ( DCA ) ,该行为通过将过大的相对位置,再行映射为较小的值,从而处分了这一费事。
成果标明,即使是仅在 32K 长度上老师的 Qwen2.5-7B-Instruct,在处理 1M 高下文的 Passkey Retrieval 任务中也能达到近乎竣工的准确率。
这充分展示了 DCA 在无需额外老师的情况下,也可显耀推广相沿的高下文长度的强大才能。
终末,即是稀疏留心力机制。
关于长高下文的言语模子,推理速率对用户体验至关进犯。为为此,团队引入了基于MInference的稀疏留心力优化。
在此基础上,征询东说念主员还建议了一系列校阅:包括分块预填充、集成长度外推决策、稀疏性优化等。
通过这些校阅,团队的推理框架在不同模子大小和 GPU 建造上,处理 1M 长度输入序列的预填充速率擢升了 3.2 倍到 6.7 倍。
终末,该相貌一经提供了在线体验的地址,感兴致的小伙伴不错去尝鲜了 ~
HuggingFace 体验地址:
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
魔塔社区体验地址:
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
手艺论说:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
参考策动:
https://qwenlm.github.io/zh/blog/qwen2.5-1m/开yun体育网