首頁 > 聚焦 > 正文

阿里深夜干了件大事，成本暴降90%！熱點聚焦

2025-09-12 19:01:00來源：智東西

智東西

作者 | 程茜

【資料圖】

編輯 | 心緣

智東西9月12日報道，今天凌晨，阿里通義實驗室正式發(fā)布下一代基礎模型架構Qwen3-Next，并訓練了基于該架構的Qwen3-Next-80B-A3B-Base模型，該模型擁有800億個參數(shù)僅激活30億個參數(shù)。

Base模型在Qwen3預訓練數(shù)據(jù)的子集15T tokens上進行，僅需Qwen3-32B 9.3%的GPU計算資源，針對超過32k的上下文，推理吞吐量可達到Qwen3-32B的10倍以上。

同時，基于Base模型，阿里開源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思維模型（Thinking），模型支持原生262144個token上下文長度，可擴展至1010000個token。

其中，Qwen3-Next-80B-A3B-Instruct僅支持指令（非思考）模式，其輸出中不生成塊；Qwen3-Next-80B-A3B-Thinking僅支持思考模式，為了強制模型進行思考，默認聊天模板自動包含。

指令模型的性能表現(xiàn)與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507相當，思維模型優(yōu)于谷歌閉源模型Gemini-2.5-Flash-Thinking。

▲指令模型測試基準

▲思維模型測試基準

在架構升級方面，相比阿里4月底的Qwen3 MoE模型，新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩(wěn)定友好的優(yōu)化，以及提升推理效率的多Token預測（MTP）機制等。

新模型已在魔搭社區(qū)和HuggingFace開源，開發(fā)者們也可通過Qwen Chat免費體驗或阿里云百煉、NVIDIA API Catalog體驗Qwen3-Next。

開發(fā)者在Qwen的X評論區(qū)稱贊其新增的多Token預測（MTP）機制，稱這是最令人印象深刻的部分。

阿里云百煉：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗艦模型，推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144個token上下文長度，可擴展至1010000個token。

總的來看在性能方面，指令模型接近阿里參數(shù)規(guī)模235B的旗艦模型，思維模型表現(xiàn)優(yōu)于Gemini-2.5-Flash-Thinking。

其基座模型為Qwen3-Next-80B-A3B-Base，僅使用1/10的Non-Embedding激活參數(shù)，在大多數(shù)基準測試中，性能表現(xiàn)與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到，并且對于超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。

得益于其新的混合模型架構，Qwen3-Next在推理效率方面，與Qwen3-32B相比，Qwen3-Next-80B-A3B在預填充（prefill）階段，在4k tokens的上下文長度下，吞吐量接近前者的7倍，當上下文長度超過32k時，吞吐提升達到10倍以上。

在解碼（decode）階段，該模型在4k上下文下實現(xiàn)近4倍的吞吐提升，在超過32k的長上下文場景中能保持10倍以上的吞吐優(yōu)勢。

具體來看，其指令模型表現(xiàn)優(yōu)于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，并取得了幾乎與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。

只有在面向大模型的綜合性評測基準、高難度數(shù)學推理基準AIME25中，指令模型的表現(xiàn)略遜色于Qwen3-235B-A22B-Instruct-2507，在編程、復雜問答與長對話的評測中表現(xiàn)更好。

Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的Qwen3-30B-A3B-Instruct-2507，甚至在256k范圍內都超過了層數(shù)更多的Qwen3-235B-A22B-Instruct-2507。

思維模型的表現(xiàn)優(yōu)于預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking，全面超過了谷歌的閉源模型Gemini-2.5-Flash-Thinking，并在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。

二、混合注意力、MoE、穩(wěn)定優(yōu)化、多Token預測加持

研究人員在博客中提到，Qwen3-Next是針對大模型在上下文長度和總參數(shù)兩方面不斷擴展（Scaling）的未來趨勢而設計。

Qwen3-Next采用的是Qwen3 36T預訓練語料的一個均勻采樣子集，包含15T tokens。其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%；與Qwen3-32B相比，僅需9.3%的GPU計算資源，即可實現(xiàn)更優(yōu)的模型性能。

這一模型結構相較其4月底推出的Qwen3的MoE模型，新增了多種新技術并進行了核心改進，包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩(wěn)定友好的優(yōu)化，以及提升推理效率的多Token預測（MTP）機制等。

混合注意力機制：用Gated DeltaNet（線性注意力）和Gated Attention（門控注意力）的組合替換標準注意力，實現(xiàn)超長上下文長度的有效上下文建模。

研究人員發(fā)現(xiàn)Gated DeltaNet相比常用的滑動窗口注意力（Sliding Window Attention）和Mamba2有更強的上下文學習能力, 并在3:1的混合比例下，即75%層使用Gated DeltaNet，25%層保留標準注意力，能一致超過超越單一架構，實現(xiàn)性能與效率的雙重優(yōu)化。

同時在保留的標準注意力中，研究人員進一步引入多項增強設計，包括沿用先前工作的輸出門控機制，緩解注意力中的低秩問題，將單個注意力頭維度從128擴展至256，僅對注意力頭前25%的位置維度添加旋轉位置編碼，提高長度外推效果。

高稀疏度混合專家（MoE）：在MoE層中實現(xiàn)極低的激活比率，大幅減少每個token的FLOPs，同時保留模型容量。研究人員的實驗表明，在使用全局負載均衡后，當激活專家固定時，持續(xù)增加專家總參數(shù)可帶來訓練loss的穩(wěn)定下降。

此前，Qwen3系列的MoE專家激活比約為1比16，Qwen3-Next實現(xiàn)了1比50的激活比。

穩(wěn)定性優(yōu)化：包括零中心化和權重衰減layernorm等技術，以及其他增強穩(wěn)定性以實現(xiàn)魯棒的預訓練和后訓練。研究人員發(fā)現(xiàn)，注意力輸出門控機制能消除注意力池與極大激活等現(xiàn)象，保證模型各部分的數(shù)值穩(wěn)定。

多Token預測（MTP）：提升預訓練模型性能并加速推理，Qwen3-Next特別優(yōu)化了MTP多步推理性能，通過訓練推理一致的多步訓練，進一步提高了實用場景下的Speculative Decoding接受率。

結語：3B激活參數(shù)對標旗艦模型！阿里憑架構創(chuàng)新為模型降本提速Qwen3-Next的突破點在于同時實現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創(chuàng)新，阿里通義此次實現(xiàn)僅激活3B參數(shù)模型就能對標規(guī)模更大模型的性能，使得模型在性能與效率之間找到更佳平衡點，同時為降低模型訓練、推理成本提供了有效路徑。研究人員在博客提到，未來他們將持續(xù)優(yōu)化這一架構并開發(fā)Qwen3.5。與此同時近期阿里通義已經推出數(shù)個不同領域的模型，如超萬億參數(shù)的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續(xù)落地與開源，阿里通義在開源社區(qū)的技術影響力正逐步增強。

關鍵詞：指令推理參數(shù) 模型上下文 Qwen tokens -Next 大事阿里注意力 Next 模型 Qw