阿里深夜干了件大事,成本暴降90%! 熱點聚焦
智東西
作者 | 程茜
【資料圖】
編輯 | 心緣
智東西9月12日報道,今天凌晨,阿里通義實驗室正式發(fā)布下一代基礎模型架構Qwen3-Next,并訓練了基于該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數(shù)僅激活30億個參數(shù)。
Base模型在Qwen3預訓練數(shù)據(jù)的子集15T tokens上進行,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。
同時,基于Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支持原生262144個token上下文長度,可擴展至1010000個token。
其中,Qwen3-Next-80B-A3B-Instruct僅支持指令(非思考)模式,其輸出中不生成塊;Qwen3-Next-80B-A3B-Thinking僅支持思考模式,為了強制模型進行思考,默認聊天模板自動包含。
指令模型的性能表現(xiàn)與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優(yōu)于谷歌閉源模型Gemini-2.5-Flash-Thinking。
▲指令模型測試基準
▲思維模型測試基準
在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預測(MTP)機制等。
新模型已在魔搭社區(qū)和HuggingFace開源,開發(fā)者們也可通過Qwen Chat免費體驗或阿里云百煉、NVIDIA API Catalog體驗Qwen3-Next。
開發(fā)者在Qwen的X評論區(qū)稱贊其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。
阿里云百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3
一、指令模型接近235B旗艦模型,推理模型超Gemini-2.5
Qwen3-Next模型支持原生262144個token上下文長度,可擴展至1010000個token。
總的來看在性能方面,指令模型接近阿里參數(shù)規(guī)模235B的旗艦模型,思維模型表現(xiàn)優(yōu)于Gemini-2.5-Flash-Thinking。
其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding激活參數(shù),在大多數(shù)基準測試中,性能表現(xiàn)與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到,并且對于超過32K上下文的推理吞吐是Qwen3-32B的10倍以上。
得益于其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐提升達到10倍以上。
在解碼(decode)階段,該模型在4k上下文下實現(xiàn)近4倍的吞吐提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優(yōu)勢。
具體來看,其指令模型表現(xiàn)優(yōu)于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并取得了幾乎與參數(shù)規(guī)模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。
只有在面向大模型的綜合性評測基準、高難度數(shù)學推理基準AIME25中,指令模型的表現(xiàn)略遜色于Qwen3-235B-A22B-Instruct-2507,在編程、復雜問答與長對話的評測中表現(xiàn)更好。
Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現(xiàn)明顯優(yōu)于層數(shù)相同、注意力層數(shù)更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k范圍內都超過了層數(shù)更多的Qwen3-235B-A22B-Instruct-2507。
思維模型的表現(xiàn)優(yōu)于預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過了谷歌的閉源模型Gemini-2.5-Flash-Thinking,并在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。
二、混合注意力、MoE、穩(wěn)定優(yōu)化、多Token預測加持
研究人員在博客中提到,Qwen3-Next是針對大模型在上下文長度和總參數(shù)兩方面不斷擴展(Scaling)的未來趨勢而設計。
Qwen3-Next采用的是Qwen3 36T預訓練語料的一個均勻采樣子集,包含15T tokens。其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計算資源,即可實現(xiàn)更優(yōu)的模型性能。
這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術并進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多Token預測(MTP)機制等。
混合注意力機制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標準注意力,實現(xiàn)超長上下文長度的有效上下文建模。
研究人員發(fā)現(xiàn)Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 并在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過超越單一架構,實現(xiàn)性能與效率的雙重優(yōu)化。
同時在保留的標準注意力中,研究人員進一步引入多項增強設計,包括沿用先前工作的輸出門控機制,緩解注意力中的低秩問題,將單個注意力頭維度從128擴展至256,僅對注意力頭前25%的位置維度添加旋轉位置編碼,提高長度外推效果。
高稀疏度混合專家(MoE):在MoE層中實現(xiàn)極低的激活比率,大幅減少每個token的FLOPs,同時保留模型容量。研究人員的實驗表明,在使用全局負載均衡后,當激活專家固定時,持續(xù)增加專家總參數(shù)可帶來訓練loss的穩(wěn)定下降。
此前,Qwen3系列的MoE專家激活比約為1比16,Qwen3-Next實現(xiàn)了1比50的激活比。
穩(wěn)定性優(yōu)化:包括零中心化和權重衰減layernorm等技術,以及其他增強穩(wěn)定性以實現(xiàn)魯棒的預訓練和后訓練。研究人員發(fā)現(xiàn),注意力輸出門控機制能消除注意力池與極大激活等現(xiàn)象,保證模型各部分的數(shù)值穩(wěn)定。
多Token預測(MTP):提升預訓練模型性能并加速推理,Qwen3-Next特別優(yōu)化了MTP多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的Speculative Decoding接受率。
結語:3B激活參數(shù)對標旗艦模型!阿里憑架構創(chuàng)新為模型降本提速Qwen3-Next的突破點在于同時實現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創(chuàng)新,阿里通義此次實現(xiàn)僅激活3B參數(shù)模型就能對標規(guī)模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點,同時為降低模型訓練、推理成本提供了有效路徑。 研究人員在博客提到,未來他們將持續(xù)優(yōu)化這一架構并開發(fā)Qwen3.5。與此同時近期阿里通義已經推出數(shù)個不同領域的模型,如超萬億參數(shù)的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續(xù)落地與開源,阿里通義在開源社區(qū)的技術影響力正逐步增強。
關鍵詞: 指令 推理 參數(shù) 模型 上下文 Qwen tokens -Next 大事 阿里 注意力 Next 模型 Qw
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯(lián)系我們!
- 國家級生豬大數(shù)據(jù)中心:9月12日全國生豬均價為13.72元/公斤 市場止跌企穩(wěn)2025-09-12
- 青山紙業(yè):關注到市場將公司歸類入光模塊概念 子公司凈利潤占比極小-重點聚焦2025-09-12
- 南京證券:擬于9月19日進行現(xiàn)金紅利發(fā)放,每股派發(fā)0.05元2025-09-12
- 消息稱有TOP5廠商正跟進6.5X英寸Air超輕薄旗艦手機,預計明年上半年登場|焦點熱議2025-09-12
- 中國老齡事業(yè)發(fā)展基金會圓滿舉辦 “2026老年春節(jié)聯(lián)歡晚會”2025-09-12
- 羅永浩炮轟西貝預制菜!特級大廚教你三招辨真?zhèn)?熱頭條2025-09-12
- 上海徐匯為孵化器項目搭建專場路演平臺 即時2025-09-12
- 信息:電投產融:公司將積極關注核能領域的戰(zhàn)略布局和技術發(fā)展2025-09-12
- 9月12日鈦白粉產業(yè)鏈情報 熱門2025-09-12
- 阿里深夜干了件大事,成本暴降90%! 熱點聚焦2025-09-12
- 片仔癀資產經營公司注冊資本增至20.5億元 天天資訊2025-09-12
- 今日熱文:中超控股(002471.SZ):與合肥市智能機器人研究院簽署《戰(zhàn)略合作協(xié)議》2025-09-12
- 升班馬兩連勝!官方:克雷莫納主帥尼古拉當選意甲8月最佳教練-每日信息2025-09-12
- 中國電建(601669.SH):電建新能源上交所主板IPO申請獲上交所受理2025-09-12
- 亞馬遜強制兒童玩具類檢測認證合規(guī),跨境賣家如何選擇檢測認證合規(guī)服務商?2025-09-12
- 亞信科技聯(lián)合清華AIR等發(fā)布全球首部 AI-RAN商業(yè)展望白皮書2025-09-12
- 創(chuàng)業(yè)板指自4月低點大漲64%,僅兩成個股跑贏,10倍股僅此一只 今日聚焦2025-09-12
- 因經濟補償金糾紛,邱順林起訴立霸股份-微頭條2025-09-12
- 中國水電基礎局有限公司與大禹節(jié)水集團簽署戰(zhàn)略合作框架協(xié)議2025-09-12
- 綠的諧波(688017.SH):擬使用不超1億元進行現(xiàn)金管理2025-09-12
- 百濟神州:3932人購62962股美存托股份,涉資1344.95萬美元-新資訊2025-09-12
- 羅永浩懸賞10萬|每日速讀2025-09-12
- 航天電子:籌劃資產置換2025-09-12
- ?郵儲銀行衡水市分行舉辦“喜迎國慶 翰墨傳情”書畫藝術茶話會2025-09-12
- 白酒中報|動銷放緩酒企存貨逆勢增長 今世緣、水井坊、古井貢酒存貨增長最快 每日消息2025-09-12
- 金融助力企業(yè)協(xié)同創(chuàng)新發(fā)展大會在首鋼園舉辦2025-09-12
- 金九銀十裝修季告別選擇困難,大金中央空氣系統(tǒng)一站式解決方案2025-09-12
- 聚焦 “三化” 趨勢,兔寶寶攜阻燃板材亮相山西,賦能行業(yè)高質量發(fā)展2025-09-12
- 祝賀!福州運動員黃夢愷獲男花團體冠軍-今日訊2025-09-12
- 藍佛安:“十四五”以來跨省異地就醫(yī)直接結算惠及5.6億人次 每日播報2025-09-12
精彩推薦
- 青山紙業(yè):關注到市場將公司歸類入光模塊概念 子公司凈利潤占比極小-重點聚焦
- 消息稱有TOP5廠商正跟進6.5X英寸Air超輕薄旗艦手機,預計明年上半年登場|焦點熱議
- 羅永浩炮轟西貝預制菜!特級大廚教你三招辨真?zhèn)?熱頭條
- 9月12日鈦白粉產業(yè)鏈情報 熱門
- 今日熱文:中超控股(002471.SZ):與合肥市智能機器人研究院簽署《戰(zhàn)略合作協(xié)議》
- 綠的諧波(688017.SH):擬使用不超1億元進行現(xiàn)金管理
- 百濟神州:3932人購62962股美存托股份,涉資1344.95萬美元-新資訊
- 羅永浩懸賞10萬|每日速讀
- 藍佛安:“十四五”以來跨省異地就醫(yī)直接結算惠及5.6億人次 每日播報
- 博威合金(601137.SH):不直接供貨給美國甲骨文公司
- 球場、商場的雙向奔赴!解鎖賽事經濟下的“江蘇玩法”
- 觀點:固鎮(zhèn)縣:電力科普進校園 童心點亮安全燈
- 焦點速讀:精進電動(688280.SH):是奇瑞混動車型的產品平臺供貨商之一
- 紫牛問政·回音壁|新能源汽車充電樁是不是想裝就能裝?
- 藥捷安康-B:盤中一度漲95%,上市不到3月股價飆升超15倍_當前看點
閱讀排行
- 國家級生豬大數(shù)據(jù)中心:9月12日全國生豬均價為13.72元/公斤 市場止跌企穩(wěn)
- 南京證券:擬于9月19日進行現(xiàn)金紅利發(fā)放,每股派發(fā)0.05元
- 中國老齡事業(yè)發(fā)展基金會圓滿舉辦 “2026老年春節(jié)聯(lián)歡晚會”
- 上海徐匯為孵化器項目搭建專場路演平臺 即時
- 阿里深夜干了件大事,成本暴降90%! 熱點聚焦
- 片仔癀資產經營公司注冊資本增至20.5億元 天天資訊
- 中國電建(601669.SH):電建新能源上交所主板IPO申請獲上交所受理
- 亞馬遜強制兒童玩具類檢測認證合規(guī),跨境賣家如何選擇檢測認證合規(guī)服務商?
- 亞信科技聯(lián)合清華AIR等發(fā)布全球首部 AI-RAN商業(yè)展望白皮書
- 因經濟補償金糾紛,邱順林起訴立霸股份-微頭條