<匯港通訊> 阿里巴巴(09988)旗下通義千問團隊發布下一代基礎模型架構Qwen3-Next,其訓練成本較密集模型Qwen3-32B大降逾90%,長文本推理輸送量提升10倍以上,並可支持百萬Tokens(詞元)超長上下文。
Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,採用全新的高稀疏MoE架構,並對經典Transformer核心組件進行重構,創新採用線性注意力和自研門控注意力結合的混合注意力機制,實現模型訓練和推理的雙重性價比突破。
基於這一新架構,阿里通義「打樣」了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數800億僅啟動30億,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。 (ST)
#Qwen3-Next (ST)
新聞來源 (不包括新聞圖片): 滙港資訊