事件:4月29日晨,阿里发布最新Qwen3大模型,目标:通往通用人工智能(AGI)和超级人工智能(ASI) 。
模型(含2个MoE、6个Dense)均基于Apache2.0 开源,支持免费商用。
其中Qwen3-235B-A22B是首个开源超2000亿级MoE模型,GitHub发布2小时即获16.9k星标。
模型亮点:
1.混合推理模式
Qwen3首次在单一模型中集成“思考模式”与“非思考模式”:
思考模式:针对数学推导、代码生成等复杂任务,模型通过逐步推理输出详细逻辑链,类似人类深度思考过程,准确率显著提升(如MATH数据集准确率达91.2%)。
非思考模式:针对问答、翻译等简单任务,响应速度达毫秒级,资源消耗降低60%。用户可通过API参数或指令(如/think、/no_think)动态切换模式,实现“思考预算”的精准控制。
2.MoE架构效率革新
参数效率:小型MoE模型Qwen3-30B-A3B(总参300亿,激活30亿)以10%的激活参数超越前代72B模型性能,显存占用仅同类模型的1/3。
旗舰模型性能:Qwen3-235B-A22B(总参2350亿)在编程竞赛Codeforces中解题速度比 OpenAl o3-mini快22%,代码生成能力提升23%。
下一站 Agent:
1.性价比显著提升:Qwen3-235B-A22B在编程、数学等基准测试中超越DeepSeek-R1、Gemini-2.5-Pro等闭源模型,同时训练成本降至传统模型的1/3,推动企业级AI普及。
2.开源生态壁垒:阿里通义开源模型累计下载量超3亿次,衍生模型超10万个,超越Meta Llama成为全球最大开源模型生态,形成“模型平权”效应。
Agent 训练与落地已成为AI+叙事下一重心,建议关注:
算力芯片:海光信息、寒武纪算力服务:奥飞数据、大位科技金融:京北方、宇信科技法律:华宇软件、金桥信息教育:科大讯飞、视源股份办公:金山办公、合合信息 OA:泛微网络、致远互联