阿里巴巴(BABA)近日宣布推出其新型大语言模型QwQ-32B,该模型仅有320亿参数,但在性能上已能媲美拥有6710亿参数的DeepSeek-R1(其中370亿被启动),甚至在某些测试中超越对方。此举使得阿里巴巴的股价上涨超过7%,进一步推动了AI大模型从“量变”向“质变”的转型。
QwQ-32B模型的发布,彰显了小参数模型也能实现高性能。阿里Qwen团队指出,该成果展示了将强化学习(RL)应用于大规模预训练模型的有效性,表明这种方法或许是通向通用人工智慧的可行路径。此外,QwQ-32B不仅具备强大的基础推理能力,还融合了与Agent相关的能力,使其能够在使用工具时进行批判性思考,并根据环境回馈调整推理过程。
根据官方测试结果,QwQ-32B在多项关键评测中表现卓越。在AIME24数学能力评测中,QwQ-32B与DeepSeek-R1表现相当,并远超o1-mini等同类模型。在LiveCodeBench代码能力评测中,表现同样与DeepSeek-R1相当。而在“最难LLMs评测榜”LiveBench上,QwQ-32B得分超越DeepSeek-R1,在IFEval指令遵循能力评测中,QwQ-32B同样优于DeepSeek-R1。在BFCL测试中,QwQ-32B的表现也超过了DeepSeek-R1。QwQ-32B的LiveBench评分约为72.5分,成本仅为$0.25,相比之下,R1的评分约为70分,成本为$2.50,而o3-mini的评分为75分,成本高达$5.00。这表明,QwQ-32B在性能与成本之间取得了良好的平衡。
QwQ-32B的卓越性能主要归功于其采用的大规模强化学习方法。阿里团队在冷启动的基础上,开展了分阶段的强化学习训练,初始阶段重点针对数学和编程任务进行RL训练,通过验证生成答案的正确性和代码执行的成功与否来提供回馈;而在扩展阶段,增加了对通用能力的RL训练,使用通用奖励模型和基于规则的验证器,以提升模型的综合能力。研究表明,随著RL训练轮次的增加,模型在数学和编程领域的表现持续提升,验证了这一方法的有效性。
QwQ-32B现已在Hugging Face和ModelScope平台上开源,采用Apache 2.0协议,用户亦可通过Qwen Chat体验这一强大模型。科技自媒体评论称,此次开源具有重要意义,展示了RLHF路线的潜力,打破了对AI模型发展的悲观预期。阿里巴巴最近还宣布将在未来三年内投资超过3800亿元用于云和AI硬体基础设施建设,目标是超越过去十年的总投入。QwQ-32B的推出与阿里的AI战略高度一致,标志著其在全球顶尖开源模型中的地位进一步巩固。未来,阿里将继续推出更大规模的模型,以不断推动AI技术的发展。
登入uSMART HK APP之后,从页面最右上方点击选择「搜索」,输入标的代码,如「09988.HK」,可进入详情页了解交易详情和历史走势,点击右下角「交易」,选择「买入/卖出」功能,最后填写交易条件后送出订单即可。
(图源:uSMART HK)