阿里巴巴开源QwQ-32B，股价大涨超7%

uSMART盈立智投 03-06 11:12

阿里巴巴（BABA）近日宣布推出其新型大语言模型QwQ-32B，该模型仅有320亿参数，但在性能上已能媲美拥有6710亿参数的DeepSeek-R1（其中370亿被启动），甚至在某些测试中超越对方。此举使得阿里巴巴的股价上涨超过7%，进一步推动了AI大模型从“量变”向“质变”的转型。

QwQ-32B模型的发布，彰显了小参数模型也能实现高性能。阿里Qwen团队指出，该成果展示了将强化学习（RL）应用于大规模预训练模型的有效性，表明这种方法或许是通向通用人工智慧的可行路径。此外，QwQ-32B不仅具备强大的基础推理能力，还融合了与Agent相关的能力，使其能够在使用工具时进行批判性思考，并根据环境回馈调整推理过程。

根据官方测试结果，QwQ-32B在多项关键评测中表现卓越。在AIME24数学能力评测中，QwQ-32B与DeepSeek-R1表现相当，并远超o1-mini等同类模型。在LiveCodeBench代码能力评测中，表现同样与DeepSeek-R1相当。而在“最难LLMs评测榜”LiveBench上，QwQ-32B得分超越DeepSeek-R1，在IFEval指令遵循能力评测中，QwQ-32B同样优于DeepSeek-R1。在BFCL测试中，QwQ-32B的表现也超过了DeepSeek-R1。QwQ-32B的LiveBench评分约为72.5分，成本仅为$0.25，相比之下，R1的评分约为70分，成本为$2.50，而o3-mini的评分为75分，成本高达$5.00。这表明，QwQ-32B在性能与成本之间取得了良好的平衡。

QwQ-32B的卓越性能主要归功于其采用的大规模强化学习方法。阿里团队在冷启动的基础上，开展了分阶段的强化学习训练，初始阶段重点针对数学和编程任务进行RL训练，通过验证生成答案的正确性和代码执行的成功与否来提供回馈；而在扩展阶段，增加了对通用能力的RL训练，使用通用奖励模型和基于规则的验证器，以提升模型的综合能力。研究表明，随著RL训练轮次的增加，模型在数学和编程领域的表现持续提升，验证了这一方法的有效性。

QwQ-32B现已在Hugging Face和ModelScope平台上开源，采用Apache 2.0协议，用户亦可通过Qwen Chat体验这一强大模型。科技自媒体评论称，此次开源具有重要意义，展示了RLHF路线的潜力，打破了对AI模型发展的悲观预期。阿里巴巴最近还宣布将在未来三年内投资超过3800亿元用于云和AI硬体基础设施建设，目标是超越过去十年的总投入。QwQ-32B的推出与阿里的AI战略高度一致，标志著其在全球顶尖开源模型中的地位进一步巩固。未来，阿里将继续推出更大规模的模型，以不断推动AI技术的发展。

如何在uSMART上进行投资交易

登入uSMART HK APP之后，从页面最右上方点击选择「搜索」，输入标的代码，如「09988.HK」，可进入详情页了解交易详情和历史走势，点击右下角「交易」，选择「买入/卖出」功能，最后填写交易条件后送出订单即可。

（图源：uSMART HK）

如何在uSMART上进行投资交易

更多内容

站点服务

关于

协议声明