您正在浏览的是香港网站,香港证监会BJA907号,投资有风险,交易需谨慎
阿里巴巴开源QwQ-32B,股价大涨超7%
uSMART盈立智投 03-06 11:12

阿里巴巴(BABA)近日宣布推出其新型大语言模型QwQ-32B,该模型仅有320亿参数,但在性能上已能媲美拥有6710亿参数的DeepSeek-R1(其中370亿被启动),甚至在某些测试中超越对方。此举使得阿里巴巴的股价上涨超过7%,进一步推动了AI大模型从“量变”向“质变”的转型。

 

QwQ-32B模型的发布,彰显了小参数模型也能实现高性能。阿里Qwen团队指出,该成果展示了将强化学习(RL)应用于大规模预训练模型的有效性,表明这种方法或许是通向通用人工智慧的可行路径。此外,QwQ-32B不仅具备强大的基础推理能力,还融合了与Agent相关的能力,使其能够在使用工具时进行批判性思考,并根据环境回馈调整推理过程。

 

根据官方测试结果,QwQ-32B在多项关键评测中表现卓越。在AIME24数学能力评测中,QwQ-32B与DeepSeek-R1表现相当,并远超o1-mini等同类模型。在LiveCodeBench代码能力评测中,表现同样与DeepSeek-R1相当。而在“最难LLMs评测榜”LiveBench上,QwQ-32B得分超越DeepSeek-R1,在IFEval指令遵循能力评测中,QwQ-32B同样优于DeepSeek-R1。在BFCL测试中,QwQ-32B的表现也超过了DeepSeek-R1。QwQ-32B的LiveBench评分约为72.5分,成本仅为$0.25,相比之下,R1的评分约为70分,成本为$2.50,而o3-mini的评分为75分,成本高达$5.00。这表明,QwQ-32B在性能与成本之间取得了良好的平衡。

 

QwQ-32B的卓越性能主要归功于其采用的大规模强化学习方法。阿里团队在冷启动的基础上,开展了分阶段的强化学习训练,初始阶段重点针对数学和编程任务进行RL训练,通过验证生成答案的正确性和代码执行的成功与否来提供回馈;而在扩展阶段,增加了对通用能力的RL训练,使用通用奖励模型和基于规则的验证器,以提升模型的综合能力。研究表明,随著RL训练轮次的增加,模型在数学和编程领域的表现持续提升,验证了这一方法的有效性。

 

QwQ-32B现已在Hugging Face和ModelScope平台上开源,采用Apache 2.0协议,用户亦可通过Qwen Chat体验这一强大模型。科技自媒体评论称,此次开源具有重要意义,展示了RLHF路线的潜力,打破了对AI模型发展的悲观预期。阿里巴巴最近还宣布将在未来三年内投资超过3800亿元用于云和AI硬体基础设施建设,目标是超越过去十年的总投入。QwQ-32B的推出与阿里的AI战略高度一致,标志著其在全球顶尖开源模型中的地位进一步巩固。未来,阿里将继续推出更大规模的模型,以不断推动AI技术的发展。

 

如何在uSMART上进行投资交易

登入uSMART HK APP之后,从页面最右上方点击选择「搜索」,输入标的代码,如「09988.HK」,可进入详情页了解交易详情和历史走势,点击右下角「交易」,选择「买入/卖出」功能,最后填写交易条件后送出订单即可。

 

(图源:uSMART HK)

关注uSMART
FacebookTwitterInstagramYouTube 追踪我们,查看更多实时财经市场信息。想和全球志同道合的人交流和发现投资的乐趣?加入 uSMART投资群 并分享您的独特观点!立刻扫描下载uSMART APP!
重要提示及免责声明
盈立证券有限公司(“盈立”)在撰写这篇文章时是基于盈立的内部研究和公开第三方信息来源。尽管盈立在准备这篇文章时已经尽力确保内容为准确,但盈立不保证文章信息的准确性、及时性或完整性,并对本文中的任何观点不承担责任。观点、预测和估计反映了盈立在文章发布日期的评估,并可能发生变化。盈立无义务通知您或任何人有关任何此类变化。您必须对本文中涉及的任何事项做出独立分析及判断。盈立及盈立的董事、高级人员、雇员或代理人将不对任何人因依赖本文中的任何陈述或文章内容中的任何遗漏而遭受的任何损失或损害承担责任。文章内容仅供参考,并不构成任何证券、金融产品或工具的要约、招揽、建议、意见或保证。
投资涉及风险,证券的价值和收益可能会上升或下降。往绩数字并非预测未来表现的指标。
uSMART
轻松入门 投资财富增值
开户