据通义千问,阿里推出最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。
这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,阿里还在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与DeepSeek-R1相当,远胜于 o1-mini 及相同尺寸的R1 蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问 QwQ-32B 的得分均超越了 DeepSeek- R1。
热门推荐

阿里推最新推理模型 QwQ-32B:性能比肩全球最强开源推理模型
阿里推最新推理模型 QwQ-32B:性能比肩全球最强开源推理模型
网络 ·
2025-03-06
推荐

阿里巴巴吴泳铭:未来三年加大投入三大AI领域
阿里巴巴吴泳铭:未来三年加大投入三大AI领域
网络 ·
2025-02-20
推荐

阿里云无影AI云电脑亮相 体验大幅升级、AI助手大变身
阿里云无影AI云电脑亮相 体验大幅升级、AI助手大变身
二牛网 ·
2024-09-20
推荐

魔搭上线AIGC专区,为开发者提供一站式AI创作开发平台
魔搭上线AIGC专区,为开发者提供一站式AI创作开发平台
二牛网 ·
2024-09-20
推荐

阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
二牛网 ·
2024-09-20
推荐

阿里云CTO周靖人:全面投入升级AI大基建
阿里云CTO周靖人:全面投入升级AI大基建
二牛网 ·
2024-09-19
推荐