salesforce ai agents - 搜索 News

23 小时

在数学推理、编程能力和通用能力的一系列基准测试中，通义千问大模型团队将QwQ-32B与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了比较，结果显示，在测试数学能力的AIME24评测集上，以及评估代码能力的LiveCodeBench中，QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini及相同尺寸的R1蒸馏模型。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点