开源DeepSeek-R1推理大模型,与o1性能相近。‍‍ 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。 开源用R1数据蒸馏的Qwen ...