LADDER利用模型现有能力来生成问题变体,形成循序渐进的难度梯度,最终实现自举学习。整个过程只需对答案进行验证即可,无需人工干预。 新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。 使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省 ...