tufa - 搜索 News

LADDER利用模型现有能力来生成问题变体，形成循序渐进的难度梯度，最终实现自举学习。整个过程只需对答案进行验证即可，无需人工干预。新方法LADDER，通过递归问题分解实现AI模型的自我改进，同时不需要人工标注数据。使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省 ...

一些您可能无法访问的结果已被隐去。

今日热点