资讯

这篇DS的新作提出了一个 pointwise Generalist RMs的训练框架,仔细读下来有很多的细节可以回味,且该文有很大概率是DS主线上迭代的一篇工作 (从DS-R1 -> R2), 因为R1其实挖了个坑并没有把通用类的RL给做充分,后续 ...
2025年深秋,我带着摄影器材和徒步装备,独闯福建三明尤溪桂峰村。原本计划拍摄晒秋盛景,却在进山途中遭遇气象台未预警的极端暴雨。车窗外,雨帘如瀑,能见度不足五米,山洪裹挟碎石冲断路基。导航失灵、信号中断,我被迫弃车徒步,泥浆没过小腿,每走一步都像与大地拔河。濒临失温时,一束昏黄灯光刺破雨幕——村口豆腐坊的蔡阿婆收留了我。她递来的姜茶滚烫,炭火烘烤衣物的焦香混着豆花香,让我想起《小王子》里“驯养”的 ...