reward - 搜索 News

资讯

6 小时

走到"葫芦山有间画廊"（GOURD MOUNTAIN GALLERY）时，差点以为误入了赛博水墨（cyber-ink）的异次元。原本期待看到经典动画《葫芦兄弟》的复刻场景，结果迎面是穿着碳纤维（carbon ...

人人都是产品经理 on MSN9 小时

探索强化学习如何塑造游戏和虚拟世界中的智能NPC，本文深入解析了通过试错与进化培育出具有自主决策能力的虚拟伙伴的过程及其对AI产品经理的启示。在前两篇笔记中，我们打下了机器学习的基础，并深入探索了深度学习如何赋予NPC“看”和“听”的感知能力。

事实上，零食公司亿滋国际（Mondelēz International）近期的一份报告发现，81%的受访消费者会通过吃零食来缓解压力、寻找独处的宁静时刻——这一比例较2023年增长了近10%。报告显示，千禧一代和Z世代是最常吃零食的人群，其中近75%的人宁愿整天吃零食也不愿吃三顿正餐。

1 天

你发现没，现在AI技术发展得那叫一个快！最近浙江大学联合小红书搞了个大新闻，他们发布了MT-R1-Zero，这可是个专为机器翻译设计的小模型。这个模型只有70亿参数，却能和那些动不动就上百亿参数的大模型比肩，甚至在某些方面还更胜一筹！

2 天

研究发现，推理模型（如DeepSeek-R1、o1）遇到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究，深入剖析推理模型在MiP问题上的「过度思考」现象，揭示其背后的行为模式 ...

2 天

不久前，小鹏实践了理论，在后装算力的车端上用小尺寸模型实现了控车。尽管只是非常早期的实车测试，全新基模已经展现出令人惊讶的智驾能力。例如模型在未训练的情况下就能适应香港的右舵驾驶环境。

2 天

飞象网讯 4月14 日，小鹏汽车在香港举办 AI 技术分享会，首次披露正在研发 720 亿参数的超大规模自动驾驶大模型，即 " 小鹏世界基座模型 "。未来，小鹏将通过云端蒸馏小模型的方式将基模部署到车端，给 "AI 汽车 " ...

DRAKES 算法通过引入强化学习框架，首次实现了在离散扩散模型中对完整生成轨迹的可微奖励反向传播。实验表明，DRAKES 能够在保持序列自然性的同时，显著提升下游任务性能，其理论分析进一步揭示了该方法在平衡分布保真度与任务优化间的最优解路径。

知乎专栏 on MSN2 天

这篇DS的新作提出了一个 pointwise Generalist RMs的训练框架，仔细读下来有很多的细节可以回味，且该文有很大概率是DS主线上迭代的一篇工作（从DS-R1 -> R2）, 因为R1其实挖了个坑并没有把通用类的RL给做充分，后续 ...

【4月14日，香港】汽车行业开始进入全新的大模型研发浪潮。4月14日，小鹏汽车在香港举办AI技术分享会，首次披露正在研发720亿参数的超大规模自动驾驶大模型，即“小鹏世界基座模型”。未来，小鹏将通过云端蒸馏小模型的方式将基模部署到车端，给“AI汽车” ...

在经济崩溃时期，黄金总能保值——这是被称作“炒金者”的投资者群体的共识。在美股暴跌、全球市场对美国国债失去信心的一周里，可能有更多人加入了炒黄金的行列。但黄金作为终极避险资产的普遍认知是否准确？在当前金融动荡中，它的价值是否依旧坚挺？简单回答是：确实 ...

曲凯：今天我们请来了国内强化学习 (RL) 领域的专家吴翼，吴翼目前是清华大学交叉信息研究院助理教授，他曾经在 OpenAI 工作过，算是国内最早研究强化学习的人之一，我们今天就争取一起把 RL ...

一些您可能无法访问的结果已被隐去。