Rl - 搜索 News

腾讯网1 天

Logic-RL: 小模型也能强推理，通过基于规则的强化学习提升大语言模型 ...

研究团队还分析了模型规模与训练效率之间的关系。结果表明，较大模型通常需要更少的训练步骤即可达到相同的性能水平，但较小模型通过更长时间的训练也能达到相近的性能上限。这种"规模-训练时间"权衡为资源受限环境下的模型选择提供了有价值的指导。

腾讯网15 小时

平陆运河桥梁G325广南线钦江大桥拱肋最大组合节段成功吊装

2月24日，由中铁上海工程局集团五公司承建的平陆运河桥梁G325广南线钦江大桥拱肋最大组合节段成功吊装，标志着项目建设取得重要进展，进入主桥施工阶段。

11 小时

DeepSeek开源第四弹“教”优化，梁文锋参与研发

2月27日，DeepSeek开源周（OpenSourceWeek）第四弹来了，DeepSeek在X上宣布这次开源的是三项优化并行策略，并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术，通过这些阐述可以清晰了解团队是如 ...

8 小时

人工智能赋能产业新变革

随着人工智能（AI）技术的迅猛发展，全球产业格局正经历一场前所未有的变革。从制造业到医疗健康，从金融到教育，AI技术正在深度赋能各行各业，推动生产效率提升、商业模式创新以及用户体验优化。在这场变革中，AI不仅是技术工具，更是推动产业升级和经济高质量发 ...

来自MSN4 小时

量化大佬王琛：继梁文锋后，投资人争相拜访的AI大模型新星

在投资界内，一场围绕着AI大模型的狂热追逐正在悄然上演。一位不愿透露姓名的投资人透露，他近期频繁奔波于杭州与北京之间，目的只为能够一睹那些AI领域的重量级人物。 “真是让人头疼，这些做量化的家伙，简直是把大模型的市场搅得天翻地覆！”他感叹道。他所指的，正是近期在AI界掀起波澜的几家量化投资公司。

1 小时

JDM的280匹君子协定：是真自律还是行业默契？

随着时间的推移，这一协定逐渐被打破。2004年，本田推出了新款Legend（在美国以讴歌RL销售），其搭载的3.5升V6发动机在日本市场的功率达到了300马力，这标志着JDM君子协定的正式瓦解。此后，日本汽车制造商开始宣称其车型的真实性能，推出了一系 ...

11 小时

DeepSeek开源第四弹：革新AI模型优化策略，梁文锋亲自参与

2025年2月27日，DeepSeek在其开源周活动中发布了重磅消息，公开了三项针对其V3和R1模型的并行计算优化策略。这一系列优化措施的推出，标志着DeepSeek在深度学习领域的进一步突破，尤其是在人工智能基础设施（AI ...

15 小时

“智视双擎、能思善辩”，商汤方舟+卧龙DeepSeek一体机，打造城市 ...

在AI大模型技术加速落地的背景下，商汤科技方舟多模态新智平台（SenseFoundryVL）正式接入DeepSeek深度思考引擎，推出多模态感知+深度思考的“智视”双引擎组合，加速公共安全、社会治理等行业智能体的应用升级，为公共服务领域提供灵活机动、稳定可靠的长效支撑。

1 天

如何预期DeepSeek传言中的R2新模型

但 DeepSeek要做的，就是在别人继续闭源的时候，继续开源。r2应该对标的是o3完整版，而V4至少应该对标GPT-4.5，基于V4+RL的模型，应该对标是未来的所谓“GPT-5” 。因此合理预期应该是V4可能会加入多模态能力，但r系列依然是推理模型。且这个过程中，所有的“原料”全部开源，不仅原料开源，按照这次代码五连发，连制造原材料的 “配方”都直接开源。

9 小时

华广瑞特：以“数”为媒开启“云”上管理血糖新模式

华广瑞特：以“数”为媒开启“云”上管理血糖新模式,方舟,商汤,华广瑞特 ...

来自MSN18 小时

如何评价阿里 Qwen 新发布的推理模型 QwQ-Max-Preview，以及后续的开源 ...

基本上可视为阿里版的R1，响应的行为和R1十分类似，R1答不对的QwQ也答不对。用五道题测了一遍新版QwQ，五题全错，表现和R1类似。（好吧，我只跑了一遍，看评论区又跑了几次，前两题QwQ正确率明显高于R1）注：样本5是针对o3 ...

6 小时on MSN

量化大模型新秀王琛崛起，投资人争相打听其背后故事

九坤投资的创始人王琛，这位毕业于清华数学物理专业的量化界大佬，也悄然成为了投资人们关注的新焦点。不同于梁文锋的浙大背景，王琛的清华出身似乎让大模型领域又增添了几分“根红苗正”的色彩。据悉，王琛曾在华尔街对冲基金千禧年任职，回国后与同事姚齐聪共同创立了九坤投资，致力于打造中国的国际化量化投资机构。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果