Ahamoment - 搜索 News

4 天

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。。

9 天

《2024中国低代码平台市场现状与发展趋势研究报告》发布：“基座型 ...

《2024中国低代码平台市场现状与发展趋势研究报告》发布：“基座型”低代码平台，引领企业关键业务系统建设迈向新阶段,代码 ...

10 天

当我问DeepSeek如何选购百吋大屏，答案竟出奇一致

自从DeepSeek全球爆火以来，网上掀起了一股“向DeepSeek提问”的热潮，有人问职场规划，有人问情感困惑，还有人问它：如果要买一台100吋大屏电视，怎么选才不踩坑？没想到的是连续三次追问后，AI竟给出惊人一致的答案 ...

10 天

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

其中，基于 GRPO（ Group Relative Policy Optimization）强化学习方案尤其受到关注。业界先后开源了多个基于 GRPO 算法的 R1-zero ...

12 天

从PPO到GRPO，DeepSeek-R1做对了什么？

2、DeepSeek-R1 的强化学习方案中，其亮点之一在于通过 GRPO 算法取代了 RLHF 常用的 PPO，通过尽可能减少人类标注数据，设计纯 RL 的环境，用精心设计的奖励机制来训练模型自己学会推理。

搜狐15 天

0.5B小模型逆袭！不到50元，「X-R1」让每个人都能复现Aha Moment

以加快Scaling Post-Training的发展进程。受到 DeepSeek-R1和 open-r1的启发，为了降低 R1 的复现门槛，我们用最低的成本<50元在 0.5B 的预训练模型上复现了 R1-Zero 的“Aha Moment”（顿悟时刻）💡 项目的代码基础为 open-r1，由于官方例子需要 8x80G显卡，我们探索了一条更易 ...

来自MSN19 天

DeepSeek的华丽文风是怎样炼成的？

《生成式人工智能》作者、人工智能商业化专家丁磊博士，特意提到了DeepSeek R1模型中所展现的“aha moment”顿悟时刻，即模型学会了反思，“这证明了其不断增长的推理能力，也说明了强化学习可以带来复杂甚至意想不到的结果。” 无论是对风格控制颗粒度的 ...

51CTO24 天

DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新

DeepSeek-R1 采用 6710 亿参数的专家混合架构（MoE），但训练成本远低于 OpenAI 和 Meta 的同类模型。人工智能在过去十年中的发展令人惊叹。其中，2017 年 Google 发布的“Attention Is All You Need”论文奠定了神经网络架构的重要基础，推动了大规模语言模型（LLM）的突破 ...

搜狐27 天

重现Deepseek R1 「Aha Moment」的完整教程来了！

DeepSeek r1 模型惊艳亮相后，其创新及模型实力获得了众多称赞和好评，但同时也因一些数据问题被质疑其涉嫌抄袭OpenAI 模型。平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果