deepseek models - 搜索 News

11 小时

零一万物这次跳出来，说自己能搞定这些难题，推出了一个“万智企业大模型一站式平台”，专门帮企业定制 DeepSeek 模型。这就像给企业配了个 AI 领域的“管家”，负责把 DeepSeek 模型“喂”好、“教”好，让它真正能帮企业干活。

2 天

👋宝子们，2025年开年，AI大模型圈那可是炸开了锅！DeepSeek以远低于行业水平的550万美元训练成本和超强的性能表现，直接搅得行业风云变幻。紧接着2月，Claude3.7Sonnet又凭借数千万美元的训练成本和刷新SOTA的扩展思考模式，再 ...

欢迎关注下方公众号阿宝1990，本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。DeepSeek ...

1 天

AsianFin -- 01.AI, the AI unicorn founded by renowned tech entrepreneur Kai-Fu Lee, announced on Monday the launch of its ...

谷歌本次发布的Gemma 3有四个版本，最小的版本有10亿个参数，最大的版本有270亿个参数——但这也算是一个相当“瘦身”的AI大模型了。谷歌公司称，Gemma 3是该公司迄今为止开发的“最先进、最好用而且开发得最负责的一款开源大模型。” ...

随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

6 天

从直觉来看，DeepSeek的确大幅提升了AI技术的效率，降低了AI模型训练与部署的成本——市场对此的第一反应是AI应用层面的效率突破，令底层算力供给不再那么重要，此前GPU、AI芯片将在全球范围内飙升的预言似乎就不再成立了。加上中美贸易摩擦的持续， ...

12 天

相信关注大模型领域的朋友们都知道，模型参数量的大小往往与性能成正比。但这次，Qwen 团队却用 320亿参数的 QwQ-32B，硬刚拥有 6710亿参数的 ...

14 天

这家平台表示，正如每个人都有独特的指纹一样，人工智能也有自己独特的、可识别的特征。比如 DeepSeek 的文风就有一股强烈的「DS 味」：意象堆得非常满，每句话都有通感、隐喻和互文。和其他人的文字放在一起，我们很容易看出哪段话好像背后必有 DeepSeek 指点。

2025-03-06 15:19发布于北京新智元官方账号【新智元导读】仅用32B，就击败o1-mini追平671B满血版DeepSeek-R1！阿里深夜重磅发布的QwQ-32B，再次让全球开发者陷入狂欢：消费级显卡就能跑，还一下子干到推理模型天花板 ...

知乎专栏 on MSN9 天

机器之心报道，编辑：Panda。 DeepSeek-R1 非常热门，而在其公布的训练配方中，GRPO（Group Relative Policy Optimization）非常关键，是 DeepSeek-R1 核心的强化学习算法。 PPO 与 ...

作者｜王兆洋邮箱｜[email protected]如果根据AI自媒体们的标题来看，昨天全世界AI圈应该无人存活，因为他们又被“炸”了。这次扔炸弹的是一个叫做“Manus”的产品。它是一个中国团队开发的只通过一部全英文的宣传片发布的， ...

当前正在显示可能无法访问的结果。