Deepseek MLA - 搜索 News

3 天

DeepSeek，这家成立不到两年的科技公司，在过去两个月内，因推出的V3及R1大模型具有低成本、高性能以及完全开源的优势，成为风靡全球的大模型产品。这一条“鲶鱼”彻底搅动了国内大模型的“内卷”，推动中国AI产业向前迈出了一大步。

5 天

DeepSeek统计了2月27日24点到2月28日24点，计算出其每日总成本为 87072美元（折合人民币约63万元）。如果所有Token都以DeepSeek-R1的价格计费，每日总收入将为 562027美元（折合人民币约409万元），成本利润率达到 545% 。也就是说，理论上DeepSeek每日净赚 474955美元（折合人民币约346万元）。

2 天

DeepSeek小版本升级，跃居全球AI应用新高度

中国北京时间2025年3月28日——在人工智能领域，一场静悄悄的技术革命正在发生。中国人工智能企业DeepSeek近日宣布，其V3模型于3月24日完成了小版本升级（版本号V3-0324），此次更新聚焦于性能优化与功能改进，却意外地在全球AI应用领域掀起了波澜。尽管并非市场此前期待的大版本迭代，但DeepSeek ...

新浪网23 天

DeepSeek的MLA，任意大模型都能轻松迁移了

本文聚焦如何将预训练的基于 MHA/GQA 的大语言模型高效迁移到 DeepSeek 提出的经济推理架构 —— 多头潜在注意力（MLA）。 MHA 与 MLA 在多处存在差异 ...

腾讯网4 天

又是炸裂一天：国内DeepSeek正在加速狂飙，美国人这次有点坐不住了

"不可能的已经实现，不可思议的正在发生。"当一家名不见经传的中国初创公司让美国科技股蒸发万亿美元时，全球AI格局被彻底颠覆。

腾讯网4 天

一文了解DeepSeek及应用场景

阿里妹导读本文详细介绍了DeepSeek及其应用场景，涵盖了大模型的发展历程、基本原理和分类（通用与推理模型）。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点，以及其技术路线（如MoE、MLA架构），并与竞品进行了对比。此外，还 ...

4 天

DeepSeek V3再次震撼硅谷

DeepSeek新模型的改变对于业内来说也具有重大意义，一方面其大大降低了大模型的能耗及计算成本，进一步动摇了华尔街对于顶级模型基础设施的投资规模假设；另一方面，中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展，不断缩短其与世界顶尖对手的 ...

5 天

DeepSeek-V3在Mac Studio上以每秒20个token的速度运行，这对OpenAI来说是一场 ...

DeepSeek悄然发布了一款新的大型语言模型，已在AI行业掀起波澜——不仅因为其能力出众，更因其部署方式独特。这款名为DeepSeek-V3-0324的641GB模型出现在AI仓库Hugging Face上，几乎没有进行任何宣传，延续了该公司一贯低调却影响深远的产品发布风格。

中华网新闻频道10 天

DeepSeek的“修炼”之路还要闯几关挑战与创新并存

DeepSeek的崛起之路充满了挑战与机遇。曾是修仙爽文、微短剧里让人上头却略显荒诞的剧情，如今在现实世界中上演。DeepSeek在全球范围内引起了轰动，同时也伴随着一系列波折，包括同行的竞争和跨界的争议。

金融界财经 on MSN4 天

京东云全面适配最新版DeepSeek模型，推理速度提升50%

近日，DeepSeek发布了模型更新——DeepSeek-V3-0324，此次升级不仅延续了DeepSeek系列“低成本、高性能”的基因，更凭借 MLA（多头潜在注意力）和 ...

5 天

王炸！DeepSeek-V3-0324悄然发布，免费商用，消费级电脑也能跑！

腾讯宣布，元宝电脑版现已上线，支持Windows和MacOS双系统。元宝电脑版同时支持混元和DeepSeek两大模型，打开腾讯元宝并进入对话界面，即可免费使用DeepSeek-R1满血版模型。大家在移动端、电脑端、网页端，均可以使用腾讯元宝。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果