近日,阶跃星辰研究团队通过大规模实证探索,耗费了近 100 万 NVIDIA H800 GPU 小时(约百万美元),从头训练了 3,700 个不同规模,共计训了 100 万亿个 token,揭示了 LLM ...
在长视频内容检索的研究领域中,用户常面临时间线导航效率低下的困境。传统的视频检索方法采用逐帧分析的线性处理策略,如同逐帧查字典,效率低下且泛化能力差。而现有的多模态大模型,虽然泛化能力更强,但是效果仍然差强人意。
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” ...
2025年3月13日,华西证券在杭州召开了一场以“科技突围,洞见AI新纪元”为主题的春季投资策略会。会议吸引了来自各行各业的专家,探讨人工智能、大数据、新能源等前沿科技对经济增长的深刻影响。会议以科技主题鲜明的形式,展示了华西证券在投研能力建设方面的 ...
作者 | PPIO 派欧云推理加速团队DeepSeek MoE 架构采用跨节点专家并行(EP)架构,当 DeepSeek MoE 以 EP320 架构在解码阶段实现惊人的批处理规模时,整个 AI ...
对于这个问题,其实有不少专业文章都做过解释,不过大家未必会想去看万字长文,也对枯燥的学术概念没啥兴趣。 所以小雷这次打算用通俗易懂的方式,向大家解释一下DeepSeek在AI模型的训练和设计中,到底有哪些让人眼前一亮的创新。
趋境科技成立于2023年底,由真知创投创始人任旭阳和清华大学计算机科学与技术系教授武永卫联合发起。公司核心管理团队包括CEO艾智远、首席战略官陈超等,均出自武永卫教授门下。
在 vast的训练场地上,阳光透过迷彩服的缝隙洒下斑驳的光影。战士们在严格的训练中挥洒汗水,他们的 every step都凝结着青春的痕迹。训练场上,新兵们笨拙地跌倒,却又 quickly从地上爬起, repeat同一个动作无数遍。这看似 Primitive的训练场景,却暗含着军人最本真的状态。 One of the most harrowing moments in the training o ...
什么值得买社区频道 on MSN5 天
独特算法大比拼!DeepSeek胜在哪里?
在人工智能领域,DeepSeek凭借其独特的算法和技术创新,迅速成为行业焦点。内部的算法架构和处理机制,相比较其他竞争对手,展现出显著的优势和魅力。 DeepSeek采用了混合专家架构和多头潜在注意力(Multi-head Latent ...
DeepSeek近日宣布启动“开源周”活动,计划逐步公开五个重要的代码库。继此前已发布的FlashMLA和DeepEP之后,DeepSeek再次推出开源项目——DeepGEMM。 DeepGEMM是一款专注于dense和MoE(混合专家)通用矩阵乘法(GEMM)的高效FP8 GEMM库,专为V3/R1的训练和推理任务设计。据官方介绍,在Hopper ...
DeepSeek开源第三弹:驱动V3/R1的代码库DeepGEMM,deepseek,代码,deepgemm,密集型,神经网络 ...