本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixture of Experts, MOE) 机制,在模型 ...
在查看最新发布的LLMs时,你可能会在标题中看到“MoE”这个词。那么,这个“MoE”到底代表什么?为什么现在有这么多 LLM 都在使用它呢? 本文仅做记录,图挺形象的。 在查看最新发布的LLMs时,你可能会在标题中看到“MoE”这个词。那么,这个“MoE”到底代表 ...
DeepSeek的技术路线解析 DeepSeek的技术路线以其创新性和实用性著称。其核心技术包括混合专家架构(MoE)、多头潜在注意力(MLA)、多词元预测训练(MTP)以及FP8混合精度训练等。这些技术不仅提升了模型的性能,还显著降低了训练和推理成本,使得DeepSeek的模型 ...