a batch - 搜索 News

2 天

官方详解 DeepSeek-V3 / R1 推理系统：优化目标是更大吞吐、更低延迟

由于 DeepSeek-V3 / R1 的专家数量众多，并且每层 256 个专家中仅激活其中 8 个。模型的高度稀疏性决定了 DeepSeek 必须采用很大的 overall batch size，才能给每个专家提供足够的 expert batch size，从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行（Expert Parallelism / EP）。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点