简介

24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。

基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了MLA来确保推理效率，并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。

除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。

首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。

为了提高训练效率，该研究采用了 FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案，其发展与硬件性能的提升密切相关。本研究首次在超大规模模型上成功验证了 FP8 混合精度训练框架的有效性。通过采用 FP8 计算和存储技术，显著提升了训练速度并降低了 GPU 内存占用。

在训练框架方面，研究团队开发的 DualPipe 算法实现了高效的流水线并行处理，减少了流水线停滞，并通过计算和通信并行处理的方式降低了训练过程中的通信开销。这种优化确保了即使在模型规模进一步扩大的情况下，只要维持适当的计算通信比例，就能在不同节点间实现细粒度专家分配，同时将全节点间的通信开销降至接近于零。

此外,研究团队优化了跨节点的全节点通信内核，充分利用了 InfiniBand(IB) **和 **NVLink 的带宽性能。通过精细的内存优化，使得 DeepSeek-V3 的训练无需依赖成本高昂的张量并行技术。

这些技术改进的综合运用实现了极高的训练效率。

在预训练阶段，DeepSeek-V3 使用了 14.8T 高质量且多样化的 token 进行训练。整个预训练过程表现出了出人意料的稳定性，不仅没有出现不可恢复的损失突增，也未发生需要回滚的情况。

随后，模型进行了两个阶段的上下文长度扩展：第一阶段将最大上下文长度提升至 32K，第二阶段进一步扩展至 128K。

接着，研究团队对 DeepSeek-V3 基础模型进行了后训练，包括 SFT 和 RL，以增强模型对人类偏好的理解并进一步提升其性能。在后训练阶段，通过从 DeepSeek R1 系列模型中提取推理能力，同时精确控制模型的输出质量和长度比例。

DeepSeek-V3 在全面的基准测试评估中表现突出。尽管其训练成本较低，但综合评估结果显示，DeepSeek-V3-Base 已成为当前性能最强的开源基础模型，尤其在代码和数学领域表现卓越。其对话版本不仅超越了其他开源模型，还在多个标准和开放式基准测试中展现出与领先闭源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相匹敌的性能。

值得注意的是，DeepSeek-V3 实现了极具竞争力的训练成本（详见表1），这得益于在算法、框架和硬件层面的整体优化设计。

在预训练阶段，每处理1T token 仅需 180K H800 GPU 小时，即在配备 2048 个 H800 GPU 的集群上仅需 3.7 天。因此，整个预训练阶段在不到两个月内完成，总计使用了 2664K GPU 小时。

加上上下文长度扩展所需的 119K GPU 小时和后训练阶段的 5K GPU 小时，DeepSeek-V3 的完整训练总共消耗了 2.788M GPU 小时。按照每 GPU 小时 2 美元的 H800 GPU 租用价格计算，总训练成本仅为 557.6 万美元。需要说明的是，这些成本仅包含 DeepSeek-V3 的正式训练环节，不包括前期架构研究、算法验证和数据实验等相关支出。

本研究的主要创新点包括：

架构创新

在 DeepSeek-V2 高效架构的基础上，创新性地提出了无辅助损失的负载均衡策略，有效降低了负载均衡过程对模型性能的影响。

开发并验证了多 token 预测(MTP)训练目标，证实了其对模型性能的提升作用，该技术还可用于推测解码来加速推理过程。

高效预训练

开发了 FP8 混合精度训练框架，首次在超大规模模型上验证了 FP8 训练的可行性和效果。

通过算法、框架和硬件的综合优化，突破了跨节点 MoE 训练中的通信瓶颈，实现了计算与通信的高度重叠。这种优化大幅提升了训练效率，降低了训练成本，同时支持了更大规模模型的训练而无需额外开销。

仅用 2.664M H800 GPU 小时就完成了 DeepSeek-V3 在 14.8T token 上的预训练，打造出当前最强大的开源基础模型。预训练后的其他训练阶段仅需 0.1M GPU 小时。

后训练——DeepSeek-R1 知识蒸馏

该研究提出了一种创新的知识蒸馏方法，将思维链 (CoT) 模型（特别是 DeepSeek R1 系列）的推理能力转移到标准 LLM 中，尤其是 DeepSeek-V3。这一方法成功地将 R1 的验证和反思机制整合到 DeepSeek-V3 中，显著提升了其推理能力，同时有效控制了输出的风格和长度。

核心评估成果

知识领域评估：

在教育类基准测试中，DeepSeek-V3 的表现超越了所有开源模型，在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当，显著缩小了开源与闭源模型的性能差距。
在事实性知识评测中，DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是，虽然其英语事实知识（SimpleQA）略逊于 GPT-4o 和 Claude-Sonnet-3.5，但在中文事实知识（中文 SimpleQA）方面却超越了这些模型，凸显了其在中文知识领域的特殊优势。
技术能力评估：

在数学领域，DeepSeek-V3 在所有非 CoT 模型（包括开源和闭源）中取得了最优性能。值得注意的是，在 MATH-500 等特定测试中，其表现甚至超越了 GPT-4o，充分展示了其出色的数学推理能力。
在编程领域，DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出，确立了其在该领域的领先地位。在软件工程相关任务中，尽管略低于 Claude-Sonnet-3.5，但仍大幅领先于其他模型，展示了其在各类技术评测中的综合实力。

架构

DeepSeek-V3 的基本架构具有两个核心特征：

采用 MLA 实现高效推理
使用 DeepSeekMoE 实现经济高效的训练。

此外，该研究还开发了MTP训练目标，这一创新在评估基准测试中展现出显著的性能提升。

在其他未特别说明的架构细节方面，DeepSeek-V3 延续了 DeepSeek-V2 的设计方案。

基本架构

DeepSeek-V3 的基础架构建立在 Transformer 框架之上。相比 DeepSeek-V2，本研究在 DeepSeekMoE 中创新性地引入了无辅助损失负载均衡策略，有效降低了负载均衡过程对模型性能的影响。

下图展示了 DeepSeek-V3 的基本架构，本节将简要介绍 MLA 和 DeepSeekMoE 的技术细节。

多头潜在注意力机制

DeepSeek-V3 在注意力机制方面采用了 MLA 架构。设向量维度为 \(d\)，注意力头数为 \( n_h\) ，每个头的维度为 \( d_h\) ，在特定注意力层中第 \(t\) 个 token 的注意力输入表示为 \(h_t\in \mathbb{R}^d\) 。MLA 的核心创新在于对注意力键和值进行低秩联合压缩，以降低推理过程中的键值(KV)缓存开销：

\[\begin{aligned} \boxed{\color{blue}\mathbf{c}_{t}^{K V}} & =W^{D K V} \mathbf{h}_{t}, \\ {\left[\mathbf{k}_{t, 1}^{C} ; \mathbf{k}_{t, 2}^{C} ; \ldots ; \mathbf{k}_{t, n_{h}}^{C}\right]=\mathbf{k}_{t}^{C} } & =W^{U K} \mathbf{c}_{t}^{K V}, \\ \boxed{\color{blue}\mathbf{k}_{t}^{R}} & =\operatorname{RoPE}\left(W^{K R} \mathbf{h}_{t}\right), \\ \mathbf{k}_{t, i} & =\left[\mathbf{k}_{t, i}^{C} ; \mathbf{k}_{t}^{R}\right], \\ {\left[\mathbf{v}_{t, 1}^{C} ; \mathbf{v}_{t, 2}^{C} ; \ldots ; \mathbf{v}_{t, n_{h}}^{C}\right]=\mathbf{v}_{t}^{C} } & =W^{U V} \mathbf{c}_{t}^{K V},\end{aligned}\]

其中：

\(c^{KV}_t \in \mathbb{R}^{d_c}\) 表示键和值的压缩潜在向量
\(d_c(\ll d_hn_h) \)表示 KV 压缩维度
\(W^{DKV} \in \mathbb{R}^{d_c \times d}\) 为投影变换矩阵
\(W^{UK},W^{UV} \in \mathbb{R}^{d_hn_h \times d_c}\) 分别为键和值的维度上投影变换矩阵
\(W^{KR} \in \mathbb{R}^{d^R_h \times d}\) 用于生成携带旋转位置编码(Rotary Positional Embedding, RoPE)的解耦键
\(\text{RoPE}(·)\)** **表示旋转位置编码矩阵的应用操作
\([·;·]\)表示向量连接操作

在 MLA 中，生成过程仅需缓存高亮标记的向量（ \(c^{KV}_t\) 和 \(k^R_t\) ），这种设计显著降低了 KV 缓存空间，同时保持了与标准MHA相当的性能水平。

对于注意力查询(Query)部分，模型同样采用低秩压缩技术，这种设计有效降低了训练过程中的激活值内存占用：

\[\begin{aligned}{\mathbf{c}}_{t}^{Q} &= {W}^{DQ}{\mathbf{h}}_{t} \\ \left\lbrack {{\mathbf{q}}_{t,1}^{C};{\mathbf{q}}_{t,2}^{C};\ldots ;{\mathbf{q}}_{t,{n}_{h}}^{C}}\right\rbrack = {\mathbf{q}}_{t}^{C} &= {W}^{UQ}{\mathbf{c}}_{t}^{Q}, \\\left\lbrack {{\mathbf{q}}_{t,1}^{R};{\mathbf{q}}_{t,2}^{R};\ldots ;{\mathbf{q}}_{t,{n}_{h}}^{R}}\right\rbrack = {\mathbf{q}}_{t}^{R} &= \operatorname{RoPE}\left( {{W}^{QR}{\mathbf{c}}_{t}^{Q}}\right) , \\{\mathbf{q}}_{t,i} &= \left\lbrack {{\mathbf{q}}_{t,i}^{C};{\mathbf{q}}_{t,i}^{R}}\right\rbrack ,\end{aligned}\]

其中：

\(c^Q_t \in \mathbb{R}^{d'_c}\) 表示查询的压缩潜在向量
\(d'_c(\ll d_hn_h)\)表示查询压缩维度
\(W^{DQ} \in \mathbb{R}^{d'_c \times d}\) 和 \(W^{UQ} \in \mathbb{R}^{d_hn_h \times d'_c}\) 分别为查询的维度降维和升维变换矩阵
\(W^{QR} \in \mathbb{R}^{d^R_hn_h \times d'_c}\) 用于生成携带旋转位置编码的解耦查询矩阵

最终，通过组合注意力查询( \(q_{t,i}\) )、键( \(k_{j,i}\) )和值( \(v^C_{j,i}\))，得到注意力机制的最终输出 \(U_t\) ：

\[\begin{aligned}{\mathbf{o}}_{t,i} &= \mathop{\sum }\limits_{{j = 1}}^{t}{\operatorname{Softmax}}_{j}\left( \frac{{\mathbf{q}}_{t,i}^{T}{\mathbf{k}}_{j,i}}{\sqrt{{d}_{h} + {d}_{h}^{R}}}\right) {\mathbf{v}}_{j,i}^{C},\\ {\mathbf{u}}_{t} &= {W}^{O}\left\lbrack {{\mathbf{o}}_{t,1};{\mathbf{o}}_{t,2};\ldots ;{\mathbf{o}}_{t,{n}_{h}}}\right\rbrack \end{aligned}\]

其中 \(W^O \in \mathbb{R}^{d \times d_hn_h}\) 为输出维度变换矩阵。

DeepSeekMoE 及其无辅助损失负载均衡机制

DeepSeekMoE的基础架构： 在前馈网络(Feed-Forward Networks, FFN)部分，DeepSeek-V3 采用了 DeepSeekMoE 架构。相比传统的 MoE 架构（如 GShard），DeepSeekMoE 采用了更细粒度的专家分配机制，并创新性地将部分专家设置为共享专家。假设第 \(t\) 个 token 的 FFN 输入为 \(u_t\) ，其输出 \(h'_t \) 的计算过程如下：

\[\begin{aligned}{\mathbf{h}}_{t}^{\prime } &= {\mathbf{u}}_{t} + \mathop{\sum }\limits_{{i = 1}}^{{N}_{s}}{\mathrm{{FFN}}}{i}^{\left( s\right) }\left( {\mathbf{u}}_{t}\right) + \mathop{\sum }\limits_{{i = 1}}^{{N}{r}}{g}_{i,t}{\mathrm{{FFN}}}_{i}^{\left( r\right) }\left( {\mathbf{u}}_{t}\right) \\ {g}_{i,t} &= \frac{{g}_{i,t}^{\prime }}{\mathop{\sum }\limits_{{j = 1}}^{{N}_{r}}{g}_{j,t}^{\prime }} \\ {g}_{i,t}^{\prime } &= \left\{ \begin{array}{ll} {s}_{i,t}, & {s}_{i,t} \in \operatorname{Topk}\left( {\left\{ {{s}_{j,t} | 1 \leq j \leq {N}_{r}}\right\} ,{K}_{r}}\right) , \\ 0, & \text{ otherwise,} \end{array}\right. \\ {s}_{i,t} &= \operatorname{Sigmoid}\left( {{\mathbf{u}}_{t}{}^{T}{\mathbf{e}}_{i}}\right) \end{aligned}\]

其中：

\(N_s\) 和 \(N_r\) 分别表示共享专家和路由专家数量
\(K_r\) 表示被激活的路由专家数量
\(s_{i,t}\) 表示 token 与专家间的相关度
\(e_i\) 代表第 \(i\) 个路由专家的特征向量

无辅助损失负载均衡： 在MoE架构中，不平衡的专家负载会导致两个主要问题：

路由崩溃：某些专家被过度使用，而其他专家几乎不被使用
计算效率低下：在专家并行场景中，负载不均衡会导致GPU利用率不高

传统的解决方案通常依赖辅助损失来避免负载不平衡，但这种方法存在一个明显缺点：过大的辅助损失会损害模型的性能。

具体而言，研究团队为每个专家引入了一个偏置项 \(b_i\) ，并将其添加到相应的亲和度分数 \(s_{i,t}\) 中以确定 top-K 路由：

\[{g}_{i,t}^{\prime } = \left\{ \begin{array}{ll} {s}_{i,t}, & {s}_{i,t} + {b}_{i} \in \operatorname{Topk}\left( {\left\{ {{s}_{j,t} + {b}_{j} \mid 1 \leq j \leq {N}_{r}}\right\} ,{K}_{r}}\right) , \\ 0, & \text{ otherwise. } \end{array}\right.\]

在这种设计中，偏置项仅用于路由选择，而门控值（用于与 FFN 输出相乘）仍基于原始相关度分数 \(s_{i,t}\) 计算。训练过程中，系统会实时监控每个训练步骤中所有批次的专家负载分布。在每个步骤结束时，对于负载过高的专家，其偏置项会减少 \(γ \)；对于负载不足的专家，其偏置项会增加 \(γ\) ，其中 \(γ\) 是控制偏置更新速率的超参数。

通过这种动态调整机制，DeepSeek-V3 在训练过程中实现了专家负载的均衡分布，其性能优于传统仅依靠辅助损失来实现负载均衡的模型。

Token 预测机制 (Multi-Token Prediction, MTP)

DeepSeek-V3 创新性地采用了 MTP 目标，将预测范围扩展到每个位置的多个后续 token。

这种设计具有双重优势：

首先，MTP 目标通过增加训练信号的密度可能提高数据利用效率；
其次，它使模型能够提前规划表征，从而更准确地预测后续 token。

DeepSeek-V3的MTP实现与之前研究有明显区别：

传统方法：使用独立输出头并行预测D个额外token
DeepSeek-V3方法：采用顺序预测方式，并在每个预测层级保持完整的因果关系链

MTP 模块架构： 具体实现中，模型采用 \(D\) 个串联模块来预测 \(D\) 个额外的 token。每个 MTP 模块（第\(k\)个）包含以下组件：

共享向量层 \(Emb(·)\)
共享输出头 \(OutHead(·)\)
Transformer 处理单元 \(TRM(·)\)
维度映射矩阵 \(M_k \in \mathbb{R}^{d \times 2d}\)

对于输入序列中的第 \(i\)个token \(t_i\)，在第\(k\)层预测时的处理流程：

特征组合：
1. 模型首先将两个向量进行组合：
  1. 该 token 在第 \(k−1\)层的特征表示 \(h^{k-1}_i \in \mathbb{R}^d\)
  2. 第 \(i+k\) 个 token 的向量 \(Emb(t_{i+k}) \in \mathbb{R}^d\)
2. 通过线性变换进行融合：

\[{\mathbf{h}}_{i}^{\prime k} = {M}_{k}\left\lbrack {\operatorname{RMSNorm}\left( {\mathbf{h}}_{i}^{k - 1}\right) ;\operatorname{RMSNorm}\left( {\operatorname{Emb}\left( {t}_{i + k}\right) }\right) }\right\rbrack ,\]

其中\([·;·]\)表示向量拼接操作。需要特别说明的是，在\( k=1 \)时，\(h^{k-1}_i \)代表主模型输出的特征表示。另外每个 MTP 模块都与主模型共享同一个向量层

Transformer处理：

经过组合的特征向量 \(h'^{k}_i\) 随后输入到第 \(k\) 层的 Transformer 处理单元，生成该层的输出特征表示\( h^{k}_i \)：

\[{\mathbf{h}}_{1 : T - k}^{k} = {\operatorname{TRM}}_{k}\left( {\mathbf{h}}_{1 : T - k}^{\prime k}\right) \]

其中 \(T\) 代表输入序列的长度，\( i:j \) 表示包含两端的切片操作。

概率分布计算：

将 \(h^k_i \)输入到共享输出层，计算第\( k\) 个预测token的概率分布：

\[{P}_{i + k + 1}^{k} = \operatorname{OutHead}\left( {\mathbf{h}}_{i}^{k}\right) .\]

输出层 OutHead(·) 首先通过线性变换将特征表示转换为 logits，然后使用 Softmax(·) 函数计算第 \(k\) 个预测 token 的概率分布。与向量层类似，每个 MTP 模块的输出层也与主模型共享。这种保持预测因果链的设计思路与 EAGLE 相近，但两者目标不同：EAGLE 主要用于推测解码，而本研究中的 MTP 主要用于优化训练效果。

MTP 训练目标优化：系统为每个预测层级计算交叉熵损失 \(\mathcal{L}^k_{MTP}\) ：

\[{\mathcal{L}}_{\mathrm{{MTP}}}^{k} = \operatorname{CrossEntropy}\left( {{P}_{2 + k : T + 1}^{k},{t}_{2 + k : T + 1}}\right) = - \frac{1}{T}\mathop{\sum }\limits_{{i = 2 + k}}^{{T + 1}}\log {P}_{i}^{k}\left\lbrack {t}_{i}\right\rbrack ,\]

其中，\(T\) 表示输入序列长度，\(t_i\) 代表第 \(i \)个位置的目标 token， \(^k_i[t_i]\) 表示第 \(k\) 个 MTP 模块对 \(t_i\) 的预测概率。最终，通过计算所有层级 MTP 损失的平均值并乘以权重系数 \(λ\) ，得到总体 MTP 损失 \(L_{MTP}\) ，作为 DeepSeek-V3 的补充训练目标：

\[L_{MTP} = \frac{\lambda}{D} \sum_{k=1}^{D} L^k_{MTP}\]

推理阶段的MTP：应用 MTP 机制的主要目的是提升基础模型的性能，因此在实际推理阶段可以不使用 MTP 模块，基础模型能够独立完成正常推理。此外，这些 MTP 模块也可以被重新配置用于推测解码，从而降低模型生成的时间延迟。

基础设施

略

预训练

数据构建

相比 DeepSeek-V2，本次预训练语料库在提升数学和编程样本占比的同时，扩大了英语和中文之外的多语言覆盖范围。

数据处理流程也经过改进，在保持语料多样性的同时降低了数据冗余。系统采用文档打包方法维持数据完整性，但训练过程中不使用跨样本注意力掩码。最终训练语料库包含 14.8T 经 tokenizer 处理的高质量多样化 token。

在 DeepSeekCoder-V2 的训练中发现，填充中间（FIM）策略在保持下一个 token 预测能力的同时，还能让模型基于上下文准确预测中间文本。因此 DeepSeek-V3 的预训练也采用了这一策略。具体实现上，使用前缀-后缀-中间（PSM）框架构建如下数据结构：

~~<|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|>。~~

该结构在预打包阶段应用于文档级别，FIM 策略的应用比率为 0.1，与 PSM 框架保持一致。

DeepSeek-V3 采用词表大小为 128K 的字节级 BPE tokenizer 。为提高多语言压缩效率，对预分词器和训练数据进行了相应调整。与 DeepSeek-V2 相比，新的预分词器引入了标点符号和换行符的组合 token。然而这种设计在处理无终端换行符的多行提示词时可能产生 token 边界偏差，尤其是在少样本评估场景。为此，训练时对一定比例的组合 token 进行随机分割，使模型接触更多特殊情况来减轻这种偏差。

长上下文扩展

DeepSeek-V3 采用与 DeepSeek-V2 相似的方法实现长上下文处理能力。预训练完成后，系统使用 YaRN 进行上下文扩展，通过两个各包含 1000 步的额外训练阶段，将上下文窗口从 4K 依次扩展至 32K 和 128K。系统沿用了 DeepSeek-V2 的 YaRN 配置，仅将其应用于解耦的共享键 ktR 。两个阶段采用相同的超参数设置：尺度 \(s=40\) ， \(α=1\) ， \(β=32\) ，缩放因子 \(\sqrt{t}=0.1ln s+1\)。

第一阶段将序列长度设为 32K，批量大小为 1920。第二阶段将序列长度提升至 128K，相应地将批量大小调整为 480。两个阶段均采用与预训练末期相同的学习率 7.3×10−6 。

经过这两阶段的扩展训练，DeepSeek-V3 成功实现了对最长 128K 输入序列的高效处理。如图8所示，在完成监督微调后，模型在"大海捞针"(NIAH)测试中表现出色，在整个 128K 的上下文范围内均保持稳定的性能表现。

后训练

监督微调（SFT）

研究构建了包含 150 万个多领域实例的指令调优数据集，针对不同领域特点采用了相应的数据创建方法。

推理数据处理： 在数学、代码竞赛和逻辑谜题等推理类任务中，系统采用内部 DeepSeek-R1 模型生成数据。虽然 R1 生成的数据具有较高的准确性，但同时存在推理冗长、格式不规范和输出过长等问题。因此，研究的核心目标是在保持 R1 模型高准确性的同时，实现输出的清晰简洁。

具体实施方法如下：首先针对特定领域（如代码、数学或通用推理）开发专家模型，采用 SFT 和 RL 相结合的训练流程。该专家模型随后作为最终模型的数据生成器。

对每个训练实例，系统生成两类 SFT 样本：一类是问题与原始答案的直接配对，另一类则引入系统提示词，将其与问题和 R1 答案组合。系统提示经过优化设计，包含了引导模型生成具有自我反思和验证机制响应的指令。

在RL阶段，模型通过高温采样生成响应，即使在没有明确系统提示的情况下，也能有效融合 R1 生成数据和原始数据的特征。经过数百轮RL迭代，中间模型成功整合了 R1 的响应模式，显著提升了整体性能。随后，研究采用拒绝采样方法，利用专家模型作为数据源，为最终模型筛选高质量的 SFT 数据。这种方法既保持了 DeepSeek-R1 的高准确性，又确保了输出的简洁性和有效性。

非推理数据处理： 对于创意写作、角色扮演和基础问答等非推理任务，系统利用 DeepSeek-V2.5 生成响应，并通过人工标注确保数据质量。

SFT 训练配置： 研究对 DeepSeek-V3-Base 进行了两轮 SFT 数据集训练，采用余弦衰减的学习率调度策略，初始学习率为 5×10−6，逐步降低至 1×10−6。训练过程中采用多样本序列打包技术，同时通过样本掩码机制确保各样本间的独立性。

强化学习（RL）

奖励模型设计

在强化学习过程中，系统同时采用规则型和模型型两种奖励模型(Reward Model, RM)。

规则型奖励模型：对于可通过明确规则验证的任务，系统采用规则型奖励机制进行反馈评估。例如，在处理具有确定性答案的数学问题时，要求模型在特定格式（如方框内）给出最终答案，从而可以通过规则进行自动验证。同样，在处理 LeetCode 编程题时，系统可通过编译器执行测试用例生成客观反馈。这种基于规则的验证方法具有较高的可靠性，能有效防止模型的投机行为。

模型型奖励模型：对于具有标准答案但形式灵活的问题，系统使用奖励模型评估输出与标准答案的匹配程度。而对于创意写作等缺乏标准答案的任务，奖励模型则基于问题和回答的整体性给出评估反馈。该奖励模型基于 DeepSeek-V3 的 SFT checkpoint 进行训练。为增强模型可靠性，系统构建的偏好数据不仅包含最终评分，还包含推导评分的完整推理过程，这种设计有效降低了特定任务中的奖励扭曲风险。

GRPO：采用与 DeepSeek-V2 相似的GRPO方法。

讨论

DeepSeek-R1 知识蒸馏分析

研究基于 DeepSeek-V2.5 模型评估了 DeepSeek-R1 知识蒸馏的效果。对比实验中，基准模型使用短链式思维数据训练，而对照组使用专家检查点生成的数据。

下表的结果显示，蒸馏数据在 LiveCodeBench 和 MATH-500 基准测试中都带来了明显提升。

研究发现了一个重要的平衡点：知识蒸馏能提高性能，但同时会显著增加输出长度。为此，DeepSeek-V3 在蒸馏过程中采用了经过优化的参数配置，以平衡模型准确性和计算效率。

研究表明，从推理模型进行知识蒸馏是提升模型后期性能的有效方法。当前研究虽然主要关注数学和编程领域的知识蒸馏，但这种方法在其他领域也展现出广阔前景。其在特定领域的成功表明，长链式思维蒸馏技术有望提升模型在其他需要复杂推理的认知任务中的表现。未来研究将继续探索该方法在不同领域的应用。

DeepSeek-V3 使用了一种特殊的知识蒸馏方法，从 DeepSeek-R1 模型中提炼推理能力。与传统的知识蒸馏不同，DeepSeek-V3 的知识蒸馏：

重点在于推理模式： 不是简单地模仿 R1 的输出，而是将 R1 的反思和验证模式融入到 DeepSeek-V3 中。
生成多样化的 SFT 数据： 通过让 R1 生成带有反思和验证的响应，为 DeepSeek-V3 提供更高质量的 SFT 数据。
在强化学习中运用： 在 RL 阶段，通过高温度采样生成融合了 R1 和原始数据的响应，使模型学习 R1 的推理模式。

自我奖励机制

奖励机制是强化学习中的核心要素，决定着优化方向。在编程或数学等可通过外部工具直接验证的领域，强化学习展现出显著效果。但在更一般场景中，直接通过规则编码构建反馈机制并不可行。因此，在开发 DeepSeek-V3 时，针对这类广泛场景，采用了宪制 AI 方法（constitutional AI approach），使用模型自身的投票评估结果作为反馈。这种方法在对齐效果上取得显著成效，大幅提升了模型在主观评估中的表现。

通过引入额外的宪制规则，DeepSeek-V3 能够向预期方向优化。研究认为，将补充信息与语言模型结合作为反馈来源的范式具有重要意义。大语言模型能够将各类场景中的非结构化信息转化为有效奖励信号，促进模型的持续优化。除自我奖励外，研究团队也在探索其他通用且可扩展的奖励方法，以持续提升模型在通用场景中的能力。

MTP性能

DeepSeek-V3 通过 MTP 技术实现同时预测两个 token，结合推测解码框架显著提升了解码效率。关键问题是第二个预测 token 的可用性，评估显示在不同生成任务中，第二个 token 的接受率稳定保持在 85%-90%，表现出较高的可靠性。

这种高接受率使 DeepSeek-V3 的解码速度提升至原来的 1.8 倍（以每秒生成 token 数衡量）。

结论、局限性和未来发展方向

本研究介绍了 DeepSeek-V3 大规模混合专家语言模型，该模型总参数量达到 671B，每次处理激活 37B 参数，训练数据规模达 14.8T token。

模型在延续 MLA 和 DeepSeekMoE 架构优势的基础上，创新性地提出了无辅助损失负载均衡策略，并引入多 token 预测训练目标以提升性能。

通过采用 FP8 训练技术和精细的工程优化，模型实现了高效的训练过程。在后训练阶段，成功将 DeepSeek-R1 系列模型的推理能力迁移至新模型。

综合评估显示，DeepSeek-V3 不仅成为当前性能最强的开源模型，还达到了与 GPT-4o 和 Claude-3.5-Sonnet 等顶级闭源模型相当的水平。同时，模型维持了极具竞争力的训练成本，完整训练过程（包括预训练、上下文长度扩展和后训练）仅需 2.788M H800 GPU 小时。

尽管模型在性能和训练效率上表现出色，但仍存在一些局限性，特别是在部署方面：首先，为保证推理效率，模型的最小部署单元规模较大，可能超出小型团队的资源能力；其次，虽然当前部署方案使模型的端到端生成速度比上一代提升了两倍以上，但仍有优化空间。这些局限性有望随着硬件技术的进步得到自然解决。

秉持长期发展理念，DeepSeek 将继续坚持开源路线，稳步推进通用人工智能的研究。未来研究将重点关注以下方向：

持续优化模型架构，提升训练和推理效率，探索支持无限上下文长度的高效方案。同时突破 Transformer 架构的固有局限，拓展模型的建模能力边界。
深化训练数据的质量提升和规模扩展，探索新的训练信号来源，实现数据在多个维度的全面扩展。
加强模型的深层推理能力，通过扩展推理的广度和深度，提升模型的智能水平和问题解决能力。
建立更全面的多维度评估体系，避免过度优化特定基准测试集而产生的能力误判，确保模型评估的科学性和全面性。

Reference

【LLM技术报告】DeepSeek-V3技术报告（全文）

#

!

DeepSeek-v3

简介