知识库 -

Kimi k1.5—CoT强化训练

Large Model

2025-04-02

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

DeepSeek 系列

Large Model

2025-03-26

🔖 https://www.deepseek.com/ DeepSeek LLM 代码地址：背景量化巨头幻方探索AGI（通用人工智能）新组织“深度求索”在成立半年后，发布的第一代大模型，免费商用，完全开源。作为一家隐形的AI巨头，幻方拥有1万枚英伟达A100芯片，有手撸的HAILLM训练框架HAILLM：高效且轻量的大模型训练工具。概述 DeepSeek LLMs，这是一系列在2万亿标记的英语和中文大型数据集上从头开始训练的开源模型在本文中，深入解释了超参数选择、Scaling Laws以及做过的各种微调尝试。校准了先前工作中的Scaling Laws，并提出了新的最优模型/数据扩展缩放分配策略。此外，还提出了一种方法，使用给定的计算预算来预测近似的batchsize和learnin...

#LLM #Large Model

READ

DeepSeek v3

Large Model

2025-03-16

引言 24年12月,研究团队开发了 DeepSeekV3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeekV3 采用了MLA来确保推理效率，并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeekV2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeekV3 首创了无辅助损失的负载均衡策略(auxiliarylossfree strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另...

#LLM #Large Model

READ

InternVL 2.5

Large Model

2025-01-21

简介 🔖 https://internvl.github.io/blog/20241205InternVL2.5/ 上海人工智能实验室推出的InternVL系列在24年12月推出了InternVL2.5，模型整体上性能看起来不错。模型结构模型结构还是继承自InternVL1.5 没什么大的改动。整个模型包含几个部分较大的视觉encoder：InternViT300M/InternViT6B MLP projector LLM 训练策略阶段训练训练分为3个stage： Stage 1: MLP Warmup：只训练MLP Projector，对齐语言和视觉特征。采用NTP Loss（Next Token Prediction Loss), 并采用了一个相对较大的学习率来加速模...

#VLM #Large Model

READ

Dify安装

Large Model

2025-01-02

🔖 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted Docker 按照官方文档说明配置即可 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/dockercompose 源码安装参考官方步骤，需要补充一些内容 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/localsourcecode 在启动API 服务之前需要安装PostgreSQL数据库和Redis Postgres安装配置(非Root) 下载二进制编译好的安装包，下载地址在这里解压并创建data目录初始化d...

#Large Model

READ

大模型训练基础

Large Model

2025-01-02

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

INCOMING TRANSMISSION

Kimi k1.5—CoT强化训练

DeepSeek 系列

DeepSeek v3

InternVL 2.5

Dify安装

大模型训练基础