知识库 -

LLaVA

Large Model

2025-04-03

项目： 🔖 https://llavavl.github.io/ github: 一句话优点： 1、极大简化了VLM的训练方式：Pretraining + Instruction Tuning 2、训练量得到简化：1M量级数据+ 8卡A100 → 一天完成训练 LLaVA LLaVA是2023的连续工作，包含了LLaVA 1.0, 1.5, 1.6几个版本（后续会有更多），也是2023年多模态领域妥妥的顶流。发表9个月620的stars，GitHub超过12K的stars。 LLaVA它的网络结构简单、微调成本比较低，任何研究组、企业甚至个人都可以基于它构建自己的领域的多模态模型。非常建议对多模态大模型感兴趣的朋友关注LLaVA这篇工作。简介 LLaVA通过使用机器生成的指令遵循数据对大...

#VLM

READ

Kimi k1.5—CoT强化训练

Large Model

2025-04-02

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

DeepSeek 系列

Large Model

2025-03-26

🔖 https://www.deepseek.com/ DeepSeek LLM 代码地址：背景量化巨头幻方探索AGI（通用人工智能）新组织“深度求索”在成立半年后，发布的第一代大模型，免费商用，完全开源。作为一家隐形的AI巨头，幻方拥有1万枚英伟达A100芯片，有手撸的HAILLM训练框架HAILLM：高效且轻量的大模型训练工具。概述 DeepSeek LLMs，这是一系列在2万亿标记的英语和中文大型数据集上从头开始训练的开源模型在本文中，深入解释了超参数选择、Scaling Laws以及做过的各种微调尝试。校准了先前工作中的Scaling Laws，并提出了新的最优模型/数据扩展缩放分配策略。此外，还提出了一种方法，使用给定的计算预算来预测近似的batchsize和learnin...

#LLM #Large Model

READ

CLIP

Large Model

2025-03-23

多模态模态（modal）是事情经历和发生的方式，我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题，研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。通常主要研究模态包括"3V"：即Verbal(文本)、Vocal(语音)、Visual(视觉)。多模态发展历史实际上，多模态学习不是近几年才火起来，而是近几年因为深度学习使得多模态效果进一步提升。下面梳理一下从1970年代起步，多模态技术经历的4个发展阶段，在2012后迎来 Deep Learning 阶段，在2016年后进入目前真正的多模态阶段。第一阶段为基于行为的时代(1970s until...

#VLM #pretrain

READ

BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数

Large Model

2025-03-23

总结 BLIP2 是一种多模态 Transformer 模型，主要针对以往的视觉语言预训练 (VisionLanguage Pretraining, VLP) 模型端到端训练导致计算代价过高的问题。所以，如果能够使用预训练好的视觉模型和语言模型，我把参数冻结，应该能够节约不少的计算代价。 BLIP2 就是这样，这个工作提出了一种借助现成的冻结参数的预训练视觉模型和大型语言模型的，高效的视觉语言预训练方法。但是，简单的冻结预训练好的视觉模型的参数或者语言模型的参数会带来一个问题：就是视觉特征的空间和文本特征的空间，它不容易对齐。那么为了解决这个问题，BLIP2 提出了一个轻量级的 Querying Transformer，该 Transformer 分两个阶段进行预训练。第一阶段从冻结的视...

#VLM #pretrain

READ

DeepSeek-R1

Large Model

2025-03-17

简介后训练（posttraining）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（ChainofThought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Processbased Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Searc...

#LLM #Reinforcement Learning

READ

DeepSeek v3

Large Model

2025-03-16

引言 24年12月,研究团队开发了 DeepSeekV3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeekV3 采用了MLA来确保推理效率，并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeekV2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeekV3 首创了无辅助损失的负载均衡策略(auxiliarylossfree strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另...

#LLM #Large Model

READ

InternVL 2.5

Large Model

2025-01-21

简介 🔖 https://internvl.github.io/blog/20241205InternVL2.5/ 上海人工智能实验室推出的InternVL系列在24年12月推出了InternVL2.5，模型整体上性能看起来不错。模型结构模型结构还是继承自InternVL1.5 没什么大的改动。整个模型包含几个部分较大的视觉encoder：InternViT300M/InternViT6B MLP projector LLM 训练策略阶段训练训练分为3个stage： Stage 1: MLP Warmup：只训练MLP Projector，对齐语言和视觉特征。采用NTP Loss（Next Token Prediction Loss), 并采用了一个相对较大的学习率来加速模...

#VLM #Large Model

READ

Llama系列

Large Model

2025-01-04

LLaMA 一直致力于LLM模型研究的国外TOP 3大厂除了OpenAI、Google，便是Meta(原来的Facebook) Meta曾第一个发布了基于LLM的聊天机器人——BlenderBot 3，但输出不够安全，很快下线；再后来，Meta发布一个专门为科学研究设计的模型Galactica，但用户期望过高，发布三天后又下线 23年2.24日，Meta通过论文《LLaMA: Open and Efficient Foundation Language Models》发布了自家的大型语言模型LLaMA，有多个参数规模的版本(7B 13B 33B 65B)，并于次月3.8日被迫开源 LLaMA只使用公开的数据(总计1.4T即1,400GB的token，其中CommonCrawl的数据占比67%...

#LLM

READ

Llama 3.1

Large Model

2025-01-04

🔖 https://ai.meta.com/research/publications/thellama3herdofmodels/ 简介本文归纳llm的训练分为两个主要阶段：预训练阶段 pretraining，模型通过使用简单的任务如预测下一个词或caption进行大规模训练后训练阶段 posttraining，模型经过调整以遵循指令、与人类偏好保持一致，并提高特定能力, 例如编码和推理。 Llama 3.1 发布，在 15.6T 多语言 tokens 上训练，支持多语言，编程，推理和工具使用。新模型支持 128K tokens 长度的上下文。最大的旗舰模型参数量为 405B，效果达到了闭源模型的 SOTA。模型结构 Llama 3.1 的模型和 Llama 3 是一样的，只是做了...

#LLM

READ

VLM评价指标

Large Model

2025-01-02

这是OpenCompass的offitial ranking 榜单 🔖 https://rank.opencompass.org.cn/home MMBench 鉴于现行评测方式所存在的问题，我们重新定义了一套针对当前多模态大模型的评测流程——MMBench。其主要包含两个方面: 自上而下的能力维度设计，根据定义的能力维度构造了一个评测数据集引入 ChatGPT，以及提出了 CircularEval 的评测方式，使得评测的结果更加稳定 Paper 链接: 🔖 https://arxiv.org/pdf/2307.06281 github：数据集数据集构造主要目的是对模型的各种能力进行全方位的考察，所以我们自上而下定义了三级能力维度 (L1L3)，第一级维度（L1）包含感知与推理两项...

#VLM

READ

Mini-Gemini

Large Model

2025-01-02

训练数据 Pretrain 558K Llava pretrain imagetext pair 695K ALLaVA dataset FineTuning Pretrain and Finetune 代码参数 [代码] 首先使用transformers.HfArgumentParser类解析命令行参数，该类的作用是将命令行参数解析为dataclass对象。dataclass是Python3.7中引入的一个新特性，通过dataclass可以方便地定义一个类，并且可以自动实现__init__、__repr__等方法 [代码] 然后通过parser.parse_args_into_dataclasses()方法解析命令行参数，并将解析结果保存到model_args、data_args和tra...

#VLM

READ