INCOMING TRANSMISSION

LATEST UPDATES

ALL WIP FAV

LLM Finetuning方法

Large Model

2026-04-15

Adapter tuning Adapter Tuning试图在Transformer Layer的Self-Attetion+FFN之后插入一个先降维再升维的MLP（以及一层残差和LayerNormalization）来学习模型微调的知识。在预训练模型每一层(或某些层)中添加Adapter模块(如上图左侧结构所示)，微调时冻结预训练模型主体，由Adapter模块学习特定下游任务的知识。每个Adapter模块由两个前馈子层组成，第一个前馈子层将Transformer块的输出作为输入，将原始输入维度 \(d\) 投影到 \(m\) ，通过控制 \(m\) 的大小来限制Adapter模块的参数量，通常情况下 \(m\ll d\) 。在输出阶段，通过第二个前馈子层还原输入维度，将 \(m\) 重新投影到 \(d\)...

#LLM #Fine-tuning

READ

Deep Generative Models概述

Generative Model

2026-04-15

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 \(D\) ）视为来自底层分布（例如 \( p_{data}\) ）的有限样本集。任何生成模型的目标都是在访问数据集 \(D\) 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 \(D\) 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 \(M\) 中生成模型 θ 的参数，使得模型分布 \(p_θ\) 接近 \(p_{data}\) 上的数据分布。在数学上，我们可以将我们的目标指定为以下优化问题: \[\mathop{min}\limits_{\theta\in M}d(p_\theta,p_{data})\] 其中， \(d()\)...

#Generating Model #VAE #Autoregressive

READ

1 2

#

!

INCOMING TRANSMISSION

LLM Finetuning方法

Deep Generative Models概述