知识库 - Orange

搜索-特征工程

Search&Rec

2026-04-15

讨论一下推荐系统三板斧：数据、特征和模型，因为搜索的排序套路和推荐十分类似，除了多了query维度特征，对相关性有一定的要求，其他很大程度上思想一致。这里先行引用一个比较形象的推荐系统优化流程：明确业务目标将业务目标转化为机器学习可优化目标样本收集特征工程模型选择和训练离线评测验证在线AB验证通过离线验证和在线AB的结果反馈到2，形成一个增强回路慢慢起飞。而在一般情况下，各个环节的贡献占比：样本>>特征工程>模型。另外如果离线验证集85分，线上很多时候也会略低，各种原因也不胜枚举：特征延迟、特征不一致、甚至在样本落盘时的数据丢失等等。本篇先行介绍上述过程特征工程的一般方法，包括特征设计、清洗、变换以及特征选择，并在最后讨论深度学习背景下的特征工程。特征设计特征工程的第一步是要找到对模型预测有用的特征，最常用的方式是基于经验分维度梳理，如电商领域第一层可以按场景元素分成 User特征、Item特征、Seller特征、Query特征、上下文特征等...

#搜索推荐

READ

CTR预估及DeepFM

Search&Rec

2026-04-15

CTR预测问题简介点击率(Click Through Rate, CTR)预估是程序化广告里的一个最基本而又最重要的问题。比如在竞价广告里，排序的依据就是 \(𝑐𝑡𝑟×𝑏𝑖𝑑\) 。通过选择 \(𝑐𝑡𝑟×𝑏𝑖𝑑\) 最大的广告就能最大化平台的eCPM。从机器学习的角度来说这是一个普通的回归问题，但是它的特殊性在于训练数据只有0/1的值——因为我们没有办法给同一个用户展示同一个广告1万次，然后统计点击的次数来估计真实的点击率。另外有人也许会有这样的看法：对于某一个特定的曝光，某个用户是否点击某个广告是确定的，第一次不点，第二次也不会点，因此点击率是一个0/1的固定值而不是一个0-1之间的概率值。这个说法有一些道理，原因是第二次实验和第一次使用不是独立同分布的。“真正”的做法是第二次做实验前要擦除用户第一次实验的记忆，然后在一模一样的场景(时间、地点……)下做 \(N\)...

#搜索推荐

READ

LTR方法小结

Search&Rec

2026-04-15

Learning to rank 排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrieval，书中对排序学习的各种方法做了很好的阐述和总结。我这里是一个超级精简版。排序学习是一个有监督的机器学习过程，对每一个给定的查询－文档对，抽取特征，通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型，使得输入能够和实际的数据相似。常用的排序学习分为三种类型：PointWise，PairWise和ListWise。 PointWise 单文档方法的处理对象是单独的一篇文档，将文档转换为特征向量后，机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分，打分结果即是搜索结果...

#搜索推荐

READ

ANN (Approximate Nearest Neighbor)

Search&Rec

2026-04-15

概述新闻推荐系统从海量新闻中推荐出你感兴趣的新闻，百度从海量的搜索结果中找到最优的结果，短视频推荐出你每天都停不下来的视频流，这些里面都包含ANN方法。当然，在现在的检索系统中，往往是多分支并行触发的效果，虽然DNN 大行其道，但是 ANN 一直不可或缺。通用理解上，ANN（Approximate Nearest Neighbor）是在向量空间中搜索向量最近邻的优化问题。目前业界常用nmslib、Annoy算法作为实现。在实际的工程应用中，ANN是作为一种向量检索技术应用，用于解决长尾Query召回问题。将一个资讯的ANN 召回系统抽象出来大概是下面的样子。 Ann（approximate nearest neighbor）是指一系列用于解决最近邻查找问题的近似算法。最近邻查找问题，即在给定的向量集合中查找出与目标向量距离最近的N个向量。...

#搜索推荐

READ

正排索引VS倒排索引

Search&Rec

2026-04-15

一句话总结正排索引：一个未经处理的数据库中，一般是以文档ID作为索引，以文档内容作为记录。倒排索引：Inverted index，指的是将单词或记录作为索引，将文档ID作为记录，这样便可以方便地通过单词或记录查找到其所在的文档。倒排索引创建索引的流程形成文档列表首先对原始文档数据进行编号（DocID），形成列表，就是一个文档列表。创建倒排索引列表对文档中数据进行分词，得到词条。对词条进行编号，以词条创建索引。保存包含这些词条的文档的编号信息。搜索的过程当用户输入任意的词条时，首先对用户输入的数据进行分词，得到用户要搜索的所有词条，然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。然后根据这些编号去文档列表中找到文档正排和倒排正排索引（正向索引）通过文档ID查文档中的各个词：url -> term，ID为关键字，后面的拉链为文档里面每个字的位置信息正排表是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。...

#搜索推荐

READ

微调LLaMA模型

Large Model

2026-04-15

Stanford Alpaca 结合英文语料通过Self Instruct方式微调LLaMA 7B Stanford Alpaca简介 2023年3月中旬，斯坦福的Rohan Taori等人发布Alpaca(中文名：羊驼)：号称只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型(即LLaMA 7B)，具体做法是通过52k指令数据，然后在8个80GB A100上训练3个小时，使得Alpaca版的LLaMA 7B在单纯对话上的性能比肩GPT-3.5(text-davinci-003) ，这便是指令调优LLaMA的意义所在论文《Alpaca: A Strong Open-Source Instruction-Following Model》 GitHub地址： https://github.com/tatsu-lab/stanford_alpaca 数据地址 (即斯坦福团队微调LLaMA 7B所用的52K英文指令数据)： raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json...

#LLM #Fine-tuning

READ

LLM Finetuning方法

Large Model

2026-04-15

Adapter tuning Adapter Tuning试图在Transformer Layer的Self-Attetion+FFN之后插入一个先降维再升维的MLP（以及一层残差和LayerNormalization）来学习模型微调的知识。在预训练模型每一层(或某些层)中添加Adapter模块(如上图左侧结构所示)，微调时冻结预训练模型主体，由Adapter模块学习特定下游任务的知识。每个Adapter模块由两个前馈子层组成，第一个前馈子层将Transformer块的输出作为输入，将原始输入维度 \(d\) 投影到 \(m\) ，通过控制 \(m\) 的大小来限制Adapter模块的参数量，通常情况下 \(m\ll d\) 。在输出阶段，通过第二个前馈子层还原输入维度，将 \(m\) 重新投影到 \(d\)...

#LLM #Fine-tuning

READ

LLaMA系列

Large Model

2026-04-15

LLaMA 论文名称：LLaMA: Open and Efficient Foundation Language Models 论文地址： https://arxiv.org/pdf/2302.13971.pdf 代码链接： https://github.com/facebookresearch/llama 模型参数量级的积累，或者训练数据的增加，哪个对性能提升帮助更大？以 GPT-3 为代表的大语言模型 (Large language models, LLMs) 在海量文本集合上训练，展示出了惊人的涌现能力以及零样本迁移和少样本学习能力。GPT-3 把模型的量级缩放到了 175B，也使得后面的研究工作继续去放大语言模型的量级。大家好像有一个共识，就是：模型参数量级的增加就会带来同样的性能提升。但是事实确实如此吗？最近的 "Training Compute-Optimal Large Language Models" 这篇论文提出一种缩放定律 (Scaling Law)：训练大语言模型时，在计算成本达到最优情况下，模型大小和训练数据 (token)...

#LLM

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-04-15

背景 RLHF 通常包括三个阶段：有监督微调（SFT） RLHF首先通过在高质量数据上进行监督学习来微调预训练的语言模型，得到模型 \(\pi_{SFT}\) 。奖励建模阶段（Reward Model）在第二阶段，SFT模型根据提示 \(x\) 生成答案对 \((y_1, y_2) \sim \pi_{SFT}(y|x)\) 。这些答案对呈现给人类标注者，他们表达对一个答案的偏好，表示为 \(y_w \succ y_l|x\) ，其中 \(y_w\) 和 \(y_l\) 分别表示在 \((y_1, y_2)\) 中更受偏好和不受偏好的答案。这些偏好被假定由某个潜在的奖励模型 \(r^*(y, x)\) 生成，我们无法直接访问该模型。一种流行的建模偏好的方法是Bradley-Terry（BT）模型，该模型规定人类偏好分布 \(p^*\) 可以写为： \[p^*(y_1 \succ y_2|x) = \frac{\exp(r^*(x, y_1))}{\exp(r^*(x, y_1)) + \exp(r^*(x, y_2))} \] 假设我们有一个从 \(p^*\)...

#Reinforcement Learning #LLM

READ

DeepSeek-v3

Large Model

2026-04-15

简介 24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了 MLA 来确保推理效率，并使用 DeepSeekMoE 来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。为了提高训练效率，该研究采用了 FP8 混合精度训练技术...

#LLM #Large Model

READ

DeepSeek-R1

Large Model

2026-04-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#LLM #Reinforcement Learning

READ

Object Detection

Computer Vision

2026-04-15

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone 轻量级网络系列 Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 Path Aggregation Blcok Deformable Convolution系列 One stage Yolo系列 Focal Loss & RetinaNet Two-Stage Faster R-CNN R-FCN Anchor Free Anchor-Free Transformer DETR Problems 目标检测中的多尺度问题 NMS及其改进 IoU loss系列目标检测中mAP计算

#Object Detection #CV

READ

#

!

INCOMING TRANSMISSION

搜索-特征工程

CTR预估及DeepFM

LTR方法小结

ANN (Approximate Nearest Neighbor)

正排索引VS倒排索引

微调LLaMA模型

LLM Finetuning方法

LLaMA系列

DPO(Direct Preference Optimization)

DeepSeek-v3

DeepSeek-R1

Object Detection