# AI 领域相关概念扫盲

# LLM 是什么

LLM 是一种基于人工智能（AI）和深度学习的大规模自然语言处理模型，能够理解和生成人类语言。这类模型通过海量文本数据训练，具备强大的语言理解、文本生成、翻译、问答等能力。

# LLM 的核心能力

文本生成：写作、对话、翻译。
逻辑推理：解决数学题、代码调试。
知识问答：基于训练数据中的事实性知识回答（但可能产生幻觉）。
工具调用：结合搜索引擎、API 扩展功能（如 ChatGPT Plugins）。

# LLM 的局限性

幻觉（Hallucination）：生成与事实不符的内容。
数据偏见：反映训练数据中的社会偏见或错误。
资源消耗：训练和部署需要巨大算力（如 GPT-3 训练需数千张 GPU）。

# 典型 LLM 模型示例

GPT 系列（OpenAI）：生成式模型，擅长文本创作（如 ChatGPT）。
BERT（Google）：双向编码模型，擅长理解类任务（如搜索、分类）。
LLaMA（Meta）：开源模型，参数量从 70 亿到 650 亿不等。
Gemini（Google）、Claude（Anthropic）：多模态或对齐优化的竞争模型。

# Rerank 是什么

在AI和自然语言处理（NLP）领域，Rerank（重排序）是指对初步检索或生成的候选结果（如文本、文档、答案等）进行重新排序，以优化最终输出的质量。其核心目标是将最相关或最优质的结果排在前面，从而提升下游任务的效果（如搜索、推荐、问答等）。

# Rerank 的典型应用场景

搜索引擎：对初步检索的网页/文档重新排序（如Google的BERT用于搜索结果排序）。
问答系统：从多个候选答案中选出最佳回答。
推荐系统：调整推荐内容的顺序（如电商商品排序）。
大模型输出：对LLM生成的多个响应（如Beam Search的候选序列）选择最优结果。

# 常见 Rerank 方法

基于传统机器学习
基于深度学习
直接使用大模型（如GPT-4）对候选结果打分或生成排序理由

# Embedding Model 是什么

Embedding Model 是一种**将离散数据（如文本、图像、音频等）转换为连续向量（即嵌入向量，Embedding Vector）**的机器学习模型。这些向量能够捕捉数据的语义或特征信息，并用于下游任务（如搜索、分类、聚类等）。

在自然语言处理（NLP）领域，Embedding Model 通常指文本嵌入模型，它可以将单词、句子或文档映射到一个低维稠密的向量空间，使得语义相似的文本在向量空间中距离相近。

# Embedding Model 的典型应用

检索与搜索
聚类与分类
大模型增强
多模态任务

# 典型 Embedding 模型

Word2Vec（Google, 2013）：通过上下文预测学习词向量（Skip-gram/CBOW）。
GloVe（Stanford, 2014）：基于全局词共现矩阵分解。
BERT（Google, 2018）：通过Transformer编码文本，取[CLS] token或均值作为句子向量。
Sentence-BERT（2019）：优化BERT，使相似句子的向量距离更近。
CLIP（OpenAI, 2021）：对齐文本和图像嵌入，支持“以文搜图”

# Fine-tuning 是什么

Fine-tuning 是指在一个预训练模型（Pre-trained Model）的基础上，通过针对特定任务的小规模数据进行额外训练，使模型适配新任务的技术。它是迁移学习（Transfer Learning）的核心方法，广泛应用于自然语言处理（NLP）、计算机视觉（CV）等领域。

# Fine-tuning 的典型流程

步骤1：选择预训练模型，比如 BERT
步骤2：准备任务数据，小规模标注数据（如1000条分类样本）。
步骤3：调整模型结构
步骤4：训练策略，比如仅训练顶层（适用于小数据）

# Fine-tuning 的常见方法

全参数微调（Full Fine-tuning），解冻所有层，更新全部参数。
部分微调（Layer-wise Fine-tuning），比如仅微调最后几层，冻结底层
参数高效微调（Parameter-Efficient Fine-tuning, PEFT），比如 Lora

# LoRA 是什么

LoRA 是一种用于高效微调大模型（如LLM、扩散模型）的技术，核心思想是通过低秩矩阵分解来减少可训练参数数量，从而在保持模型性能的同时大幅降低计算成本。

# LoRA 解决的核心问题

(1) 传统微调的瓶颈

全参数微调（Full Fine-tuning）需要更新整个模型的参数（如GPT-3有1750亿参数），导致：

计算资源消耗大：需要昂贵的GPU/TPU。
存储成本高：每个微调任务需保存一份完整模型副本。
易过拟合：小数据集上微调大模型可能导致性能下降。

(2) LoRA 的创新点

LoRA 提出：冻结预训练模型的原始参数，仅插入少量可训练的“低秩矩阵”来适配新任务，从而：

参数效率高：仅需训练原模型参数的0.1%~1%。
硬件友好：可在单张消费级GPU（如24GB显存）上微调大模型。
无需额外推理开销：训练完成后可将低秩矩阵合并到原模型，不增加推理延迟。

# LoRA 的实际应用

大语言模型（LLM）微调
扩散模型（如Stable Diffusion）

# Stable Diffusion 是什么

Stable Diffusion 是一种基于深度学习的文本生成图像（Text-to-Image）扩散模型（Diffusion Model），能够根据用户输入的文字描述（Prompt）生成高质量、高分辨率的图片。

# Stable Diffusion 的技术原理

(1) 扩散模型（Diffusion Model）

Stable Diffusion 的核心是扩散-去噪过程：

前向扩散（加噪）：逐步对一张真实图片添加高斯噪声，最终变成纯噪声。
反向去噪（生成）：训练一个U-Net神经网络，从噪声中逐步还原出图片。
文本引导：通过CLIP文本编码器将用户输入的Prompt转换为向量，指导去噪过程生成符合描述的图像。

(2) 关键改进

Latent Diffusion：在低维隐空间（Latent Space）进行扩散，大幅降低计算量。
CLIP文本编码器：将文本语义与图像生成强关联（如OpenAI的CLIP模型）。
Safety Filter：内置NSFW过滤机制，避免生成违规内容。

# Stable Diffusion 的应用场景

艺术创作：生成概念图、插画、海报设计。
摄影辅助：模拟特定光线、场景或风格化效果。
电商广告：快速生成产品展示图（如“复古风格的手表”）。
游戏开发：设计角色、道具或场景原画。
教育科研：可视化抽象概念（如“量子力学中的多维空间”）。

# 模型蒸馏是什么

模型蒸馏是一种将复杂大模型（Teacher Model）的知识迁移到轻量小模型（Student Model）的技术，旨在保持模型性能的同时大幅降低计算资源需求。其核心思想是让小模型“模仿”大模型的行为（如输出概率、特征表示），而非直接学习原始数据。

# 模型蒸馏的核心方法

(1) 知识类型

输出知识（Logits）：教师模型对各类别的预测概率（软标签）。
关系知识：样本间的相似性关系（如对比学习）。

(2) 经典蒸馏流程（Hinton, 2015）

训练教师模型：在大规模数据上训练一个高性能复杂模型。
生成软标签：用教师模型对训练数据预测概率分布。
训练学生模型

# 蒸馏的应用场景

BERT → DistilBERT：参数量减少40%，速度提升60%，保留97%性能。
GPT-3 → GPT-3.5 Turbo：通过蒸馏优化推理成本。
ResNet-50 → MobileNet：将大型CNN压缩为移动端友好模型。
YOLOv5 → YOLOv5n：目标检测模型轻量化。
DeepSeek-R1-Distill-Qwen-7B

← 编程-Quill 最佳实践编程-记录一下网站优化 →