# AI 领域相关概念扫盲
# LLM 是什么
LLM 是一种基于人工智能(AI)和深度学习的大规模自然语言处理模型,能够理解和生成人类语言。这类模型通过海量文本数据训练,具备强大的语言理解、文本生成、翻译、问答等能力。
# LLM 的核心能力
- 文本生成:写作、对话、翻译。
- 逻辑推理:解决数学题、代码调试。
- 知识问答:基于训练数据中的事实性知识回答(但可能产生幻觉)。
- 工具调用:结合搜索引擎、API 扩展功能(如 ChatGPT Plugins)。
# LLM 的局限性
- 幻觉(Hallucination):生成与事实不符的内容。
- 数据偏见:反映训练数据中的社会偏见或错误。
- 资源消耗:训练和部署需要巨大算力(如 GPT-3 训练需数千张 GPU)。
# 典型 LLM 模型示例
- GPT 系列(OpenAI):生成式模型,擅长文本创作(如 ChatGPT)。
- BERT(Google):双向编码模型,擅长理解类任务(如搜索、分类)。
- LLaMA(Meta):开源模型,参数量从 70 亿到 650 亿不等。
- Gemini(Google)、Claude(Anthropic):多模态或对齐优化的竞争模型。
# Rerank 是什么
在AI和自然语言处理(NLP)领域,Rerank(重排序) 是指对初步检索或生成的候选结果(如文本、文档、答案等)进行重新排序,以优化最终输出的质量。其核心目标是将最相关或最优质的结果排在前面,从而提升下游任务的效果(如搜索、推荐、问答等)。
# Rerank 的典型应用场景
- 搜索引擎:对初步检索的网页/文档重新排序(如Google的BERT用于搜索结果排序)。
- 问答系统:从多个候选答案中选出最佳回答。
- 推荐系统:调整推荐内容的顺序(如电商商品排序)。
- 大模型输出:对LLM生成的多个响应(如Beam Search的候选序列)选择最优结果。
# 常见 Rerank 方法
- 基于传统机器学习
- 基于深度学习
- 直接使用大模型(如GPT-4)对候选结果打分或生成排序理由
# Embedding Model 是什么
Embedding Model 是一种**将离散数据(如文本、图像、音频等)转换为连续向量(即嵌入向量,Embedding Vector)**的机器学习模型。这些向量能够捕捉数据的语义或特征信息,并用于下游任务(如搜索、分类、聚类等)。
在自然语言处理(NLP)领域,Embedding Model 通常指文本嵌入模型,它可以将单词、句子或文档映射到一个低维稠密的向量空间,使得语义相似的文本在向量空间中距离相近。
# Embedding Model 的典型应用
- 检索与搜索
- 聚类与分类
- 大模型增强
- 多模态任务
# 典型 Embedding 模型
- Word2Vec(Google, 2013):通过上下文预测学习词向量(Skip-gram/CBOW)。
- GloVe(Stanford, 2014):基于全局词共现矩阵分解。
- BERT(Google, 2018):通过Transformer编码文本,取[CLS] token或均值作为句子向量。
- Sentence-BERT(2019):优化BERT,使相似句子的向量距离更近。
- CLIP(OpenAI, 2021):对齐文本和图像嵌入,支持“以文搜图”
# Fine-tuning 是什么
Fine-tuning 是指在一个预训练模型(Pre-trained Model)的基础上,通过针对特定任务的小规模数据进行额外训练,使模型适配新任务的技术。它是迁移学习(Transfer Learning)的核心方法,广泛应用于自然语言处理(NLP)、计算机视觉(CV)等领域。
# Fine-tuning 的典型流程
- 步骤1:选择预训练模型,比如 BERT
- 步骤2:准备任务数据,小规模标注数据(如1000条分类样本)。
- 步骤3:调整模型结构
- 步骤4:训练策略,比如仅训练顶层(适用于小数据)
# Fine-tuning 的常见方法
- 全参数微调(Full Fine-tuning),解冻所有层,更新全部参数。
- 部分微调(Layer-wise Fine-tuning),比如仅微调最后几层,冻结底层
- 参数高效微调(Parameter-Efficient Fine-tuning, PEFT),比如 Lora
# LoRA 是什么
LoRA 是一种用于高效微调大模型(如LLM、扩散模型)的技术,核心思想是通过低秩矩阵分解来减少可训练参数数量,从而在保持模型性能的同时大幅降低计算成本。
# LoRA 解决的核心问题
(1) 传统微调的瓶颈
全参数微调(Full Fine-tuning)需要更新整个模型的参数(如GPT-3有1750亿参数),导致:
- 计算资源消耗大:需要昂贵的GPU/TPU。
- 存储成本高:每个微调任务需保存一份完整模型副本。
- 易过拟合:小数据集上微调大模型可能导致性能下降。
(2) LoRA 的创新点
LoRA 提出:冻结预训练模型的原始参数,仅插入少量可训练的“低秩矩阵”来适配新任务,从而:
- 参数效率高:仅需训练原模型参数的0.1%~1%。
- 硬件友好:可在单张消费级GPU(如24GB显存)上微调大模型。
- 无需额外推理开销:训练完成后可将低秩矩阵合并到原模型,不增加推理延迟。
# LoRA 的实际应用
- 大语言模型(LLM)微调
- 扩散模型(如Stable Diffusion)
# Stable Diffusion 是什么
Stable Diffusion 是一种基于深度学习的文本生成图像(Text-to-Image)扩散模型(Diffusion Model),能够根据用户输入的文字描述(Prompt)生成高质量、高分辨率的图片。
# Stable Diffusion 的技术原理
(1) 扩散模型(Diffusion Model)
Stable Diffusion 的核心是扩散-去噪过程:
- 前向扩散(加噪):逐步对一张真实图片添加高斯噪声,最终变成纯噪声。
- 反向去噪(生成):训练一个U-Net神经网络,从噪声中逐步还原出图片。
- 文本引导:通过CLIP文本编码器将用户输入的Prompt转换为向量,指导去噪过程生成符合描述的图像。
(2) 关键改进
- Latent Diffusion:在低维隐空间(Latent Space)进行扩散,大幅降低计算量。
- CLIP文本编码器:将文本语义与图像生成强关联(如OpenAI的CLIP模型)。
- Safety Filter:内置NSFW过滤机制,避免生成违规内容。
# Stable Diffusion 的应用场景
- 艺术创作:生成概念图、插画、海报设计。
- 摄影辅助:模拟特定光线、场景或风格化效果。
- 电商广告:快速生成产品展示图(如“复古风格的手表”)。
- 游戏开发:设计角色、道具或场景原画。
- 教育科研:可视化抽象概念(如“量子力学中的多维空间”)。
# 模型蒸馏是什么
模型蒸馏 是一种将复杂大模型(Teacher Model)的知识迁移到轻量小模型(Student Model)的技术,旨在保持模型性能的同时大幅降低计算资源需求。其核心思想是让小模型“模仿”大模型的行为(如输出概率、特征表示),而非直接学习原始数据。
# 模型蒸馏的核心方法
(1) 知识类型
- 输出知识(Logits):教师模型对各类别的预测概率(软标签)。
- 关系知识:样本间的相似性关系(如对比学习)。
(2) 经典蒸馏流程(Hinton, 2015)
- 训练教师模型:在大规模数据上训练一个高性能复杂模型。
- 生成软标签:用教师模型对训练数据预测概率分布。
- 训练学生模型
# 蒸馏的应用场景
- BERT → DistilBERT:参数量减少40%,速度提升60%,保留97%性能。
- GPT-3 → GPT-3.5 Turbo:通过蒸馏优化推理成本。
- ResNet-50 → MobileNet:将大型CNN压缩为移动端友好模型。
- YOLOv5 → YOLOv5n:目标检测模型轻量化。
- DeepSeek-R1-Distill-Qwen-7B