【大语言模型】NLP•检索增强生成之五

视频号

微信公众号

知识星球

语言 Chinese, Simplified

概述
动机
神经检索
检索增强生成（RAG）流水线
RAG的好处
- RAG与微调
RAG合奏
使用特征矩阵选择矢量数据库
构建RAG管道
- 摄入
  - Chucking
  - 嵌入
    - 句子嵌入：内容和原因
      - 背景：与BERT等代币级别模型相比的差异
      - 相关：句子转换器的训练过程与令牌级嵌入模型
      - 句子变换器在RAG中的应用
- 检索
  - 标准/天真的方法
    - 优势
    - 缺点
  - 语句窗口检索/从小到大分块
    - 优势
    - 缺点
  - 自动合并检索器/层次检索器
    - 优势
    - 缺点
  - 计算出理想的块大小
    - 寻回器镶嵌和重新排列
  - 使用近似最近邻进行检索
  - 重新排序
- 响应生成/合成
  - 迷失在中间：语言模型如何使用长上下文
  - “大海捞针”测试
组件式评估
- 检索度量
  - 上下文精度
  - 上下文回忆
  - 上下文相关性
- 生成度量
  - 脚踏实地
  - 回答相关性
- 端到端评估
  - 回答语义相似性
  - 答案正确性
多模式RAG
改进RAG系统
相关论文
- 知识密集型NLP任务的检索增强生成
- 主动检索增强生成
- 多模式检索增强生成器
- 假设文档嵌入（HyDE）
- RAGAS:检索增强生成的自动评估
- 微调还是检索？LLM中知识注入的比较
- 密集X检索：我们应该使用什么检索粒度？
- ARES：一种用于检索增强生成系统的自动评估框架
引用

多模式RAG

许多文档包含混合的内容类型，包括文本和图像。然而，在大多数RAG应用程序中，图像中捕获的信息都会丢失。随着多模式LLM（如GPT-4V）的出现，如何在RAG中利用图像是值得考虑的。
以下是使用LangChain在RAG中使用图像的三种方法：
- 选项1：
  - 使用多模式嵌入（如CLIP）来嵌入图像和文本。
  - 使用相似性搜索检索两者。
  - 将原始图像和文本块传递到多模式LLM以进行答案合成。
- 选项2：
  - 使用多模式LLM（如GPT-4V、LLaVA或FUYU-8b）从图像中生成文本摘要。
  - 嵌入和检索文本。
  - 将文本块传递给LLM进行答案合成。
选项3：
- 使用多模式LLM（如GPT-4V、LLaVA或FUYU-8b）从图像中生成文本摘要。
- 嵌入和检索带有原始图像参考的图像摘要。您可以使用带有矢量数据库（如Chroma）的多矢量检索器来存储原始文本和图像及其摘要以供检索。
- 将原始图像和文本块传递到多模式LLM以进行答案合成。
选项2适用于多模态LLM不能用于答案合成的情况（例如，成本等）。

下图（来源）概述了上述三种选项。

LangChain提供选项1和选项3的食谱。
以下信息图（来源）还提供了多式联运RAG的顶级概述：

改进RAG系统

为了增强和完善RAG系统，请考虑以下三种结构化方法，每种方法都附有全面的指南和实际实施：
- 重新排序检索结果：一种基本而有效的方法是使用重新排序模型来细化通过初始检索获得的结果。这种方法优先考虑更相关的结果，从而提高生成内容的整体质量。MonoT5、MonoBERT、DuoBERT等都是可以用作重新排序的深度模型的示例。有关此技术的详细探索，请参阅Mahesh Deshwal提供的指南和代码示例。
- FLARE技术：在重新排序之后，应该探索FLARE方法。每当生成的内容的片段的置信水平低于指定阈值时，该技术就动态地查询互联网（也可以是本地知识库）。这克服了传统RAG系统的一个显著限制，传统RAG通常只在一开始查询知识库，然后产生最终输出。Akash Desai的指南和代码演练提供了对该技术的深刻理解和实际应用。有关FLARE技术的更多信息，请参阅Active Retrieval Augmented Generation一节。
- HyDE方法：最后，HyDE技术引入了一个创新概念，即响应查询生成假设文档。然后将该文档转换为嵌入向量。该方法的唯一性在于使用向量来识别语料库嵌入空间内的相似邻域，从而基于向量相似度来检索相似的真实文档。要深入研究这种方法，请参阅Akash Desai的指南和代码实现。在没有相关标签的精确零样本密集检索部分中，更多关于HyDE技术。
这些方法中的每一种都提供了一种独特的方法来完善RAG系统，有助于获得更准确和与上下文相关的结果。