图 1:简单的多模态 RAG 流程
Posted: Sun Mar 02, 2025 10:44 am
简单的多模 RAG 流程
假设目标是回答基于包含文本和图像的文档(例如 PDF 文档)的问题。我们从图 1 中所示的简单多模态 RAG 管道开始。
图 1:简单的多模态 RAG 流程
该管道由以下步骤组成:
内容提取:所有输入文档被分解为文本块列表和图像列表。
嵌入:使用多模态嵌入模型(例如CLIP或SIGLIP等联合文本-图像模型)将文本块和图像映射到共享向量空间。此类模型将给定实体在各种模态中的表示映射到相似的向量。然后将 克罗地亚 WhatsApp 数据 生成的向量添加到向量存储中。
语义检索:当用户提出问题时,多模态嵌入模型会将问题转换为向量。该向量用于查询向量存储并检索与问题在语义上最相似的文本块和图像。
答案生成:问题、检索到的文本块和检索到的图像包含在发送到多模态 LLM 的提示中,该提示会生成答案。多模态 LLM(例如GPT-4V、GPT-4o、Gemini 1.5)是一种接受文本和图像作为输入并生成一些文本的模型。
对于给定的文档集合,步骤 1 和 2 仅执行一次,而对于用户的每个问题,步骤 3 和 4 都会重复执行。
假设目标是回答基于包含文本和图像的文档(例如 PDF 文档)的问题。我们从图 1 中所示的简单多模态 RAG 管道开始。
图 1:简单的多模态 RAG 流程
该管道由以下步骤组成:
内容提取:所有输入文档被分解为文本块列表和图像列表。
嵌入:使用多模态嵌入模型(例如CLIP或SIGLIP等联合文本-图像模型)将文本块和图像映射到共享向量空间。此类模型将给定实体在各种模态中的表示映射到相似的向量。然后将 克罗地亚 WhatsApp 数据 生成的向量添加到向量存储中。
语义检索:当用户提出问题时,多模态嵌入模型会将问题转换为向量。该向量用于查询向量存储并检索与问题在语义上最相似的文本块和图像。
答案生成:问题、检索到的文本块和检索到的图像包含在发送到多模态 LLM 的提示中,该提示会生成答案。多模态 LLM(例如GPT-4V、GPT-4o、Gemini 1.5)是一种接受文本和图像作为输入并生成一些文本的模型。
对于给定的文档集合,步骤 1 和 2 仅执行一次,而对于用户的每个问题,步骤 3 和 4 都会重复执行。