RAG:一种成熟的方法
Posted: Sun Mar 02, 2025 6:55 am
尽管托管 LLM 服务的定价模型和延迟时间 因提供商而异,但通常可以预期输入令牌成本会根据您在提示中提供的文本长度线性增长,这是有道理的:处理的输入令牌越多,收费就越多。在上图中,仅关注 Google Gemini 系列 LLM,请注意,具有较大上下文窗口的模型也可能按每个令牌收取更多费用,因此成本实际上在两个维度上都在增长。
如果您的应用程序需要非常快速的响应,那么延迟也可能是长上下文方法的一个限制。例如,您可以看到 Google Gemini 1.5 Flash 的上下文窗口为一百万个令牌,平均第一个块响应时间为 0.39 秒;相比之下,Google Gemini 1.5 Pro 最多可以接受两百万个令牌,但平均响应时间是 Flash 模型的两倍多。
此外,将整个文档包含在上下文窗口中还存在其他缺点,例如,模型更容易被您寻求的关键见解周围的所有不相关信息“分散注意力”。这与位置偏差问题有关,模型的准确性可能因相关 巴西 WhatsApp 号码列表 信息在文档中的位置而异。例如,当关键见解出现在文档的开头或结尾附近时,模型可能会表现更好,但很难检索埋在中间的关键细节,这可能会导致对长而密集的文本的分析不完整或歪曲。即使是新发布的 OpenAI o1 系列等尖端推理模型也会受到干扰问题的影响,这就是为什么OpenAI 建议在您的提示中包含“仅最相关的信息,以防止模型过度复杂化其响应”。
RAG 提供了一种替代方法,即专注于有针对性的打击,而不是“煮沸海洋”。RAG技术不会将所有内容都放入模型的上下文窗口中,而是涉及一个信息检索步骤,该步骤可识别文档中最相关的部分,并将其包含在提示中作为模型的附加上下文。这种高效而精确的方法可确保 LLM只关注最有可能准确回答查询的信息。
如果您的应用程序需要非常快速的响应,那么延迟也可能是长上下文方法的一个限制。例如,您可以看到 Google Gemini 1.5 Flash 的上下文窗口为一百万个令牌,平均第一个块响应时间为 0.39 秒;相比之下,Google Gemini 1.5 Pro 最多可以接受两百万个令牌,但平均响应时间是 Flash 模型的两倍多。
此外,将整个文档包含在上下文窗口中还存在其他缺点,例如,模型更容易被您寻求的关键见解周围的所有不相关信息“分散注意力”。这与位置偏差问题有关,模型的准确性可能因相关 巴西 WhatsApp 号码列表 信息在文档中的位置而异。例如,当关键见解出现在文档的开头或结尾附近时,模型可能会表现更好,但很难检索埋在中间的关键细节,这可能会导致对长而密集的文本的分析不完整或歪曲。即使是新发布的 OpenAI o1 系列等尖端推理模型也会受到干扰问题的影响,这就是为什么OpenAI 建议在您的提示中包含“仅最相关的信息,以防止模型过度复杂化其响应”。
RAG 提供了一种替代方法,即专注于有针对性的打击,而不是“煮沸海洋”。RAG技术不会将所有内容都放入模型的上下文窗口中,而是涉及一个信息检索步骤,该步骤可识别文档中最相关的部分,并将其包含在提示中作为模型的附加上下文。这种高效而精确的方法可确保 LLM只关注最有可能准确回答查询的信息。