长文本上下文中的生成式AI:RAG应用性能与挑战
Databricks Mosaic AI Research 团队最近发表了一篇文章,专注于长文本上下文中的生成式 AI 应用(RAG)。这项研究揭示了如何有效利用长上下文来提升 RAG 系统的性能,同时指出在选择模型和上下文长度时需谨慎。这对未来改进长上下文模型的表现具有指导意义。
研究背景与目的:
- RAG 应用:这是生成式 AI 的热门应用场景。
- 新兴技术:随着 Claude 200k、GPT-4-turbo 128k 和 Google Gemini 1.5 pro 2M 等支持长上下文的模型出现,开发者可以处理更大规模的文档。
- 研究目标:探讨增加上下文长度对 RAG 应用效果的影响。
研究方法:
- 实验范围:涉及13种流行的开源和商业 LLMs,进行2000多次实验。
- 数据集:使用了 Databricks DocsQA、FinanceBench、HotPotQA 和 Natural Questions 等四个领域的数据集。
- 评估指标:通过召回率和答案正确性进行评估。
主要发现:
1. 检索优势:
- 检索更多信息通常会提高将正确信息传递给 LLM 的可能性,从而提升系统性能。
2. 上下文长度限制:
- 并非所有模型在长上下文下都能保持最佳性能,如 Llama-3.1-405b 和 GPT-4 在特定 token 长度后性能下降。
3. 失败模式各异:
- 不同模型在长上下文中表现出不同的问题,如版权问题或未能准确回答问题,显示出需要更多训练。
深入分析:
- 检索性能:随着检索到的文档数量增加,相关信息被找到的概率也随之增加,但在某些长度达到饱和。
- RAG 性能:多数模型在 2k 到 4k 上下文长度时有提升,但随后可能下降。新模型如 gpt-4o 在长上下文中表现更好。
- 失败模式分析:商业和开源模型表现出不同的错误类型,包括重复内容和指令遵循问题。
结论与启示:
- 长上下文有助于 RAG 系统更好地整合信息,但许多模型仍面临长文本处理上的挑战。开发者需使用有效的评估工具来优化生成模型和检索设置,以提升结果质量。
如果想深入了解这项研究,可以访问文章链接 https://t.co/iqmXgQHAfd。