提升效率:OpenAI API的Prompt缓存机制详解
- 请求路由:API请求被导向最近处理过相同提示的服务器,以提高响应速度。
- 缓存策略:
- 缓存机制会记录之前计算过的提示的最长前缀。
- 初始缓存从1,024个tokens开始,随后每次增加128个tokens。
- 缓存命中需要完全匹配的前缀。
- 内容布局:
- 静态内容(如指令、示例)放在提示开头最有利于缓存。
- 可变内容(如用户特定信息)应放在提示结尾以减少对缓存命中的影响。
- 适用范围:
- 缓存机制适用于文本、图像和工具,所有元素必须完全相同才能命中缓存。
- 缓存时间:
- 缓存在5到10分钟的不活动后会被清除,最大保留时间为1小时。
- 不同组织之间不共享缓存数据。
- 成本优势:对于已缓存的输入tokens,自动享受50%的折扣,这可以在不修改代码的情况下降低成本和缩短处理时间。 