Subnostr

提升效率：OpenAI API的Prompt缓存机制详解

- 请求路由：API请求被导向最近处理过相同提示的服务器，以提高响应速度。

- 缓存策略：

- 缓存机制会记录之前计算过的提示的最长前缀。

- 初始缓存从1,024个tokens开始，随后每次增加128个tokens。

- 缓存命中需要完全匹配的前缀。

- 内容布局：

- 静态内容（如指令、示例）放在提示开头最有利于缓存。

- 可变内容（如用户特定信息）应放在提示结尾以减少对缓存命中的影响。

- 适用范围：

- 缓存机制适用于文本、图像和工具，所有元素必须完全相同才能命中缓存。

- 缓存时间：

- 缓存在5到10分钟的不活动后会被清除，最大保留时间为1小时。

- 不同组织之间不共享缓存数据。

- 成本优势：对于已缓存的输入tokens，自动享受50%的折扣，这可以在不修改代码的情况下降低成本和缩短处理时间。

Please Login to reply.

No replies yet.