OpenAI推出提示词缓存功能,大幅降低输入成本!

OpenAI发布了全新的提示词缓存功能,这项功能可以将频繁输入相同提示词的成本降低一半,极大地优化了用户体验。该功能自动应用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型,以及这些模型的微调版本。

功能亮点:

- 缓存机制:当输入的提示词超过1024个Tokens时,缓存会自动启动,并在API返回结果中包含一个“cached tokens”字段。缓存适用于文本消息、图像、工具调用和JSON Schema等内容。

- 匹配规则:只需前面的部分相同即可触发缓存,不需要每次输入完全一致。例如,在翻译应用中,固定的步骤提示词可以被缓存,而动态的翻译内容则不受影响。

- 缓存范围:仅限同一组织内的请求,并且缓存只持续5到10分钟,非高峰时期可能延长至1小时。

- 默认开启:该功能默认开启且无法手动清除,但不会影响生成过程。

使用建议:

1. 结构化提示词:将静态或重复内容放在提示词的开头,动态内容放在末尾,以最大化利用缓存。

2. 监控性能:定期监控缓存命中率、延迟和缓存token百分比等指标,以优化提示词和缓存策略。

3. 高效请求:在非高峰时段发出API请求,以增加缓存命中率,因为高峰时段缓存清除较为频繁。

4. 持续流量:保持具有相同提示词前缀的请求流,以减少未使用提示词被自动删除。

场景举例

假设你正在开发一个翻译应用,每次用户提交翻译请求时,你都需要向GPT模型发送如下提示词:

```plaintext

请将以下英文文本翻译成中文,并分三步完成:

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本:

```

由于每次请求中的前半部分是固定的,只是最后的英文文本内容不同,这样就可以利用OpenAI的新提示词缓存功能。当你的固定部分超过1024个Tokens时,这部分内容会被自动缓存。

例如:

- 第一次请求:

```plaintext

请将以下英文文本翻译成中文,并分三步完成:

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本:This is a sample sentence for translation.

```

- 第二次请求(在5到10分钟内):

```plaintext

请将以下英文文本翻译成中文,并分三步完成:

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本:Another example text to be translated.

```

因为这两次请求中的固定部分完全相同,所以第一次请求后,这部分会被缓存起来。第二次请求时,不再需要重新计算这部分内容,从而节省了计算资源和时间,提高了效率

Reply to this note

Please Login to reply.

Discussion

No replies yet.