Nostr

OpenAI推出提示词缓存功能，大幅降低输入成本！

OpenAI发布了全新的提示词缓存功能，这项功能可以将频繁输入相同提示词的成本降低一半，极大地优化了用户体验。该功能自动应用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型，以及这些模型的微调版本。

功能亮点：

- 缓存机制：当输入的提示词超过1024个Tokens时，缓存会自动启动，并在API返回结果中包含一个“cached tokens”字段。缓存适用于文本消息、图像、工具调用和JSON Schema等内容。

- 匹配规则：只需前面的部分相同即可触发缓存，不需要每次输入完全一致。例如，在翻译应用中，固定的步骤提示词可以被缓存，而动态的翻译内容则不受影响。

- 缓存范围：仅限同一组织内的请求，并且缓存只持续5到10分钟，非高峰时期可能延长至1小时。

- 默认开启：该功能默认开启且无法手动清除，但不会影响生成过程。

使用建议：

1. 结构化提示词：将静态或重复内容放在提示词的开头，动态内容放在末尾，以最大化利用缓存。

2. 监控性能：定期监控缓存命中率、延迟和缓存token百分比等指标，以优化提示词和缓存策略。

3. 高效请求：在非高峰时段发出API请求，以增加缓存命中率，因为高峰时段缓存清除较为频繁。

4. 持续流量：保持具有相同提示词前缀的请求流，以减少未使用提示词被自动删除。

场景举例

假设你正在开发一个翻译应用，每次用户提交翻译请求时，你都需要向GPT模型发送如下提示词：

```plaintext

请将以下英文文本翻译成中文，并分三步完成：

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本：

```

由于每次请求中的前半部分是固定的，只是最后的英文文本内容不同，这样就可以利用OpenAI的新提示词缓存功能。当你的固定部分超过1024个Tokens时，这部分内容会被自动缓存。

例如：

- 第一次请求：

```plaintext

请将以下英文文本翻译成中文，并分三步完成：

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本：This is a sample sentence for translation.

```

- 第二次请求（在5到10分钟内）：

```plaintext

请将以下英文文本翻译成中文，并分三步完成：

1. 分析句子结构

2. 提取关键单词和短语

3. 生成准确流畅的中文翻译

英文文本：Another example text to be translated.

```

因为这两次请求中的固定部分完全相同，所以第一次请求后，这部分会被缓存起来。第二次请求时，不再需要重新计算这部分内容，从而节省了计算资源和时间，提高了效率

Please Login to reply.

No replies yet.