https://zenn.dev/knowledgesense/articles/67e05b874cef74

RAGで文書を圧縮して速度を5倍にする手法

この記事では、RAGにおけるLLMの生成速度を高速化する手法「OSCAR」を紹介しています。

OSCARは、LLMに入力する文章を圧縮することで、トークン数を減らし、時間とコストを削減します。

精度を維持しつつ、最大5倍の速度向上が期待できるとのことです。

Reply to this note

Please Login to reply.

Discussion

No replies yet.