https://arxiv.org/abs/2504.11651
[2504.11651] 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float
この論文は、大規模言語モデル(LLM)の効率的なGPU推論のための新しい圧縮手法を提案しています。
Dynamic-Length Float(DyLoFloat)という手法を用いて、LLMのサイズを70%削減しつつ、精度を維持します。
これにより、メモリ使用量を削減し、推論速度を向上させることが可能になります。