「量子化をして同じ実験をしたところ、int8 では記憶容量はほとんど変わりませんでした。int8 の理論限界は当然パラメータあたり 8 ビットですから、言語モデルは理論値の 25% 程度は記憶容量を有効活用できていることを表します。一方 int4 量子化をすると、容量は 2 倍以上悪くなってしまいました。つまり効率から言うと int8 が最適だったということになります。」

Reply to this note

Please Login to reply.

Discussion

No replies yet.