Scaling Law は、計算資源(FLOPS)、パラメータ(NNの大きさ)、データセット(Wikipediaなどのテキスト)を増加させると、べき乗則でスムーズに言語モデルの性能が向上するという話です。

(並列化を考慮していない)普通のアルゴリズムだと、どこかがボトルネックになってべき乗則がなりたたなくなる(グラフがフラットになる)ことが多いですが、Transformer の場合は今の所それが見つかっていない、という風に自分は理解しています。

こちらも参考になるかもしれません。

https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-language-models

Reply to this note

Please Login to reply.

Discussion

No replies yet.