History LLMs は、特定の年以前のデータだけで LLM を学習し、その時点の知識でシミュレーションを行う。
https://github.com/DGoettlich/history-llms
このアイデア自体はすぐ思いつくものだが、1913年をカットオフにするという決定が驚き。
4Bモデルなら、Chinchilla 則では学習に約80Bトークンが目安。そんなに大量のテキストを確保できるのかと思ったら、フィルタリング前で600Bトークンも確保したという。ヨーロッパは強い。
私はコロナ政策を再検証のためにコロナ前のデータで学習したモデルがほしいと思っているんだけど、自分でやる余力はない。