https://github.com/BitSpeech/SRILM/blob/master/utils/src/make-google-ngrams.gawk ←お前はこの存在を知っていながらちゃんと読んでないだろう?とお叱りを受けそう。
1gms/vocabは1-gramそのもの、
2gms/2gm-0000は2-gramのデータで、2gm.idx以降は各ファイルの先頭にあるN-gram…たとえば2gm-0000の最初のエントリが「 ぁ 60447」なら、2gm.idxの中身は「2gm-0000 ぁ」みたいな感じ。
こんなの知るかああああああ💢、というのはただの逆切れですね。お見苦しいものをお見せして申し訳ない。