How to distributed LM training: step 3に
「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3
-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。
というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。
…試してみる価値はありそうだな?