A tutorial on the IRSTLM library (2008/May/17) https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=2ef9472ecfc0c3d48a0f9b2a031916c703fb1140 分からん…
A tutorial on the IRSTLM library (2008/May/17) https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=2ef9472ecfc0c3d48a0f9b2a031916c703fb1140 分からん…
How to distributed LM training: step 3に
「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3
-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。
というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。
…試してみる価値はありそうだな?