A tutorial on the IRSTLM library (2008/May/17) https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=2ef9472ecfc0c3d48a0f9b2a031916c703fb1140 分からん…

Reply to this note

Please Login to reply.

Discussion

How to distributed LM training: step 3に

「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3

-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。

というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。

…試してみる価値はありそうだな?