How to distributed LM training: step 3に

「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3

-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。

というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。

…試してみる価値はありそうだな?

Reply to this note

Please Login to reply.

Discussion

No replies yet.