とりあえず、sortlm.pyの修正はおしまい。IRSTLMで変換したarpaの処理もできているので、あとはこれを実際にlibkkcに食わせて何が起こるかを見る…ってことになるな。 https://github.com/ueno/libkkc/pull/46

Reply to this note

Please Login to reply.

Discussion

(marisa-)trieを使っている以上、辞書の作りとしては確かにそうなるわな…

2-gram: 1-gramに定義された単語でペアを作ること

3-gram: 2-gramに定義された単語ペア+1-gramに定義された単語であること

とはいえその辺の言語資源で適当に作ったN-gramだと場合によってはとかで切られちゃうので、この条件を平然と満たさなくなる…ノイズが含まれるとでも言えば良いんだろうかね、そのノイズでsortlm.pyが機嫌を悪くしちゃう。

そう理解してる。