(marisa-)trieを使っている以上、辞書の作りとしては確かにそうなるわな…
2-gram: 1-gramに定義された単語でペアを作ること
3-gram: 2-gramに定義された単語ペア+1-gramに定義された単語であること
とはいえその辺の言語資源で適当に作ったN-gramだと場合によってはとかで切られちゃうので、この条件を平然と満たさなくなる…ノイズが含まれるとでも言えば良いんだろうかね、そのノイズでsortlm.pyが機嫌を悪くしちゃう。
そう理解してる。
中の人の勘が鋭ければ、あのPRの裏で何をしようとしているかは気づくはず。わざわざIRSTLMとツール名を書いているので。
Please Login to reply.
No replies yet.