さてと、libkkcの辞書周りはこれでお終いで…いいかな。日本語ウェブコーパス2010からIRSTLM経由でdata.arpaを作って、libkkc-dataのsortlm.pyに修正を加えることで辞書化可能。頻度1000でも100でも作れるけど、消費メモリを考えると頻度100〜1000の間のどこかに設定した方が良さそうってところまでは分かった。今は頻度750な辞書を使っているけど、まあまあ打てるかな?
Please Login to reply.
しばらくこれにかかりきりだったので、本当に他のことが何もできなかったんだけど…これで少しは余裕ができたと思いたい。