Replying to Avatar ささのたかよし

さてと、libkkcの辞書周りはこれでお終いで…いいかな。日本語ウェブコーパス2010からIRSTLM経由でdata.arpaを作って、libkkc-dataのsortlm.pyに修正を加えることで辞書化可能。頻度1000でも100でも作れるけど、消費メモリを考えると頻度100〜1000の間のどこかに設定した方が良さそうってところまでは分かった。今は頻度750な辞書を使っているけど、まあまあ打てるかな?

Avatar
ささのたかよし 2y ago

しばらくこれにかかりきりだったので、本当に他のことが何もできなかったんだけど…これで少しは余裕ができたと思いたい。

Reply to this note

Please Login to reply.

Discussion

No replies yet.