libkkcなる、かな漢字変換エンジンの使う辞書(libkkc-data)を構築するために必要なデータをどう用意するのかという問題にかかりっきりで、最近Nostrを真面目に覗いている余裕がない…
日本語ウェブコーパス2010から3-gramのコーパスを持ってきて、これをIRSLMなるツールで言語モデルを作れば良さそうってところまではどうにか分かったんだけど…それでもlibkkc用に変換するツールが機嫌を損ねてしまいなかなか辞書が作れないという状況で。
という訳でしばらくMastodon側に居ることが多くて、こっちでは挨拶のみ(挨拶のお返事もロクにできない)状況が続く感じです。すみません。