kakasiはUTF-8に対応するものの、kakasidictはEUCで書かれているが故にEUCの範囲でしか漢字→かな変換はできない。【】などの記号類や全角英数字に対する読みも未定義。

…ってことは、UTF-8をそのまま食わせても良いんだけど、処理可能な文字が含まれているかどうかのチェック+EUC化みたいなフィルタを入れた方が安全なのかもしれないな。

ASCII(0x00-0xFF)の範囲は蹴るようにしていたけど、JISのひらがな・カタカナ・漢字以外の部分(記号とかアルファベットとか)も蹴った方が良いのかもしれない。

Reply to this note

Please Login to reply.