JISX0213 の第3水準、第4水準の文字は Unicode でらほはぼ BMP 超えなので 4 byte
結合文字とか使うと一文字何 byte と言えるだろうか、みたいな。
BMP より大きいところは 4 byte
UTF-8 の日本語は 3 byte か 4 byte だよ
スペース区切りで分割している上で IDNA 2003 で判定するライブラリ使ってるってことなのかな?
ほー。ICU4J は IDNA 2008準拠だが、static method は IDNA 2003 止まりになっていて android の java.net.IDN の実装にそれを使っていて問題だ、という issue があるんだな。
どのバージョンの ICU のことか分からんが、今の ICU4J の状況はどうなんだろ。
IDNA2008 では Stringprep と Nameprep はもう使われていない、とな。ICANN は IDNA2008 しかサポートしてない。
IDNA2008 に準拠するライブラリにしなさい、というのが recmendation のようだ。
https://community.icann.org/download/attachments/132940436/ua-for-java-developers-20200717.pdf
Java6 は 2006年からだから、RFC3490 に準拠してるのは変では無いか。
逆方向では無いか。順方向に変換できるものは全て国際化ドメインだ、と判定するやり方が想定外、ってことかな。
国際化ドメイン名からの NAMEPREP は順方向の正規化方法を規定しているだけで、逆方向の変換によってドメイン名と判定する使い方が想定外なのでは。
あ、今日から5月だった。通信量リセット!!
スカウター型のスマホでもどっか出してくれんかな。持つのめんどい
さーて来週のサザエさんは、じゃなくて、さーてコーヒーでも淹れて仕事すっか
まだ月曜日です
TGIF
四文字英語が何かと思ったら診断か
🍷のフィルター、残り一日か。nostrich でしばらく生活して、しばらく様子見かなー。
全然見れてないのでなんの話題が最近あったのかも分からず、迷子トル
ゴールデンウィークって美味しいの?
冷蔵庫から賞味期限が10日過ぎた焼きそばが発掘された。微妙なラインだ