偽装テキストの性質をもう少し考えてみよう。言語ステガノグラフィは、偽装テキストの作り方によって、生成型と編集型の大きく2種類に分類できる。
編集型は既にあるテキストを加工することで秘密データを埋め込む。古典的な方法として紹介した1-3はいずれも編集型。テキストではないが、ビットマップ画像への埋め込みも編集型とみなせる。2021年に私が学生と出した論文も編集型。https://aclanthology.org/2021.naacl-main.433/
生成型はステガノグラフィのモデルがテキストを一から作る。編集型の手法は昔もなかったわけではないが、テキスト生成の品質が低すぎてお話にならなかったことから、事実上ニューラル言語モデルの産物。
生成型と編集型を比較すると、編集型は加工対象のテキストを送信者が自分で用意しなければならない。利用者から見るとこれは面倒。システムから見ると、送信者がいかにも書きそうなテキストを作る責任を利用者に押し付けられていた。
一方、生成型では、どんなテキストが生成されるかわからない。送信者がいかにも書きそうな偽装テキストを作る責任をシステムが負っている。しかし、既存研究はこの点を十分に検討していない。
既存研究が主要な評価指標として用いるのが、テキストの分布と偽装テキストの分布という2つの確率分布の間の距離 (的なもの)。小さいほど良い。もしテキストの分布と偽装テキストの分布が完全一致するなら、両者は識別できないはず。秘密データを埋め込む都合で分布が歪むにしても、元の分布に近ければ近いほど良いという理屈。この目的にはルバック・ライブラー (KL) 情報量という尺度が使える。
KL情報量は理論的に美しいので、ステガノグラフィに取り組むような研究者が好んで採用するのはわからないでもない。しかし、2つの点でずれている。第一に、テキストの真の分布を誰も知らないこと。仕方がないので、言語モデル自身が推定する確率分布を近似として用いる。これは明らかにインチキ。第二に、こちらの方が本題だが、本当に必要なのはテキスト一般の分布ではなく、送信者が書きそうなテキストの分布であること。言語モデルの訓練には大量のテキスト、主としてウェブ由来の雑多なテキストが使われている。言語モデルがウォール・ストリート・ジャーナルの記事のような凝った偽装テキストを生成したとして、テキスト一般の分布から見て自然だったとしても、送信者が書いたものとしては不自然かもしれない。