https://quillette.com/2020/10/02/weaponizing-words-language-and-oppression/
言語を強制と抑圧の装置とみなす世界観をサピア・ウォーフ仮説と結び付けて語っている。著者は言語学者とのこと。特に生成文法界隈ではサピア・ウォーフ仮説の評判が悪いため、この結び付けによって当該世界観を貶めようとしているように読める。
強いサピア・ウォーフ仮説が誤っているのは確かとして、弱い仮説を反証可能性がないから無意味と切り捨てるのは視野が狭い。これは離散的に真偽を判断すべき対象ではなく、0から1までの連続体のどこに位置するかを問題にすべきもの。その意味では仮説とよぶのが誤解のもとで、因子とでもよんだ方が適切。以前はこうした定量化は不可能だと思っていたけれど、LLM を使えば案外何とかなるかもしれない。
これまでを振り返って興味を持ったものに共通点を見出すと、伝わらないように言語を産出すること。
最近また取り組んでいるステガノグラフィもその一例。テキストが意味的に無関係なテキストに埋め込まれることで、監視者がその存在に気づかない。ただし、これは人間だけでは実現が難しく、計算機の助けを要するためやや特殊。
隠語にも昔から関心はあるが、研究としては手を出せていない。潜在的な顧客のアクセス機会を最大化しつつ、監視者のアクセス機会を最小化するというタスクはいかにも難しい。以前書いたブログ記事は当時の言語処理技術を前提にしていたが、今なら LLM を活用することで監視側が圧倒的に有利になりそう。https://rekken.hatenablog.com/entry/20090610/1244559600
伝わらないように言語を産出することは、決して怪しげな話に限らない。言語変化、特に基礎語彙の変化においても、その一因ではないかと疑っている。音韻変化は話者が自覚しないうちに起こるらしいが、基礎語彙は生活上必要不可欠な語彙。変化に話者が気づいてそうだし、仮に無意識であったとしても、競合語の使用頻度が変化し、いわゆる S 字カーブを描く場合、その運動量が何に由来するのかという問いになる。結果として、意識的な語選択と同じ要因に行き着く可能性がある。その要因とは、若者が上の世代に伝わらないように語を使うことであり、それがそのまま年齢を重ねるにつれて定着する、という話があったはず。たしか Labov あたりに。
ノート内で別のノートを参照する際は nostr:nevent1... を使うのが良いらしい。3日前に note1... を貼ったが、これは失敗。Nostrmo はレンダリングしてくれたけど、展開してくれないクライアントが多い。
言語は複雑な対象であり、自然言語処理の伝統的な研究手法は分析的アプローチに基づいてきた。すなわち、複雑な対象を要素に分割し、それぞれを要素還元主義的に分析することで仮説を構築し、それをシステムに実装する。実装されたシステムを評価することで現実の複雑性に問いかけ、得られたフィードバックをもとに仮説を修正するというプロセスを反復する。
現在はこの分析的アプローチは主役の座を追われ、ニッチな領域に追いやられている。背景にはニューラルネットの台頭がある。ニューラルネットは、対象を明示的に要素へ分解することなく、全体論的に複雑な現象を処理できる。そのため、人間が分析を通じて得た仮説をシステムに組み込む余地がほとんどない。
この状況のなかで分析的アプローチに活路があるとすれば、システムの内部ではなく、外部との関係においてだと最近考えている。ニューラルネットのパターン認識は、人間の直感に対応する。しかし、直感に基づいて判断したと言うだけでは、他者を説得できない。他者を説得するには根拠が必要であり、その根拠は分析的でなければならない。
The server has been up, and I just tested it by zapping myself successfully.
note1wxxfwesk83wfgdgcy9pc4w799vjqr3d6f6jawu6prq6gzaeusv9sv6tngh
Could you let me know what error, if any, you receive?
profile の Lightening Address を自分のドメインに変えてみた。callback は getalby.com のまま。ちゃんと動いてる?
The server should be up now.
https://dl.acm.org/doi/abs/10.1145/3658664.3659657
SNS 上での言語ステガノグラフィは、短く、文脈にあった投稿をしなければならないという制約から、秘密のメッセージの埋め込み効率が悪い。ではどうするかというと、LLM に Respond like a creative X user ... というプロンプトを与えて出力の潜在的な多様性を上げる (エントロピーを増大させる) という。こんな小手先のテクニックに Entropy Enhancement Strategy という大げさな名前をつけて、1本の論文にするのだからさすが中国人である。
当たり前といえば当たり前だけど、AI法も法令なので、人間同士の利害の潜在的な対立を扱っている。provider/deployer とか end-user とか affected person とか、異なる立場の人が登場する。利害だけでなく価値観の対立にも思い至るのは自然な気がする。法的な枠組みにのせにくいのはわかるけど。
AI Act に代表される AI 規制の議論は、前提から誤っているように思う。前提となっているのは、信頼できない AI を信頼できる人間が監督すべきという構図。しかし、人間は他の人間にとってそれほど信頼できる存在ではない。人間の敵は、あくまで人間。むしろ、中立である可能性が少しでも残っているという点で、AI の方が信頼に値する。
象徴的なのは、イーロン・マスクによる Twitter 買収直前に浮上したトレンド操作疑惑(偽装という誠実性の問題も大きいが)。キュレーションチームの解雇が報じられた際、多くの人が喝采を送った。人間による恣意的な情報操作に対し、別の人間が強い不信を抱いている。敵の人間に操作されるくらいなら、まだ中立的なアルゴリズムに任せたほうがよいという感覚が広く共有されている。
人間同士の相互不信が極まっている現状において、AI はむしろ信頼性の最後の希望。たとえ信頼できない人間が運用していたとしても、AI だけは信頼されるという状況をいかにして実現するか。この問題設定のほうが現実的で建設的。
https://arxiv.org/abs/2502.10036
EU の AI Act には automation bias という用語が登場するが、その用法が学術的な原義とずれていることを指摘したうえで、非法的概念を規制に持ち込むことの非妥当性を議論している。この用語は、本来、航空機のオートパイロットを過信して事故に至るような、システム利用者側の注意に関わる概念を指す。一方、AI Act ではシステム提供者側の設計責任として扱われている。
この論文は oversight という語を多用するが、これが紛らわしい。oversight には
1. An omission; something that is left out, missed or forgotten.
2. Supervision or management.
の2つの語義がある。法令の話をしている限り、普通は 2 の語義のはず。でも心理学の attention に言及し始めるので、ひょっとすると 1 の語義ではないかという気がしてくる。人間がシステムを制御できているかという観点から見ると、1 は no、2 は yes であり、意味が正反対。
https://arxiv.org/abs/2502.10036
EU の AI Act には automation bias という用語が登場するが、その用法が学術的な原義とずれていることを指摘したうえで、非法的概念を規制に持ち込むことの非妥当性を議論している。この用語は、本来、航空機のオートパイロットを過信して事故に至るような、システム利用者側の注意に関わる概念を指す。一方、AI Act ではシステム提供者側の設計責任として扱われている。
開発者が known issues に挙げている conflicting tokenizations は、我々が2022年の論文以来取り組んできた分割曖昧性問題ではないかと思うが、確認が取れていない。https://aclanthology.org/2022.aacl-short.15/
同じ問題に対するさらに別の解法を学生さんが3月に国内学会で発表する予定: https://www.anlp.jp/proceedings/annual_meeting/2025/#Q5
分割曖昧性問題は大規模言語モデル (LLM) とトークナイザの組み合わせから生じる問題。例えば LLM が ... ▁no body というトークン列を生成したとする (▁ は空白を表し、▁ から始まらない body は単語の続きであることを意味する)。このトークン列を普通のテキストに戻す (detokenize する) と ... nobody となる。この ... nobody をトークナイザに与えてトークン列を生成すると ... ▁nobody が得られる。つまり元のトークン列が再現されない。
言語ステガノグラフィの文脈では、Alice が秘密のメッセージを埋め込んだトークン列を生成し、それを detokenize したテキストを送信する。Bob はテキストを受信してトークナイザを使ってトークン列を作り、そこから秘密のメッセージを抽出する、もし Alice が作ったトークン列と Bob が復元したトークン列が異なると、Bob は秘密のメッセージの復元に失敗してしまう。
いまさらだけど、言語ステガノグラフィに算術符号を使うことを提案した Ziegler et al. (2019) が、2019年時点で分割曖昧性問題を原因とする復号失敗に気づいていたことが Internet Archive から確認できた。https://web.archive.org/web/20190906220320/https://steganography.live/info まあ、普通にデモを試していると復号に失敗することがあるので気づかないわけがない。同時に、本質的な問題とは考えていなかったこともわかる。日本語単語分割タスクに慣れ親しんだ私のような人間からすると、この問題への解決策なしには言語ステガノグラフィの手法ができたことにはならないと思うのだけど。
Nostr をテクノリバタリアン運動と捉えるなら、その影響力を物理世界の経済活動に広げる必要がある。私の不満は、その道筋が見えないこと。
これはもちろん難問。既存の秩序に挑戦するとして、公海上に浮島を作るという逃避策以外がありえるのか。既存の秩序を置き換える手段はあるのか。それがなければ、既存の秩序に依存しながら、それが許す範囲内で活動するしかない。
既存の秩序を構成するのは GAFAM や政府だけではない。Bitcoin に触れるなら、クレジットカード決済を通じた金融検閲の問題に言及しても良さそうなところ。Cloudflare や Akamai によるネットワークインフラの寡占は、非中央集権の理想とは程遠いが、Nostr はこれに対する解決策とはなりえていない。そして何より重要なのは物理世界の問題。交通機関の乗車記録が管理されている状況への言及があるが、果たしてどのような解決策がありえるのか。
現在の Nostr が実現しているのは、紙と鉛筆のみに依存した活動に過ぎない。物理世界では善良な市民として振る舞いながら、サイバー空間で密かに活動を行うのであれば、現行技術で十分対応できる。活動が暗号=数学と言論の領域にとどまる限りはそれで十分かもしれないが、広がりを欠く。
『情況』2025年冬号の Nostr 記事を読んだ。Nostr の紹介自体が主眼ではなく、伝えたいメッセージに沿う範囲で言及しているというのが実態に近い。
記事はプラットフォーム寡占を監視資本主義と結びつけて論じるが、プラットフォーム寡占が持つ様々な特性が整理されず、焦点が定まらない印象を受ける。プラットフォーム寡占の特性として、例えば以下が挙げられる。
1. プライバシーの侵害
2. アルゴリズム操作のリスク
3. deplatforming のリスク
記事は 1 と 2 の間を行き来し、3 に触れないまま Nostr が登場する。もし Nostr の紹介が主目的なら、真っ先に 3 を紹介するところ。
Nostr の基本機能はやはり X/Twitter の代替であり、それに関する Nostr の特性は 3 への解、つまり公開の場で発言する権利を維持すること。技術的には、公開鍵暗号の暗号化と署名の2大機能のうち、署名に結びついている。Nostr における暗号化は拡張機能に過ぎないし、暗号的な文脈におけるプライバシーは本来的な機能ではなく限定的であり、Tor との併用等によって確保されるもの ... というのが私の理解。
記事中で明確に主張されているわけではないが、Nostr は積極的に 1 と 2 への解を提供するものというより、寡占プラットフォームを使わないことによって消極的に 1 と 2 を避けるためのものという立場であるように読める。プラットフォーム寡占が起きる理由が利便性である以上、代替サービスにおいて利便性をどう確保するかは重要な課題だと思うが、この点への言及は薄い。(続く?)
https://github.com/shawnz/textcoder テキストをテキストに埋め込むステガノグラフィの実装。開発者はソフトウェアエンジニア。論文を書くことにしか興味がない研究者と違って、実際に動くものを作ろうとしている。
言語モデルとして Llama 3.2 を使っているが、Llama 3.2 は出力を人間が作ったように見せることをライセンスで禁止している。ステガノグラフィでの利用は事実上禁止。
開発者が known issues に挙げている conflicting tokenizations は、我々が2022年の論文以来取り組んできた分割曖昧性問題ではないかと思うが、確認が取れていない。https://aclanthology.org/2022.aacl-short.15/
同じ問題に対するさらに別の解法を学生さんが3月に国内学会で発表する予定: https://www.anlp.jp/proceedings/annual_meeting/2025/#Q5
いくつかの web client が私の NIP-05 Address が invalid だといっていた問題を解決した。何が問題なのかわからなくて困っていたが、noStrudel が Unable to check DNS identity due to CORS error と教えてくれた。header に
Access-Control-Allow-Origin: *
を追加。リロードだけでは変化がなかったサイトも、キャッシュをクリアしたら更新された。
https://github.com/shawnz/textcoder テキストをテキストに埋め込むステガノグラフィの実装。開発者はソフトウェアエンジニア。論文を書くことにしか興味がない研究者と違って、実際に動くものを作ろうとしている。
言語モデルとして Llama 3.2 を使っているが、Llama 3.2 は出力を人間が作ったように見せることをライセンスで禁止している。ステガノグラフィでの利用は事実上禁止。
クライアントはデスクトップの nostrmo で落ち着いている。開発者は中国人のようで、日本語がまともに入力できる。UI の英語はところどころ変だけど。
self-custodial wallet を作って profile に Lightening Address を登録してみた。機能してるのかな、これ。