Replying to Avatar CXPLAY

差不多就在一年前(2024 年 4 月 17 日), Discord 用户也遭遇了这种大规模爬虫事件:

Spy.pet收集6.2亿Discord用户的40亿条数据 目前Discord正在调查中 – 蓝点网

https://www.landiannews.com/archives/103420.html

Discord 认为这违反了它的社区准则, 给 Discord 做过开发或者运营的人应该都知道, userbot 行为是被明令禁止的. 然后 Spy.pet 四个月后就被 take down, Discord 大规模封禁了这个爬虫项目的 userbot 账号, 直到现在这个项目基本上已经处于停滞状态. 相关的研究信息可以查看:

> https://github.com/ThatSINEWAVE/Spy.pet-Info

然而这从始至终到现在还只是 Discord 作为平台对平台下用户的滥用行为的对抗. 身在其中被作为数据源的用户只能用一个词来形容: 无能为力.

这种情况完完全全可以套用到现在的 Telegram 身上, 他作为平台当然有理由用滥用行为去封禁这个爬虫项目. 但所有人都知道 Telegram 的滥用打击一直都只是面子工程, 这是为了获得投资和盈利而不得不做的 "妥协". 本次事件的性质在 Telegram 上就和人人都知道 "社工库" 没什么区别, 爬虫只是把泄露到公网的数据小小策展了一下, Telegram 会说: 它有什么错呢?

没事的, 只是会被用来开盒而已, 就像 Meta 去年年末引起争议的全自动 "人肉搜索" 智能眼镜一样, 他只是把公网上的数据自动策展到你的面前, Meta 也会说: 它有什么错呢?

我在一月份的文章里面就写到过, 这公共互联网(aka 公网)上的信息只要你不主动声明那么这些信息实际上就是被随意由使用者处置的, 根本不是由生产者所能决定. 到这里我还可以说, 这就是人人都在说的 "互联网精神" 的内核, 它本身就没有道不道德的定义. 我们在这里会谴责这种人肉搜索行为, 会说它不道德只是我们自己在数字世界给自己划下的那一个名为 "道德" 的更小的圈. 我在互联网谈道德, 而真正生于互联网中的语言模型会认为这只是个提示词.

如果下一次做这种事情的是未来能够自主思考和行动的 AGI, 我们的谴责只会显得更加无力.

大规模的数据收集背后都是由「如果信息可索引且有利可图, 那么就一定会被索引」这一概念驱动的, 这把 "剑" 的正面是 Google Search, 反面就是「监视资本主义」.

Reply to this note

Please Login to reply.

Discussion

这个概念可以解释为什么 #Fediverse 的全球索引无法建立, 而 #Nostr 一开始就有人建立全球索引(Nostr.band). 短期上来说, Nostr.band 的索引完全无利可图, 甚至还会受到两个极端的支持者攻击: 索引不够好用而被攻击为失败产品, 索引太彻底而被攻击为对互联网的监视.