Nostr Web Client

看看我这篇文章吧。不用太操心玛雅文，压倒性证据表明：中文已经濒危，并且会在越南语之前灭绝。

nostr:naddr1qqxnzde4xyurjd3h8y6nxv3hqyxhwumn8ghj7mn0wvhxcmmvqgs8gc9hl553c3au89l7trgrfx6x0xzwwvehwtgm33lknnypflzwwjcrqsqqqa28xjj7dk

Lemon 5mo ago

文章中提到的china-web-archive.zip是什么？搜索引擎和AI都查不到

Reply to this note

Please Login to reply.

Discussion

Y 5mo ago

这就是我那篇文章的意义，那个名称只是坊间传闻的名称。在deepseek r2 出来之前，很多AI公司抢着要那唯一的一份线下资料库。然后有人还拍照发了twitter。这种“业内知识”本身会不会严肃的发表或者规范化名称。

乃至于：中国大练AI这种一年前的历史也开始被删除中了。

这就是我提出需要nostr来签名确认所有中文信息的重要性。让随意说出的话能够被历史发掘

现在你只可以自己去搜下面这个内容了

————————

在数字失忆加剧背景下，草根社群开始自发保存中国早期互联网内容。其中之一是 MNBVC 开源中文语料库项目，由“礼物Liwu”论坛资深成员于2023年发起，明确目标为**“保护中文互联网语料资产”** 。MNBVC数据量巨大，规模达2.18 TB，覆盖新闻、论坛帖子、博客、小说、期刊、论文、歌词、古籍等多个类别。核心贡献者（“灯盏”、“零零发”、“龙骑兵”）长期号召社区共同参与更新。这说明，至少有一个大规模的、非官方的中文互联网存档真实存在，且其目的是为AI训练和历史保存服务。

Y 5mo ago

我对我的记忆力还是非常自信的。当时有人掏出了没有公开的数据集的磁盘阵列，还上了锁。在x上发帖显摆。然后提了我写在文中的部分信息。然后我就找不到了。

——

MNBVC的未公开部分：MNBVC项目提到，部分数据尚未完成清洗，未在Hugging Face上公开，仅通过P2P或网盘分发。这些数据可能被某些AI公司或研究者私有化使用，规模可能超过公开的59,684GB。

项目组强调避免版权争议，可能导致部分敏感数据（如社交媒体聊天记录）以非公开形式存在，仅限特定团队或公司访问。

https://github.com/esbatmop/MNBVC