文章中提到的china-web-archive.zip是什么?搜索引擎和AI都查不到

Reply to this note

Please Login to reply.

Discussion

这就是我那篇文章的意义,那个名称只是坊间传闻的名称。在deepseek r2 出来之前,很多AI公司抢着要那唯一的一份线下资料库。然后有人还拍照发了twitter。这种“业内知识”本身会不会严肃的发表或者规范化名称。

乃至于:中国大练AI这种一年前的历史也开始被删除中了。

这就是我提出需要nostr来签名确认所有中文信息的重要性。让随意说出的话能够被历史发掘

现在你只可以自己去搜下面这个内容了

————————

在数字失忆加剧背景下,草根社群开始自发保存中国早期互联网内容。其中之一是 MNBVC 开源中文语料库项目,由“礼物Liwu”论坛资深成员于2023年发起,明确目标为**“保护中文互联网语料资产”** 。MNBVC数据量巨大,规模达2.18 TB,覆盖新闻、论坛帖子、博客、小说、期刊、论文、歌词、古籍等多个类别 。核心贡献者(“灯盏”、“零零发”、“龙骑兵”)长期号召社区共同参与更新 。这说明,至少有一个大规模的、非官方的中文互联网存档真实存在,且其目的是为AI训练和历史保存服务。

我对我的记忆力还是非常自信的。当时有人掏出了没有公开的数据集的磁盘阵列,还上了锁。在x上发帖显摆。然后提了我写在文中的部分信息。然后我就找不到了。

——

MNBVC的未公开部分:MNBVC项目提到,部分数据尚未完成清洗,未在Hugging Face上公开,仅通过P2P或网盘分发。这些数据可能被某些AI公司或研究者私有化使用,规模可能超过公开的59,684GB。

项目组强调避免版权争议,可能导致部分敏感数据(如社交媒体聊天记录)以非公开形式存在,仅限特定团队或公司访问。

https://github.com/esbatmop/MNBVC