Nostr Web Client

我基本知道你什么意思了。

你认为中文世界绝大部分内容都是被政治清洗过的错误信息，或者中医这种有矛盾争议的内容，所以不能用来训练，且不说我不认为中文世界是你想的样子，与此无关的内容占多数。

语料当然是大规模抓取后清洗的，但对LLM来说，能否有效训练，数据质量更多是数学意义的，而不是知识意义的，所以垃圾广告也能训练，只是质量需要处理。

对于语料包含的知识内容，ChatGPT的英文语料中也包含支持顺势医学的内容，本来在西方顺势医学受众就有一批，里面也不会包含美国政府不想让你知道的内容，否则你可以问问斯诺登。

通常认为LLM除了语法外还学到了某种先验知识，实际LLM并不会坚守这种知识，除非监督强化。完全相同的英文语料给LLM，后面也可以人为诱导出不同的，甚至很极端的倾向，因此可以人为输入意识形态倾向。

ChatGPT这路线出现Prompt Engineer就是这个原因，有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。

如果你说只能训练出在某些问题上体现中国特色的AI，那么我同意。

Scale law 也包括数据集，中文语料太少。当前存在的语料已经用完了，后续的都是线性增产的语料，不会有指数变化。

大模型的能力是在预训练时候已经获得的，后续监督微调/RLHF/incontext learn和 prompt 都是引导，不增加模型能力甚至减少模型能力。

总之，关键在模型预训练，语料不足（书、杂志、wiki、报纸、新闻、小说、各种出版物、网站出版物、文档、软件、游戏都太少太少了，垃圾广告不少，但是垃圾广告千篇一律没信息量没给不来泛化能力）

其他小语言语料更少，语言语料训练不平衡，是gpt 自己提出他要解决的问题

Please Login to reply.

对的，语料不够才是关键