我基本知道你什么意思了。
你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。
语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。
对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。
通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。
ChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。
如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。
Scale law 也包括数据集, 中文语料太少。 当前存在的语料已经用完了, 后续的都是线性增产的语料, 不会有指数变化。
大模型的能力是在预训练时候已经获得的, 后续 监督微调/RLHF/incontext learn和 prompt 都是引导,不增加模型能力甚至减少模型能力。
总之, 关键在模型预训练, 语料不足(书、杂志、wiki、报纸、新闻、小说、各种出版物、网站出版物、 文档、 软件、游戏都太少太少了, 垃圾广告不少,但是垃圾广告千篇一律没信息量没 给不来泛化能力)
其他小语言语料更少, 语言语料训练不平衡,是gpt 自己提出他要解决的问题
Thread collapsed
我觉得更可能是 “某些问题不会体验中国特色” 因为短期内这些AI就算接上Wolffram也不可能解决精准定义的数学和科学问题,问其他问题有相当大概率会在泛政治化的范畴。
不过我之前回答的时候没想起还有开源LLM,LLM有超越语言建立的内在逻辑,而且看chatgpt多语言混用效果都够好了。所以我觉得中国内训练出来的 很可能连开源的LLM都很难超越
Thread collapsed