换另一个角度说可能更好,LLM其实就是网络上的内容的抽象化和总结。先不说中文被允许用来训练的语料的范围,就中文的环境,在太多方面不能和英文提供的资料和事实相提并论了。

“中文也可以选出合适的语料训练,如果你是说某些政治性知识不对,这没办法,但不影响训练,而且英文世界里也有很多。” 暴论一下: 中文世界的环境从来没系统性地建立过什么舆论环境。例如 平等、自由 和 普世价值这些观念一直被污名化,那就算这些内容没被审核,得出来的也是不符合逻辑/现实人民需求的东西。英文世界当然也不是绝对符合逻辑,但要说和中文世界比,那就是在侮辱人类的智慧,不然为啥这么多人跑到twitter和nostr上来聊。

更大的问题是,中国已经超级泛意识形态斗争化了,简单说些什么都能辱华和境外势力。注意,这和发达国家的政治正确没法比,发达国家的政治不正确虽然被打压,在主流网络上是有生存空间的。例如 你搜”华为是不是抄袭android“,”华为是不是龙岗必胜客“,这些话题要么已经被删帖了,要么各种转移话题洗地。 又例如”5G是不是过誉了“,答案大概是美国打压中国尖端产业,5G的先进性还要过很多年才能看到这样。

还是说你以为人工标注是慢慢挑数据,LLM已经不可能这样了,可能有少量被调整的数据。都是训练完后再人工审核的,模型是不变的,审核发生在RLHF层,这也是我觉得这些LLM现在还远远不能用的原因,问深一层都开始编故事了。但那和在一开始就不给正确答案的中文圈里训练出来的东西完全不一样。你想要一个”好“的数据库来训练,还约等于重做一遍中文互联网。有太多问题,我和你都能达成简单共识的答案,例如问白纸革命是什么;因为删帖,中文圈训练出来的AI很可能说不知道,或开始编故事。这样出来的东西就是中文互联网的一个延申 (不过LLM其实就是互联网的延申),绝对会帮助打压底层的人 或 使大部分人一些符合逻辑的想法破灭,包括翻墙这么显而易见的事。

Reply to this note

Please Login to reply.

Discussion

我基本知道你什么意思了。

你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。

语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。

对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。

通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。

ChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。

如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。

繁体世界相对正常。

Scale law 也包括数据集, 中文语料太少。 当前存在的语料已经用完了, 后续的都是线性增产的语料, 不会有指数变化。

大模型的能力是在预训练时候已经获得的, 后续 监督微调/RLHF/incontext learn和 prompt 都是引导,不增加模型能力甚至减少模型能力。

总之, 关键在模型预训练, 语料不足(书、杂志、wiki、报纸、新闻、小说、各种出版物、网站出版物、 文档、 软件、游戏都太少太少了, 垃圾广告不少,但是垃圾广告千篇一律没信息量没 给不来泛化能力)

其他小语言语料更少, 语言语料训练不平衡,是gpt 自己提出他要解决的问题

对的,语料不够才是关键

我觉得更可能是 “某些问题不会体验中国特色” 因为短期内这些AI就算接上Wolffram也不可能解决精准定义的数学和科学问题,问其他问题有相当大概率会在泛政治化的范畴。

不过我之前回答的时候没想起还有开源LLM,LLM有超越语言建立的内在逻辑,而且看chatgpt多语言混用效果都够好了。所以我觉得中国内训练出来的 很可能连开源的LLM都很难超越