在我的理解中,这个宇宙就是一个熵减的过程,意味着资源不是无限的。那样的话即使是能量体还是需要消耗某些东西啊。到那个时候,那种生物根本就不是人类,所需求的内容也完全不一样。可能消耗几个恒星系的能源用来娱乐都可能。可能有某些个体会抑制自己的欲望,但大体上还是会符合生物无尽的欲望 和 探索这样的本质。就是说,即使自然条件下,形成了宇宙只有一群低欲望的生物,但只要这些生物有自由意志,那往后发展肯定是会是想探索和利用资源的群体占大多数

不过那个也太太太遥远了,还是关注一下这几十年内可能发生的苦难和幸福吧

Reply to this note

Please Login to reply.

Discussion

基础科技变革发生在什么时候没人知道,但每次都发生在前一次革命后人类躺平后把红利吃干抹净之时,可能也是逼出来的。现在就是这个时期,全球经济下滑的本质就是上次革命输入的生产力已经不足以维持现在的秩序,现在的创新很难让人类获得生产力的增长,只能重构。基础科技的任何一次变革都足以搅动世界,重塑全球。

哈哈,虽然是这样,不过现在看来最可能的不是“人类进化”,而是“AGI出现,人类没落”。人类进化似乎最可行就是芯片嵌入大脑了,不过对比于只消耗电和少量半导体的AI来说太笨重了。

以现在的AI来说,远远不会,甚至植入AI芯片都不会是普遍情况,植入其它用途的芯片可能,比如测量血糖之类的。

每次变革到结束本质都是在更高能量密度上建立广域甚至全球的结算市场。

比如蒸汽机是化学能到机械能,煤炭自身也可以长距离运输。

后面就围绕着石油,能量密度更高,到现在石油还是全球结算。

信息时代与石油共存的是电能,转换方式更灵活,但和化学能同在电磁相互作用力量级,平均转换能量密度不高于石油,而且目前电能还不能全球结算。所以也可能人类还能在电能全球结算实现后再躺平个几十年。

核能在强相互作用力量级,理论上是下一次革命的内容,目前的核电利用不是,其管道仍是电,所以能量层级再高,平均密度还是很低,成本其实还不及火电,目前几个路线的受控核聚变也同理。

然后关于AI,也就是现在的路线GPT,和直觉不同的是垃圾语料也是可以训练它,莆田系垃圾广告也可以让GPT学到语义逻辑的。

额外需要的人工标记数据相比上面的语料其实少很多,而意识形态倾向是可以在这里灌输的,所以不用担心国内没法搞GPT,中文存在的一个问题是熵高于英文。

现在的AI是理解不了语义的(可预见)。不过可以通过chain of thought的方式,把很小的逻辑/陈述句 组成一个更大的逻辑。(这也是为啥 Reinforcement Learning from Human Preferences 的非zero-shot推理出来的结果比原模型强大这么多的原因,也是这几年大模型进步最重要的因素)

但这个前提是,那些很小的逻辑必须是正确的。中文没有这个环境。

(可预见的未来也是)

补充,中文圈的问题是,没有统一的逻辑(这些需要科学和社会共识的发展)。例如到底是中药可靠,还是双盲临床可靠,那训练出来的AI回答这些问题都会很摸棱两可。

至于意识形态,我觉得开放的学术界没这东西存在。 例如LGBTQ的人权问题,在学术领域怎么可能扯得到意识形态。难道你问一下,同妻生活状况是不是很苦 也是意识形态入侵吗?

不过也正因如此在国内搞AI诸多阻碍。

不太明白你觉得什么样的情况才能训练,你说的这些情况英文也有。

中文也可以选出合适的语料训练,如果你是说某些政治性知识不对,这没办法,但不影响训练,而且英文世界里也有很多。

垃圾文本也可以学到词法句法这些语义知识,但可以说它学到的垃圾意义的知识不对,但这个也有办法。

人工标记数据告诉的是人类的偏好。

换另一个角度说可能更好,LLM其实就是网络上的内容的抽象化和总结。先不说中文被允许用来训练的语料的范围,就中文的环境,在太多方面不能和英文提供的资料和事实相提并论了。

“中文也可以选出合适的语料训练,如果你是说某些政治性知识不对,这没办法,但不影响训练,而且英文世界里也有很多。” 暴论一下: 中文世界的环境从来没系统性地建立过什么舆论环境。例如 平等、自由 和 普世价值这些观念一直被污名化,那就算这些内容没被审核,得出来的也是不符合逻辑/现实人民需求的东西。英文世界当然也不是绝对符合逻辑,但要说和中文世界比,那就是在侮辱人类的智慧,不然为啥这么多人跑到twitter和nostr上来聊。

更大的问题是,中国已经超级泛意识形态斗争化了,简单说些什么都能辱华和境外势力。注意,这和发达国家的政治正确没法比,发达国家的政治不正确虽然被打压,在主流网络上是有生存空间的。例如 你搜”华为是不是抄袭android“,”华为是不是龙岗必胜客“,这些话题要么已经被删帖了,要么各种转移话题洗地。 又例如”5G是不是过誉了“,答案大概是美国打压中国尖端产业,5G的先进性还要过很多年才能看到这样。

还是说你以为人工标注是慢慢挑数据,LLM已经不可能这样了,可能有少量被调整的数据。都是训练完后再人工审核的,模型是不变的,审核发生在RLHF层,这也是我觉得这些LLM现在还远远不能用的原因,问深一层都开始编故事了。但那和在一开始就不给正确答案的中文圈里训练出来的东西完全不一样。你想要一个”好“的数据库来训练,还约等于重做一遍中文互联网。有太多问题,我和你都能达成简单共识的答案,例如问白纸革命是什么;因为删帖,中文圈训练出来的AI很可能说不知道,或开始编故事。这样出来的东西就是中文互联网的一个延申 (不过LLM其实就是互联网的延申),绝对会帮助打压底层的人 或 使大部分人一些符合逻辑的想法破灭,包括翻墙这么显而易见的事。

我基本知道你什么意思了。

你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。

语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。

对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。

通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。

ChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。

如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。

繁体世界相对正常。

Scale law 也包括数据集, 中文语料太少。 当前存在的语料已经用完了, 后续的都是线性增产的语料, 不会有指数变化。

大模型的能力是在预训练时候已经获得的, 后续 监督微调/RLHF/incontext learn和 prompt 都是引导,不增加模型能力甚至减少模型能力。

总之, 关键在模型预训练, 语料不足(书、杂志、wiki、报纸、新闻、小说、各种出版物、网站出版物、 文档、 软件、游戏都太少太少了, 垃圾广告不少,但是垃圾广告千篇一律没信息量没 给不来泛化能力)

其他小语言语料更少, 语言语料训练不平衡,是gpt 自己提出他要解决的问题

对的,语料不够才是关键

我觉得更可能是 “某些问题不会体验中国特色” 因为短期内这些AI就算接上Wolffram也不可能解决精准定义的数学和科学问题,问其他问题有相当大概率会在泛政治化的范畴。

不过我之前回答的时候没想起还有开源LLM,LLM有超越语言建立的内在逻辑,而且看chatgpt多语言混用效果都够好了。所以我觉得中国内训练出来的 很可能连开源的LLM都很难超越