#chatgpt #ai

对 AI 的思维链条 CoT 能力和进展多说两句。

1. AI 的 CoT 能力基本上就是在 GPT3 和 GPT3.5 这两个版本之间的某处诞生的。GPT3 还几乎不具备 CoT,而基于 GPT3.5 的 ChatGPT 已经明显具备了。考虑到这个飞跃对通用人工智能的关键程度,我们确实是在过去一两年里眼睁睁目睹了一次 ground breaking 级别的技术进展。(顺便吐槽一下 GPT 这个糟糕的版本号系统。

2. 人们对 CoT 能力究竟是怎么从大语言模型中产生的目前并不是特别了解。许多人都观察到似乎让模型多读一些代码语料有助于培养 CoT。Google Brain 的 Peter Liu 猜测说这是因为读代码能逼着语言模型把相隔很远的词联系起来思考(这是代码的特点)。AI2 的 Yao Fu 猜测这是因为代码的多层级性有助于语言模型理解 CoT。但这都还只是猜测。这是目前最有趣也最重要的理论问题之一。

——不要把这一条理解为让你的孩子去学 Python 有助于培养思维能力。没有用的。

3. 同样在过去两年内出现的一个新的热词是 Grokking,中文可能可以翻译成「顿悟」,它描述了这样一种现象:一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息,几乎没有泛化能力,但到了某一刻,它的泛化水平忽然跳了出来,而且非常完美。你可以想象成一个神经网络经历了一个「aha moment」,像是内部的某个齿轮忽然对上了一样。我的理解是 CoT 也可以看做是一种 Grokking。

4. 在一种很粗糙的意义上说,大语言模型的外部属性(也就是用户可以直接感知和评估的属性)可以分解为「知识基础」+「推理能力」+「表达能力」这三个层面。大多数关于 ChatGPT 的讨论把目光集中在第一项和第三项,忽视了第二项的革命性进展。当人们热衷于吐槽它的知识基础(比如竟然不知道某件事或者完全弄错了某个事实)的时候,多少有点 miss the point。事实上你完全可以想象未来的 AI 被分拆成模块,知识引擎被单独拿出来处理(让一个语言模型记住大量明明可以快速检索到的知识是没有意义的),而推理与表达才是它的能力重点。这种解耦也会*加快模型的运算效率。

5. 说到模块解耦,甚至还有一个更有趣的例子,来自 UCSB 的 Wenhu Chen 最近的一篇论文 Program of Thoughts Prompting。他们觉得让 AI 通过 CoT 生成结果甚至都有些绕远了。应该让 AI 把原问题直接转化为程序代码,然后调用外部的代码运行模块来得出答案。这等于是把「计算」这一块也从语言模型中间剥离了出去。

Reply to this note

Please Login to reply.

Discussion

No replies yet.