通常叫物理熵和信息熵,稍各自稍有区别,不影响通俗理解。这段话推论就是神经网络的所有输出都要经过人脑审核才有意义,除非后果无大所谓。也有个推论是如果一个人创造性输出比率还不及神经网络有意义的胡说加上审核成本,那么他会失业,比如写车轱辘话的,车轱辘话审核成本极低。
Discussion
我觉的你的(审核成本)推论很有道理。 但是原博的意思不是对比的“机器的胡说八道和惊鸿一瞥” vs “人的胡说八道和惊鸿一瞥” 之间的对比吗, 一个是玻尔兹曼熵一个是信息熵。 是怎么通过“熵”理解这两者区别的。 “熵” 说其表层意思, 玻尔兹曼熵就是系统状态数量N(另外一个公式进一步约束总能量后, 状态和能量等级有了关系), 信息熵就是“平均编码长度”(单个信息编码长度和其发生概率有关系)。 所以谈“熵”这些表层意思是无法理解 “机器” 和 “人” 之间区别的~ 我还是没有 get 到~
我尽量用语言表述🐶
神经网络执行的是非线性拟合,产生的外插值结果与真实值之间的偏差如果不经过人类审核就没有意义,只能说这个偏差重不重要,审核偏差费不费劲,与此同时芯片产热,对应物理熵。
人类这样一次思考也产热,但耗能极低,而每次思考宏观看都在提高确定性,降低信息熵,机器结果审核也是用人脑去把信息熵降下来。
机器一次模型使用推断 inference 过程我认为耗能也不大。 在模型训练过程的一次 inference 也是目的降低“信息熵” 。 所以人和机器从这点看,还是没区别~
机器和人脑一次推断能量使用不是一个数量级。
模型训练降低信息熵,推断不降。
所以最终你的结论, 人和机器有区别:即,机器耗能大给类给热力学熵, 人脑耗能小,归给“信息熵”。 只是耗能区别
机器推断没降信息熵啊,耗能可以算是特征,也可能是关键,比如电子计算机永远不可能获得人脑的能耗水平,就像电磁相互作用和强相互作用了,不是大小的问题,而是量级的东西。
本质就是一点,除非推至无限,有限非线性拟合结果与真实值之间的距离是客观的数学误差。