念一叨

从知识开发能力展望未来人工智能形式

大规模深度学习中涌现出的 scaling law(缩放律)限制了实际应用中大模型的尺度:

对于给定的人工智能任务,尺度为 N 深度学习大模型最终能够达到的最优 loss L(N) 正比于 aN^(-α)+b。 其中,α 是经验斜率,一般在 0.05-0.1;b 是 loss 的渐进下限,可能与任务类型、数据本身的熵有关。

这意味着,随着模型尺度增大,要想获得相等程度的质量提升,需要增加的模型尺度呈指数级增长。 因此在计算资源有限的现实中,在模型尺度已经大到一定程度时,再试图通过扩张模型的方式来提升质量是不切实际的。

我认为,这定律来源于深度学习本身原理上的限制:

  • 以连续张量表示,缺少离散组合;
  • 单向前向传播,缺少自反馈重构;
  • 平均误差驱动训练,缺少认知动机;
  • 缺乏“假设生成–验证”的机制,无主动构造能力。

总而言之,深度学习从既有数据中提取知识的效率十分低下。

为了衡量这种知识提取效率,可做如下理想化的分析:

假设有一至强的智能,对于给定的知识集合,其对每一个子集进行思考,都可以得到一条新的知识。 那么输入大小为 N 的知识集合,这个智能能够得到 2^N 条新知识,是指数级别的。

当然,有限知识包含的信息量是有限的,我们没理由认为这个至强智能用新得到的 2^N 条知识不断滚雪球能得到无穷多的信息。 我们可以将从一个知识集出发理论上能够得到的最多信息量视为一个极限——它比原始知识在“字面上”蕴含的信息量要大得多 ——最初几次推演得到的新知识或许都能使得到的总信息量指数级增长,但随着此量逼近上述极限,再生成的新知识(相关于已有知识)的信息量将会打折扣,以至于最后为零。 这有点类似于物理上某些重整化的本质:一个简单理论在某些极限处能够预言出无穷大的能量,那实际情况一定是当趋近于那个极限时,会出现新的未知效应将能量限制在具有现实意义的范围内。

对比人脑——受限于人脑的“内存容量”,人类通常不能同时处理巨量知识,最多同时对两三条知识进行思考。 那么,人脑从已知知识集思考产生新知识的速率将为 C(N,t),其中 t 为一小正数,大约在 [1,4] 的范围里,是 N^t,多项式级别的。

再看深度学习——Scaling law 已经告诉我们,它的知识开发速率是对数级别的。

以上观察用一种非常不精确的方式阐述了这个道理: 相较于深度学习基于统计的知识识别,人脑具有从已有知识中定向思考发现新知识的能力。 但即使是人脑,也做不到理想中的“至强智能”的指数级开发速率。

基于以上,我设想,如果未来有比深度学习更强的 AI 技术的话,它应该有以下特征:

  • 有一个离散的抽象知识库。
  • 能“试图理解”输入的数据集,将其转化为知识并纳入库中。
  • 会对已有知识进行内在思考,发现新的知识。
  • 有一个启发式的中台,负责在每次内在思考时挑选“有价值的知识组合”——我称其为「潜意识」。