价值观载入问题

07 Aug 2019

在对 ASI（Artificial Superintelligence，超级人工智能）的研究中，最重要的问题之一是 Nick Bostrom 在《Superintelligence》一书中提到的「价值观载入问题」（The value-loading problem），即如何把人类的价值观赋予 AI？

成，则人类与 ASI 共存；败，则人类被 ASI 覆灭。

也就是说，无论成败，人类在构建比我们更智能的 ASI 时，都只有一次机会。

superintelligence

对能力的控制，最多只是一个暂时的辅助性手段。除非要永久地限制超级智能，否则我们都需要将价值观载入到 AI 内部，使其目标与人类目标对齐。

如果 AI 不够智能，那么它就会缺乏理解和再现那些对人类有意义的价值观的能力。但如果我们推迟进程，等到 AI 变得足够智能之后再行动，或许它可以抑制住人类在其动机系统插手的意图。

这是一个人类不得不面对的问题。

1. 价值观载入的难点

我们不可能枚举出 ASI 可能面对的所有情况，然后具体讨论每一种对策，并分别给它们赋予价值观。而只能是像公式或者规则那样抽象地表达，从而让 ASI 来决策/计算各种情况下应如何应对。

一种将这样的决策规则具体化的方式是「效用函数」。通过给每种可能面临的情况赋值，给定一个效用函数，我们就能定义一个最大化期望效用的 ASI。这样，ASI 每次都会选择期望效用最大化的行为。

创造出能够计算出某一可获得行为的期望效用的良好近似度的机器，是一个相当具有难度的人工智能问题。

难点一：如何识别终极价值观？

对人类很简单的事情，对机器可能极为复杂。¹而且这种复杂对于人类透明，在我们的生活中习以为常，往往意识不到它们的存在，如人类视觉 vs 计算机视觉。

未来设计价值观载入问题的程序员，脑中可能会有一些特定的人类价值观，他希望 AI 能够发扬这些价值观。比如幸福、正义、自由、荣耀、人权、民主和生态平衡等等。

以幸福为例，在期望效用的框架下，程序员需要寻找一种效用函数，将幸福感赋值到每一个可能世界中。

难点二：如何对价值观编码？

使用高等的人类概念对其定义是不够的，如「幸福是我们人类天性中遗传下来的一种潜在的愉悦感」，而需要建立在 AI 编程语言之中，然后建立其数据基础，比如数学算子和指向存储着内容的内存地址。从这个角度，就能理解程序员这一任务的难度了。

如果不能通过详细表达（也就是写出一个详尽的效用函数）把我们希望 AI 实现的目标进行直接编程，那么还能用什么办法呢？

2. 价值观载入的技术路径

1）进化选择

既然人类价值观是依附于人体的，所以有一种信念相信，进化是一种解决价值观载入问题的途径。

进化可以被看作是一种特殊的搜索算法，包括两个步骤的交替：

根据相对较简单的随机规则来生成新的备选者，以增加备选者的数量
去掉那些在效用函数评估中得分较低的备选者，以降低备选者的数量

这个过程可能会得到一个满足具体要求的搜索标准，但难以符合我们期待的终极价值观。即人类想要一个进化成拥有和人类一样的目标和价值观的 AI，并且是有着无可挑剔的道德观和服从性的大脑。

2）强化学习

强化学习，是机器学习的一个领域，研究那些能让 AI 学会将积累的回报最大化的技巧。

通过构建一个在其中表现出被期待的行为会收到回报的环境，进行强化学习的 AI 就会学着去解决很多不同类型的问题。甚至在程序员没有细致的指导、反馈，以及回报信号的情况下。

这种评价函数能在实践过程中持续更新，吸收了一种学习价值观的形式。

然而，其正在学习的并不是新的终极价值观，二是对于某种特定工具价值观的不断更准确的近似。

困难在于确保 AI 持续被激励着按我们的意图去追求所描述的价值观。

3）价值观累积

既然价值观问题是如此棘手，那人类自己的价值观是如何形成的呢？

初始的价值观可能源自生命的偏好和一系列性格倾向，并从各种不同的社会和文化经历中获取更多的偏好。也就是说，既有在进化尺度的自然选择里先天形成的，也有成人后根据人生经历逐步形成的。根据人的可塑性来说，后者可能占据更大部分。

能否基于同样的原理为 AI 建立起动机系统（获取价值观的机制）？

直观上很难。首先，形成基因机理的进化过程几乎不可能被复制；其次，价值观累积的过程中，形成与人类一致的价值观配置难且并非必要，毕竟人性也有弱点，人类整体的价值观也是在不断演进中的。

我们得到的，可能并不是我们想要的，

4）动机性支架

另一个解决思路是赋予种子 AI 一个临时性的目标系统，具有相对简单的、可以用明确的编码的最终目标。一旦 AI 发展出更复杂的表达能力，我们就将这个临时性的支架目标系统替换成另一个不同最终目标的系统。

这个继任的目标系统将统治 AI，并伴随其成长为完全成熟的 ASI。

危险之处在于，前期的支架目标对于 AI 来讲并不是工具性目标，而是最终目标。所以 AI 可能会抵制试图替换掉它们的企图。如果 AI 成功阻止了支架目标的替换，这种方式就失败了。

为了做到这一点，或许需要控制/阻碍 AI 在某些方面的认知能力，比如战略、权谋等等，并允许无害的能力发展到更高的水平。此外，也可以在支架系统中纳入欢迎来自程序员指导的目标，以允许他们替换 AI 任何的当下目标。

5）价值观学习

此方法在 AI 发展和运行的整个过程中，都保持着不变的终极目标，而只改变 AI 对于目标的信念。

其基本原理可以用以下比喻来阐释：

假设在一张纸上写下一系列价值观的描述，然后放进一个信封封好。如果我们赋予 AI 以下终极目标：「在最大程度上实现这个信封里描述的价值观。」

起初 AI 并不清楚信封里的价值观是什么，但它可以假设并基于任何可以获取的经验数据，对这些假设分配概率。随着 AI 对这封信了解的越多，它会更高效地去追求它所发现的价值观。

我们可以把这种 AI 比喻成一艘被很多拖船朝不同方向拉的驳船。每艘拖船都与一个最终价值观的假说相对应。每艘拖船的引擎动力对应于假说概率，随着新证据的引入会发生变化，从而对拖船的运动方向做出调整。形成的合力应有助于其学习隐藏的终极价值观，同时也避开无法挽回的隐患。

6）仿真调节

如果机器智能通过全脑仿真的方法实现了，那么增量的方法可以和技术相结合，以修改系统的遗传目标，即动机很有可能会通过药物的数码等价物或其他方法来修改。

即使仿真被促进形成 ASI，能否使价值观以足够精确度被载入并确保安全性，仍是一个开放性的问题。

与使用生物性实验对象一样，对仿真的研究也会涉及伦理问题，比如是否允许上传/下载记忆、是否认可数字生命的存在？

这些道德问题带来的另一种可能是，让不太慎重的团队或是国家成为领导者（比如贺建奎），整个人类会面临更大的危险。

7）体制设计

人类世界里的公司和国家，是由子智能体所组成的。这种复合系统的动机不仅取决于其组成部分的子智能体的动机，也取决于这些子智能体是如何被组织起来的。

比如，专制体制下组织起来的群体，可能表现出和统治者一致的意志；而一个民主的群体则有时更会表现出在其组成部分的综合意志下的行动。

通过为复合系统设计一个合适的体制，便可以让其中的 AI 形成有效的动机。如果我们从已经具有类人动机的 AI 开始着手，体制的安排可以作为一种附加的保障。

当出现新的增强功能时，通过在一个小的智能体子集中进行小流量测试，其效果会在之后被未被改变的子智能体复审组来研究。

可能会有人质疑，这样的管理体制是否能保持稳定。毕竟，在民主制度下，人类并不总是被最有能力的人掌握权力，在社会像软件那样运行的背景下，这个问题就更不确定了。

3. 下一步

即使已经有了人类水平的 AI，如何将人类价值观转入其中仍未解决。以上这些路径，值得进一步探索。

如果我们知道了如何解决价值观载入问题，可能就要面对更深入的问题，决定哪种价值观应该被载入。

换句话说，我们想要 ASI 如何思考？而这，是一个哲学问题。

人类经过长期的进化，大脑已经不是一种「通用型」的学习器官，而是「专用型」（Domain Specific），有其擅长和不擅长的领域，可参考 Hans Moravec 的「landscape of human competence」。 ↩

Liang FANG’s Blog My Thoughts On Everything