Liang FANG’s Blog My Thoughts On Everything

具身认知学习笔记(20220227)

Embodied Cognition

(题图来自 Jelle van Dijk

具身认知(Embodied Cognition),从最初的哲学思辨,随着心理学的不断思考,正逐渐转向实证研究,并影响了人工智能的演进。

1 哲学视角:最初的哲学思辨,身心是一元还是二元?

  • 笛卡尔:「我思故我在」
    • 主体vs客体。
    • 认知独立于身体。
  • 梅洛·庞蒂:知觉现象学
    • 认为人知觉的主体是身体,而身体是镶嵌在世界的里面,就好比人的心脏镶嵌在身体里面一样。
    • 知觉、身体和世界三者是一个统一整体,人可以产生知觉和认识世界,是通过人的身体和世界中的其他的物体发生互动的结果。

2 心理学视角:行为主义的回归,还是认知主义的新取向?

  • 什么是认知?
    • 是个体认识客观世界的信息加工活动,是概念在大脑中形成的过程。
    • 如果把大脑比做计算机「硬件」,那么认知就是其上运行的「软件」。
  • 传统认知主义:
    • 符号主义(Symbolism):
      • 以计算机模拟为基础的符号加工模式,基本信条是「认知是可计算的」。
        • 认知过程类似于计算机对信息的处理、操作和加工。尽管两者的结构和动因可能不同,但功能上都是一种「计算」。
        • 计算机和人脑都是符号加工的形式系统,计算机依据逻辑规则,认知过程依据先天或后天的理性规则,以形式化的方式对大脑接收到的信息进行处理和操作。
        • 典型例子: Alan Turing在1936年提出的图灵机概念,有限的符号最终可生成无限的信息。
        • 总之,认知虽然表现在包括大脑在内的身体上, 但是却不依赖于身体, 其功能是独立的。
    • 联结主义(Connectionism):
      • 以神经的网状结构和并行加工原理为基础的联结主义模式(Connectionism)。
        • 受神经科学发展推动。
        • 试图找寻认知是如何在复杂的联结和并行分布加工中得以涌现的。
        • 典型例子:深度神经网络(DNN)取得了巨大的成功。
  • 新阶段/思潮:
    • 具身认知(Embodied Cognition):
      • 强调「身体在认知的实现中发挥着关键作用」:
        • 认知是包括大脑在内的身体的认知,身体的解剖学结构、身体的活动方式、身体的感觉和运动体验决定了我们怎样认识和看待世界,我们的认知是被身体及其活动方式塑造出来的。
        • 认知是具体的个体在实时的环境中产生的,储存在记忆里的认知信息并非抽象的符号,而是具体、生动的,同身体的特殊感觉通道相联系。
        • 认知、身体、环境是一体的,认知存在于大脑,大脑存在于身体,身体存在于环境。
        • 它不是一个运行在「身体硬件」之上并可以指挥身体的「心理软件」。
      • 假设:如果我们拥有蝙蝠的生理结构, 我们所感知到的世界就完全不是现在的样子。我们感知到的世界同我们身体的解剖学结构是密切相关的。
      • 实证研究:
        • Wells & Petty (1980):点头的身体运动增强了积极的态度,而摇头的身体运动强化了消极的态度。
        • Stepper & Strack (1993):情绪是具身的,认知并不是情绪形成的唯一因素,身体及其活动方式对情绪与情感的形成有着重要作用。
        • Spence & Nicholis & Driver (2001):实验者考察被试在使 用不同感觉通道加工信息时, 从一个通道转向另一个通道所耗费的反应时,身体的感觉运动系统在认知过程中发 挥了重要作用。
        • ……
      • 传统认知主义vs具身认知:
        • 传统认知主义:视身体仅为刺激的感受器和行为的效应器。
        • 具身认知:赋予身体在认知的塑造中以一种枢轴的作用和决定性的意义,在认知的解释中提高身体及其活动的重要性。
  • 行为主义vs认知主义
    • 行为主义:否认或贬低认知过程,或者把高级心理过程归结为「肌肉收缩」和「腺体分泌」,或者认为发生在中枢神经系统中的高级心理过程只不过是一些生理性的「中介变量」。
    • 认知主义:认知心理学的产生推翻了行为主义的假设,把思维、记忆、 推理等高级心理过程置于一个重要地位,认为决定行为的正是这些内部的认知机制。
    • 争议:
      • 钟摆似乎又转向了相反的方向,正在回归到行为主义的假设。
      • 具身认知仍然是认知,只不过这种认知并非纯精神的,而是一种通过身体及其活动方式而实现的适应环境的活动。
  • 以Lawrence Shapiro为代表的学者提出的具身主义浪潮会在不远的将来到来。
    • 主体身体的属性限制或约束了主体能够习得的概念。
    • 认知过程的核心在于主体和环境的交互而不是表征和算法操作。
    • 身体和世界在认知过程中起到构成而非仅因果作用。

3 神经科学视角:具身认知的生物学机制,更为客观?

  • 具身认知观:
    • 心智是具身的神经生物现象。
  • 镜像神经元:被认为是具身认知的根源之一
    • 灵长类大脑中的镜像神经元组则储存了特定行为模式的编码。这种特性不单让我们可以想都不用想,就能执行基本的动作,同时也让我们在看到别人进行某种动作时,自身也能做出相同的动作。
    • 由于有镜像神经元的存在,人类才能学习新知、与人交往,因为人类的认知能力、模仿能力都建立在镜像神经元的功能之上。
    • 有些研究者甚至断言:镜像神经元之于心理学,犹如DNA之于生物学。
  • 具身模仿论:为具身认知提供全局性解释理论
    • Galese & Fogassi等(2005)提出。
    • 各种各样的镜像神经元匹配系统在我们所持有的关于自我和他人身体的经验性知识中起协调作用。
    • 这种与身体紧密联系的「经验性知识」使得我们能够直接理解他人动作的意义。
    • 这种「共享簇」在功能层面可以定义为具身模仿。
  • 两者结合,通过有效地共享他人动作表征、意义与意图,为认知具身化的合理性奠定了基础,并重新赋予「身体」在科学心理学研究中的重要地位。

4 人工智能视角:具身智能与强化学习,是认知世界的最佳方式?

  • 传统智能:
    • 由于程序从功能上是独立于硬件的,那么理论上,认知独立于大脑在内的身体。
    • 对应于信息处理认知「软件」和大脑「硬件」的划分,出现了「离身的」(disembodied)心智/认知(mind)。
    • 「离身的心智表现在人脑上,就是人的智能,表现在电脑上,就是人工智能」。
    • 人工智能的几次繁荣和低谷都与符号主义和联结主义认知科学的发展密切相关。
  • 具身智能(Embodied Intelligence):假设智能行为可以被具有对应形态的智能体通过适应环境的方式学习到
    • 背景:距离AGI还有相当的距离
      • 样本量小、泛化能力差、能耗大、语义理解欠缺等瓶颈。
      • 近年来,深度学习在封闭环境和静态规则领域取得了巨大的进步,但面对开放环境和动态规则,仍面临巨大挑战。
    • 前提:具身认知,认为人的认知过程无法脱离身体而进行。
    • 推广:具身智能,整个环境和个体的行为同样是认知的重要组成部分,智能体(Agent)通过感知外部环境,产生思想并通过计算后,生成相应动作与环境交互,以此改变和影响环境,这个过程周而复始,产生智能。
    • 假设:在自然界中,动物利用其形态来学习复杂的任务,获得显着程度的具身智能。
  • 具身认知与强化学习:Reward is Enough? 基于强化学习取得了前所未有的突破
    • 李飞飞等:深度进化强化学习框架DERL
      • 在强化学习中,创建具有特定形态的智能体,使其通过具身性获得智能能力是一大挑战。
      • 提出的DERL框架,可以让智能体通过在复杂的任务和环境中,仅依赖低层次自我中心传感信息的方式,逐步进化出多样的智能体形态,在平地、多变地形等不同环境中执行巡视、导航、避障、探索、 逃脱、爬坡、推箱子和控球等多种不同的任务。
      • 通过 DERL,研究者发现了一些环境复杂性和形态智能,控制学习能力等之间的关系。

    DERL

    • DeepMind:Open-Ended Learning中的开放环境XLand
      • 前期::《Reward is Enough》论文,假设智力及其相关能力能够被认为是为了奖励的最大化,建议通过试错经验来最大化奖励的智能体能够学习到表现出绝大多数甚至所有的这些能力的行为,因此强大的强化学习智能体可望成为AGI解决方案。
      • 通过自动生成大量不同 的环境和游戏目标,智能体可以接受各种各样任务的训练,在大规模的开放环境中,智能体甚至学会了举一反三,做到了现有深度神经网络难以做到的零样本学习。

    XLand

    • BAAI:信息模型、具身模型和脑模拟机器人的结合将诞生超级人工智能
      • 基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展,如自动驾驶、机器人、游戏中数字人。
      • 从更长远的角度出发,将人类大脑、生物大脑、机器人等研究方向结合,形成物理世界中具有真正实体性的机器人技术也会取得大发展。
        • 未来三年,这些技术将持续演变。
        • 未来五到十年,信息模型和具身模型将会结合,成为「数字超人」,在知识能力以及跟环境的互动程度上,将比以往的人类都要强。在元宇宙中,我们甚至不知道面对的是人工智能的化身还是真正的人类。具身模型和机器人也将结合,在物理世界出现能力比人类还要强的无人系统,即「具身超人」。
        • 乐观估计,在未来三十年,数字超人和具身超人可能会结合,最终诞生超级人工智能,这是人工智能的终极梦想,实现超越人类的智能系统。
  • 具身智能&元宇宙:
    • 智能体和人类代理同时在元宇宙内互动,共建元宇宙内容。
    • AI&元宇宙:
      • AIGC促进了内容元宇宙内容的生成,弥补了数字内容需求与供给的差距。
      • 元宇宙通过无数人类和智能体的建设和互动,为AGI的诞生和进化提供一个足够开放和巨大的环境和生态。
      • 「过去做AI是为了更好的游戏,现在做游戏是为了更好的AI」。

DRI,Apple 的「直接负责人」理念

Directly Responsible Individual

(题图来自 Pinterest

1 什么是 DRI?

围绕 Steve Jobs 的个性和愿景,Apple 的文化塑造过程中有一个简单而强大的工具——Directly Responsible Individual (DRI),明确直接负责人,《财富》杂志 2011 年的这篇采访中阐释的很好:

在 Apple,对于谁应该负什么责任从来没有任何混淆。Apple内部的称此为「DRI」,或直接责任人。DRI 的名字通常都会出现在会议的议程中,所以每个人都知道由谁负责。「在 Apple 举行的任何有效会议都将有一份行动清单」,一位前员工说。「每个行动项旁边都有 DRI。」当有人试图在项目中寻找正确的联系人时,在 Apple 最常听到的一句话就是「谁是它的 DRI?」

小到「行动项」,大到「One More Thing」,每件需要完成的事项都有 DRI,以对该项目的成功(或失败)负责。

2 为什么需要 DRI?

完成一项工作需要不同专业知识的人才,对企业来说,这就是团队至关重要的原因。

显然,一项任务如果没有被适当分配责任,会导致其进展和成果有限。但如果把责任分配给多人会发生什么呢?双重问责制,会使得成功的概率变高?不幸的是,情况并非如此。

在日常工作中,如果一项工作被分配给一个团队而不是一个人,其优先级和关注度会降低。当责任模棱两可时,团队中的人往往假设其他人能够处理,倾向于等待。理想情况下,有 1~2 人真的在努力,但存在一定程度的不确定性,所以整体进展推进要慢得多。

3 责任 vs 授权?

DRI 可能是经理或团队领导,他们甚至可能是一名高管。或者,他们自己可能个人负责满足他们项目的所有需求。 DRI 的选择及其特定角色将根据自己的技能组合及其分配任务的要求而有所不同。

最重要的是他们被授予了权力。

我们通常易关注 DRI 应承担的责任(DRI 中的 R),但往往忽视了其应有的授权。

在 Apple 资深软件工程师 Ken Kocienda 的新书《Creative Selection》中,一次 Demo 的过程很具代表性。

Apple 内部最令人兴奋以及害怕的场合,莫过于给 Steve Jobs 的 Demo 环节,他喜欢请 DRI 来亲自演示,因为他认为 DRI 才是该领域最资深的专家。

Ken 最初为 iPad 设计了两款软键盘,并通过一个「Zoom」键来切换。提供给 Steve 的只有一个待机界面,以及一句「试试 Zoom 键」。

在经过了很长时间的端详、凝视,以及一系列的触摸体验后,Steve 最终回过头来问 Ken:「我们只需要其中一种键盘对吗?」

Ken 有些紧张地回答:「我想是的」,但其实之前并没有考虑过精简。

Steve 接着问 Ken,「你认为应该保留哪个?」。这是这个故事中最有趣的地方,Steve 没有自己做决定,也没有问身边的高管 Scott Forstall(Apple 前 iPhone 软件部门高级副总裁), 而是问了这个键盘的 DRI——Ken。

Ken 迟疑了片刻,然后结合自己之前的体验,答道:「我喜欢大的这个,它的自动校正功能很有帮助,而且让我有触摸打字的感觉。」

Steve 很快回复道:「OK,我们就用这个。」

演示完美结束。

Steve 展现了令人惊叹的精简能力和对 DRI 的信任,Ken 也称职地做出了决策。

试想,如果当时 Ken 没有给出合理的回答,也许他将没有机会继续成为这个项目的 DRI。

4 个人决策 vs 团队协作?

为一个项目分配一个最终负责人,是否会削弱成员间有效协作的能力?

这取决于 DRI 在全力投入的同时是否能广泛协同。虽然 DRI 有权做出最终的决定,但他们应该知道如何以及何时相信其团队和同事的经验和判断。

此外,Mike Brown 在其 2015 年的文章中,认为一个优秀的 DRI 需要具备以下特质:

  1. 细节导向,兼具战略视角。
  2. 在执行和截止期的压力下保持冷静。
  3. 有很强的倾听能力,且善于提问。
  4. 能够以明智的方式改变项目(或策略或任务)的方向,以继续朝着目标前进。
  5. 擅长预测潜在问题,并及早解决。
  6. 能够在组织内成功地与高层和初级员工沟通。
  7. 从挫折中恢复的弹性。
  8. 在相似场景下的反应保持一致。

DRI 也是团队的一部分,需要与团队成员密切沟通,在实现目标的路径上保持一致,并负责最终确保团队达成目标。

机读世界

关于未来,之前写过被数字化高度解析化的全新社会,即「微粒社会」

今天写写我们是如何迈入数字化的,原因之一是不断增加的机器感知,造就了「机读世界」。

Sensor

(题图来自 Aspire Ventures

1 过去只有机器可读,将来也只有机器可读

1.1 传统的机读世界

过去:机器(可读),人类(不可读)

趋势:机器(可读),人类(不可读)

这是指超越人类感知能力范围的一系列「信号」,比如红外、紫外、射电、超声波等等。

这是一系列只有机器可「读」的世界。

随着人类对世界理解的增强,我们设计了新的工具和新的方式,机器的感知能力也在不断加强。

1.2 新的信号,服务于范围从人扩展到机器

过去:机器(可读),人类(不可读),但服务于人类场景

趋势:机器(可读),人类(不可读),为机器场景提供单独的信号

提升层面:信号

例子1:5G,uRLLC/mMTC 两大应用场景

移动通信从 1G 到 4G 时代,通信信号一直服务于「人」,围绕「手机」的应用场景展开。而到了 5G 时代,则细分出了 eMBB/uRLLC/mMTC 的多样化场景,除了 eMBB 依旧围绕于人,uRLLC 和 mMTC 场景则更多服务于「物」的连接。

5G

例子2:高精地图,实现自动驾驶的关键

严格说来,手机里的地图也只有计算机能读,只不过地图软件(百度地图/Google Maps等)将其转换成了人类可以理解并交互的形式,并将地图扩展成了平台级产品。

而高精地图拥有精确的车辆位置信息和丰富的道路元素数据信息,起到构建类似于人脑对于空间的整体记忆与认知的功能,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,更好地规避潜在的风险。

HD Maps

2 过去机器和人均不可读,将来机器可读

2.1 新的感知方式,带来新的感知能力

过去:机器(不可读),人类(不可读)

趋势:机器(可读),人类(不可读)

提升层面:感知方式

例子5: ETH,「拍摄」黑洞

ETH(Event Horizon Telescope,事件视界望远镜)的天文学家通过遍布全球的阵列望远镜,形成了一个与地球本身大小相同的 VLBI (超长基线干涉仪),「拍摄」(计算)出了第一张黑洞的照片。不仅要得益于分布式天文台的模式创新,也需要感谢超算的算力支持。

Event Horizon Telescope

2.2 新的传感器,带来新的感知维度

过去:机器(不可读),人类(不可读)

趋势:机器(可读),人类(不可读)

提升层面:传感器

例子3:iPhone X,3D 感知技术

为 FaceID 功能而设计,基于 Kinect 的深度感应技术,iPhone X 的 True Depth 相机会扫描超过 3 万个不可见的点,形成完整的 3D 扫描。

isensors

facething

例子4:Google Pixel 4,手势交互

将使用 Google 研究了多年的 Project Soli 技术,基于微型毫米波雷达来对手势进行监测,并将收录回来的雷达信号进行一系列的处理,并最终识别成各种交互手势,可以做到识别指尖级别的细微动作,如点按按钮、转动旋钮、拨动滑竿等。

Soli_Pixel_4_Sensor.max-1000x1000

radar visualisation loop

3 过去只有人可读,将来机器可读得更好

正如在《价值观载入问题》一文中提到的,「对人类很简单的事情,对机器可能极为复杂。而且这种复杂对于人类透明,在我们的生活中习以为常,往往意识不到它们的存在,如人类视觉 vs 计算机视觉。」

3.1 新的算法,带来新的感知能力

过去:机器(不可读),人类(可读),人类经过进化和自然选择而拥有的能力

趋势:机器(可读),人类(可读),且机器在感知能力赶上或超过了人类

提升层面:算法

在机器学习/深度学习等方法的不断发展和突破下,当前机器在感知世界方面的能力已经接近甚至超过人类。

特别是在计算机视觉和听觉的角度,驱动了数字世界与现实世界相连,具有极大的商业价值,也是目前 AI 商业化落地最主要的两个领域。

例子6:计算机视觉,2012 年以来,研究人员利用深度神经网络从根本上提高了机器对图像中物体的识别和分类能力,神经网络在多个领域已超越了人类的能力。

Computer Vision

3.2 新的传感器,带来新的感知维度

过去:机器(不可读),人类(可读)

趋势:机器(可读),人类(可读),且机器感知了更丰富的信息

提升层面:传感器

这是一种容易被忽视的场景:同样的设备(如镜头、交通信号灯等),过去主要服务于人,但将来将更多服务于机器,信息可被读取维度更丰富。

例子7:光电镜头,用到更全面的光信息

Coherent.ai 的全息全频机器视觉,用光电技术改善计算机视觉整体效果。 光是电磁波的一种 ,波长在几百纳米的电磁波有很多的物理量,如频率、相位、光强、光谱、偏振、方向等,普通传感器记录红绿蓝三种光强,其他信息丢掉了,这是对信息的浪费。 把 AI 算法和光电微纳结构相结合 ,可以形成光电人工智能的芯片。

light

coherent.ai

例子8:V2I,Vehicle 和 Infrastructure 间的信息交互

红绿灯的识别,将有助于自动驾驶的实现,除了依靠计算机视觉来攻克外,通过汽车与基础设施之间的信息交互,也是一种很好的信息辅助,起到「千里眼」、「透视镜」和「安全员」的作用。

V2I

4 小结

machine_vs_human

IoT、自动驾驶、自主体系、普适计算……随着未来机器的数量不断增多,其感知世界的需求会不断增强。

人类的感知能力毕竟是有限的,机器能够帮助我们更好的感知这个世界,将来还会帮助我们更好的认知这个世界。

不论是信号、算法、传感器,还是感知方式层面,都有很多的创新机会。特别是更多的传感器,意味着将促成更多的交互手段。

历史上,iPhone 的每次升级,除了UI、CPU、内存等,Apple 都在默默升级着「传感器」。最新的 iPhone X 的「刘海」只不过是为再一次「领先业界 5 年」所作的妥协,因为它需要承载「未来的交互」。

最后,如果传感器是整合一切输入的「新搜索」,那么整合所有传感器信息的「新 OS」会是什么?

价值观载入问题

在对 ASI(Artificial Superintelligence,超级人工智能)的研究中,最重要的问题之一是 Nick Bostrom 在《Superintelligence》一书中提到的「价值观载入问题」(The value-loading problem),即如何把人类的价值观赋予 AI?

成,则人类与 ASI 共存;败,则人类被 ASI 覆灭。

也就是说,无论成败,人类在构建比我们更智能的 ASI 时,都只有一次机会。

superintelligence


对能力的控制,最多只是一个暂时的辅助性手段。除非要永久地限制超级智能,否则我们都需要将价值观载入到 AI 内部,使其目标与人类目标对齐。

如果 AI 不够智能,那么它就会缺乏理解和再现那些对人类有意义的价值观的能力。但如果我们推迟进程,等到 AI 变得足够智能之后再行动,或许它可以抑制住人类在其动机系统插手的意图。

这是一个人类不得不面对的问题。

1. 价值观载入的难点

我们不可能枚举出 ASI 可能面对的所有情况,然后具体讨论每一种对策,并分别给它们赋予价值观。而只能是像公式或者规则那样抽象地表达,从而让 ASI 来决策/计算各种情况下应如何应对。

一种将这样的决策规则具体化的方式是「效用函数」。通过给每种可能面临的情况赋值,给定一个效用函数,我们就能定义一个最大化期望效用的 ASI。这样,ASI 每次都会选择期望效用最大化的行为。

创造出能够计算出某一可获得行为的期望效用的良好近似度的机器,是一个相当具有难度的人工智能问题。

难点一:如何识别终极价值观?

对人类很简单的事情,对机器可能极为复杂。1而且这种复杂对于人类透明,在我们的生活中习以为常,往往意识不到它们的存在,如人类视觉 vs 计算机视觉。

未来设计价值观载入问题的程序员,脑中可能会有一些特定的人类价值观,他希望 AI 能够发扬这些价值观。比如幸福、正义、自由、荣耀、人权、民主和生态平衡等等。

以幸福为例,在期望效用的框架下,程序员需要寻找一种效用函数,将幸福感赋值到每一个可能世界中。

难点二:如何对价值观编码?

使用高等的人类概念对其定义是不够的,如「幸福是我们人类天性中遗传下来的一种潜在的愉悦感」,而需要建立在 AI 编程语言之中,然后建立其数据基础,比如数学算子和指向存储着内容的内存地址。从这个角度,就能理解程序员这一任务的难度了。

如果不能通过详细表达(也就是写出一个详尽的效用函数)把我们希望 AI 实现的目标进行直接编程,那么还能用什么办法呢?

2. 价值观载入的技术路径

1)进化选择

既然人类价值观是依附于人体的,所以有一种信念相信,进化是一种解决价值观载入问题的途径。

进化可以被看作是一种特殊的搜索算法,包括两个步骤的交替:

  1. 根据相对较简单的随机规则来生成新的备选者,以增加备选者的数量

  2. 去掉那些在效用函数评估中得分较低的备选者,以降低备选者的数量

这个过程可能会得到一个满足具体要求的搜索标准,但难以符合我们期待的终极价值观。即人类想要一个进化成拥有和人类一样的目标和价值观的 AI,并且是有着无可挑剔的道德观服从性的大脑。

2)强化学习

强化学习,是机器学习的一个领域,研究那些能让 AI 学会将积累的回报最大化的技巧。

通过构建一个在其中表现出被期待的行为会收到回报的环境,进行强化学习的 AI 就会学着去解决很多不同类型的问题。甚至在程序员没有细致的指导、反馈,以及回报信号的情况下。

这种评价函数能在实践过程中持续更新,吸收了一种学习价值观的形式。

然而,其正在学习的并不是新的终极价值观,二是对于某种特定工具价值观的不断更准确的近似。

困难在于确保 AI 持续被激励着按我们的意图去追求所描述的价值观。

3)价值观累积

既然价值观问题是如此棘手,那人类自己的价值观是如何形成的呢?

初始的价值观可能源自生命的偏好和一系列性格倾向,并从各种不同的社会和文化经历中获取更多的偏好。也就是说,既有在进化尺度的自然选择里先天形成的,也有成人后根据人生经历逐步形成的。根据人的可塑性来说,后者可能占据更大部分。

能否基于同样的原理为 AI 建立起动机系统(获取价值观的机制)?

直观上很难。首先,形成基因机理的进化过程几乎不可能被复制;其次,价值观累积的过程中,形成与人类一致的价值观配置难且并非必要,毕竟人性也有弱点人类整体的价值观也是在不断演进中的

我们得到的,可能并不是我们想要的,

4)动机性支架

另一个解决思路是赋予种子 AI 一个临时性的目标系统,具有相对简单的、可以用明确的编码的最终目标。一旦 AI 发展出更复杂的表达能力,我们就将这个临时性的支架目标系统替换成另一个不同最终目标的系统。

这个继任的目标系统将统治 AI,并伴随其成长为完全成熟的 ASI。

危险之处在于,前期的支架目标对于 AI 来讲并不是工具性目标,而是最终目标。所以 AI 可能会抵制试图替换掉它们的企图。如果 AI 成功阻止了支架目标的替换,这种方式就失败了。

为了做到这一点,或许需要控制/阻碍 AI 在某些方面的认知能力,比如战略、权谋等等,并允许无害的能力发展到更高的水平。此外,也可以在支架系统中纳入欢迎来自程序员指导的目标,以允许他们替换 AI 任何的当下目标。

5)价值观学习

此方法在 AI 发展和运行的整个过程中,都保持着不变的终极目标,而只改变 AI 对于目标的信念。

其基本原理可以用以下比喻来阐释:

假设在一张纸上写下一系列价值观的描述,然后放进一个信封封好。如果我们赋予 AI 以下终极目标:「在最大程度上实现这个信封里描述的价值观。」

起初 AI 并不清楚信封里的价值观是什么,但它可以假设并基于任何可以获取的经验数据,对这些假设分配概率。随着 AI 对这封信了解的越多,它会更高效地去追求它所发现的价值观。

我们可以把这种 AI 比喻成一艘被很多拖船朝不同方向拉的驳船。每艘拖船都与一个最终价值观的假说相对应。每艘拖船的引擎动力对应于假说概率,随着新证据的引入会发生变化,从而对拖船的运动方向做出调整。形成的合力应有助于其学习隐藏的终极价值观,同时也避开无法挽回的隐患。

6)仿真调节

如果机器智能通过全脑仿真的方法实现了,那么增量的方法可以和技术相结合,以修改系统的遗传目标,即动机很有可能会通过药物的数码等价物或其他方法来修改。

即使仿真被促进形成 ASI,能否使价值观以足够精确度被载入并确保安全性,仍是一个开放性的问题。

与使用生物性实验对象一样,对仿真的研究也会涉及伦理问题,比如是否允许上传/下载记忆、是否认可数字生命的存在?

这些道德问题带来的另一种可能是,让不太慎重的团队或是国家成为领导者(比如贺建奎),整个人类会面临更大的危险。

7)体制设计

人类世界里的公司和国家,是由子智能体所组成的。这种复合系统的动机不仅取决于其组成部分的子智能体的动机,也取决于这些子智能体是如何被组织起来的。

比如,专制体制下组织起来的群体,可能表现出和统治者一致的意志;而一个民主的群体则有时更会表现出在其组成部分的综合意志下的行动。

通过为复合系统设计一个合适的体制,便可以让其中的 AI 形成有效的动机。如果我们从已经具有类人动机的 AI 开始着手,体制的安排可以作为一种附加的保障

当出现新的增强功能时,通过在一个小的智能体子集中进行小流量测试,其效果会在之后被未被改变的子智能体复审组来研究。

可能会有人质疑,这样的管理体制是否能保持稳定。毕竟,在民主制度下,人类并不总是被最有能力的人掌握权力,在社会像软件那样运行的背景下,这个问题就更不确定了。

3. 下一步

即使已经有了人类水平的 AI,如何将人类价值观转入其中仍未解决。以上这些路径,值得进一步探索。

如果我们知道了如何解决价值观载入问题,可能就要面对更深入的问题,决定哪种价值观应该被载入

换句话说,我们想要 ASI 如何思考?而这,是一个哲学问题。


  1. 人类经过长期的进化,大脑已经不是一种「通用型」的学习器官,而是「专用型」(Domain Specific),有其擅长和不擅长的领域,可参考 Hans Moravec 的「landscape of human competence」。 

CT 与 IT 的融合与机遇

CT + IT

1. 缘起:传统电信基础设施创新不足,力求创新与变革

每天,全世界有更多的人和更多的设备上网,分享照片、视频等数据密集型体验变得越来越容易。但传统电信基础设施的扩展并不如预想的那样快,特别是和开源的 IT 领域相比。

电信运营商也对传统设备商越来越沮丧,希望在网络技术的发展中更具影响力,于是选择拥抱白盒、虚拟化和开源等开放性技术。

1)Telecom Infra Project

蜂窝网络扩展停滞的原因之一是基础设施过于昂贵,如果不是出于社会责任(如中国政府要求的普遍服务),从在理性和利益最大化的驱动下,电信运营商没有内在的动力为偏远地区和人群提供电信服务。

2016 年,Facebook、Intel、Nokia、DT 和 SKT 联合发起成立 TIP,将运营商、基础设施提供商、系统集成商以及其他的科技企业聚集到一起,共同合作发展新技术,主张用开放的创新技术改变传统电信基础设施建设方式。目前 TIP 会员数量已超过 500 家,中国移动研究院和中国联通在列。

TIP 包含 Access、Backhaul、Core and Management 三大研究方向,以及无线射频解决方案、公共基础设施、路由和传输系统、系统和容量管理四个研究组,Facebook 在其中担任了三个研究组的 Director。

TIP Projects

Facebook 试图借助 TIP 构建一个成本相对低廉、分布式工作(即使无法接入主干网络仍能工作)、开放标准的接入平台,这一思路体现了 IT 企业与 CT 企业对于建网思路的区别。

2)Telecom Track

在 TIP 的基础上,两家 TIP 成员企业 Orange 和 Facebook,在 2017 年联合推出了首期 Telecom Track 加速器,专门投资从事网络基础设施创新的初创企业,获胜的初创企业包括:

  • Adipsys:提供热点管理方案的软件编辑器,重点服务于业务集成商和运营商
  • Horizon Computing:基于开源,研发面向电信行业数据中心的设备
  • Athonet:开发移动边缘核心网软件,2016 年赢得 GSMA 全球移动大奖,2018 年基于核心网云化开发了 LTE 专网,并在 Amazon 上公开售卖
  • Amarisoft:提供 LTE 软件套件,包括基站、改进的分组核心和电话软件栈,在合作伙伴和集成商社区处于中心位置

CT 领域传统上并没有大量的风险投资,Orange 和四家风险投资合作伙伴承诺在未来三到四年内向电信基础设施初创公司投资高达 1 亿欧元,虽然总额看起来相对较小,但对传统设备商来说仍是一次预警。

对于 Orange 来说,最终目标是对其传统构建网络的方式进行全面改革。Orange Digital Ventures的投资经理Etienne Moreau说:「如果我们希望控制我们的技术并成为一家软件公司,我们需要进入白盒等新技术,并摆脱我们从设备供应商那里采购的黑盒子。」

2. 契机:伴随着 5G 网络云化,CT 与 IT 的趋向融合

5G 网络对基础网络架构的去中心化和云化趋势提出了更高的要求,其整体网络架构从逻辑上呈现为「三朵云」。

5G Network Architecture

在这一架构趋同的过程中,CT 与 IT 企业之间的业务范围会产生越来越多的重叠。开源、开放、智能、解耦等关键词逐渐进入 CT 的视野,并为 CT 与 IT 的进一步融合提供了契机。

对 CT 来说,为了云化改造、边缘计算、布局 AI 摆脱哑管道,需要寻求云计算、AI 等 IT 能力等支持,网络的建设、运维理念也将在架构变化的过程中改变;对 IT 来说, 则一直希望通过网络能力和资源的加持,改善连接性能、更新连接技术、拓展连接形态,以更好地支持业务的布局和创新。

3. 布局:CT->IT,运营商以开源争夺新兴领域主导权

网络云化促使运营商转向 VM、容器等开源方向,以 AT&T 为代表的运营商已在开源领域广泛布局,争夺新兴领域的主导权。 CT Open Source

1)以边缘、AI 为切入点布局新兴领域,并以网络为开源生态赋能

AT&T 主动扩展到 LF Edge、LF AI 等新兴开源社区,意图抢占边缘和 AI 领域的事实标准。

  • LF Edge:AT&T 发起的 Akraino,代表了运营商视角支持不同边缘场景的蓝图(Blueprint),如 5G、IoT 等
    • LF AI 初始项目,打造开箱即用的通用 AI 开发环境
    • 采用微服务架构理念,可让用户直接加载/发布 AI 模型,并以容器方式导出
    • 有意在 AI 领域中占据 AI Model Marketplace
  • LF AI: AT&T 发起的 Acumos,用于屏蔽基础架构的差异,打造标准化的 AI Apps 开发环境
    • LF Edge 初始项目,适用于多边缘场景的软件栈
    • 基于 Use Cases,将开源软件打包成多种适应不同场景的边缘软件栈 Blueprints,并加入 Cloud Native 的设计原则
    • 核心在于解决多种开源软件之间的互操作以及外部 API 接口,方便用户快速部署边缘服务
    • 有意占据边缘软件栈标准
  • 此外: AT&T 还主导 LFN 社区,DANOS(针对虚拟网络环境下白盒服务器的操作系统项目)等网络相关项目

而以运营商为主导的 LFN 社区,更主张「网络成为开源生态的赋能者」,推出 「Harmonization 计划」,不断拓展与其他开源社区联系,其中:

  • Harmonization 1.0:关注电信网络开源项目的整合
  • Harmonization 2.0:关注网络与云&容器、跨云跨项目跨领域的整合
  • Harmonization 3.0:关注边缘和电信云与企业间的协作,加强业界实践

Path to harmonization 2.0

2)电信网络架构依托开源实现 VNF 向 CNF 的迁移,后续或追随云原生演进路径

为支持下一代服务和应用程序,网络对可扩展性,自动化和弹性的需求日益高涨,而这正是云原生架构的固有特性。

电信网络架构从 VNF (Virtual Network Function) 到 CNF (Cloud-native Network Function) 演进,将具有改进打包方式节省成本、提高开发速度、改善单个 CNF /服务器/数据中心的故障恢复能力等优势,因此容器化将成为运营商网络转型的基石之一。

而随着运营商将 VNF 演变为在 Kubernetes 上运行的 CNF,增长最快的两个 LF 项目 ONAP(LFN 旗下项目)和 Kubernetes(CNCF 旗下项目),将在下一代电信架构中融合,以增强可扩展性,自动化和弹性。

  • 网络架构 1.0(过去):各个组件均是独立的硬件设备(如路由器、交换机、防火墙)
  • 网络架构 2.0(现在):将物理机转为运行在 VMware 或 OpenStack上 的 VNF
  • 网络架构 3.0(未来):运行在 Kubernetes 和跨云环境的 CNF,硬件仍与 2.0 一致

VNF -> CNF

VNF 向 CNF 迁移的 Roadmap 中所涉及的项目包括:

  • ONAP:Network Automation,分别有子项目拓展 ONAP 在多架构环境和 Kubernetes 上部署和运行
  • OPNFV:NFV Platform,最新的 OPNFV 在 9 个项目中扩展了对 CNF 的支持
  • Istio:Service Mesh,用于微服务应用的可配置基础架构层
  • LIGATO:Network Runtime,提供用于开发 CNF 的平台和代码示例
  • cncf.ci:Cross Cloud CI,确保所有云原生技术的跨项目互操作性和跨云部署
  • (Network) Service Mesh:面向 L2/L3 负载的服务网格

其中,OPNFV 已与多个 CNCF 项目进行了集成:

  • Service mesh (Istio, Envoy)
  • Logging (Fluentd)
  • Tracing (OpenTracing, Jaeger)
  • Monitoring (Prometheus)
  • Package management (gRPC)

后续或追随 CNCF 的演进路径,持续向上层应用演进。

4. 布局:IT->CT,科技巨头也不断向电信领域渗透

IT to CT

1)Google:杠杠撬动运营商,以改善全球连接

Google 注重以较小规模的自有项目来撬动更大规模的运营商投资,以改善全球连接的不足,最终提升互联网总流量。

  • 2013 年,推出 Google Fiber,提供引领行业的千兆光纤宽带
    • 安装速度:采用 shallow-trenching 技术,安装速度提升 4-6 倍
    • 性价比:70 美元享受千兆网络服务,120 美元享受千兆网络和电视服务
  • 同在 2013 年,Google X 实验室孵化 Google Loon,提供热气球通信网络
    • 弥补连接不足,成为 Useful Niche:在缺乏电信基础设施的非洲等地推动,激发当地流量需求
    • 帮助灾害地区恢复网络建设:与 T-Mobile 等合作,向受自然灾害影响的地区提供移动覆盖
    • Loon 定制系统授权用于卫星通信:和加拿大卫星公司 Telesat 建立合作伙伴关系,将用于控制 Telesat 的低地轨道卫星
  • 2015 年,推出 Google Fi,提供全球性虚拟运营商服务
    • 性能和定价上超越运营商:专有的 SIM 卡技术允许服务自动切换到最强的载波信号
    • 提供 170+ 国家的网络覆盖
    • 账单保护:超过 6GB /月的用户账单上限为 80 美元
    • 提出与其他MVNO的共享模式:以期能更有效地利用频谱资源
  • 2016 年,推出 Google WiFi,强化现有网络的性能和覆盖
    • 家庭 WiFi:Mesh 路由器
    • Public WiFi :城市公共场所
    • 欠发达地区 WiFi:由 Google Station 提供免费 WiFi 接入
    • 空中 WiFi:或购买诺基亚飞行 WiFi 系统,但技术细节未透露

单看每个项目,Google 并未盈利,但却通过最先进的技术、最有竞争力的价格,最大程度地激发了用户的流量需求,也促使运营商不断跟进投资,产生了用户与流量的正循环。

2)Facebook:革新电信技术,以受益于连接改善

Facebook 将提升 Connectivity 作为使命,多年来致力于通过技术创新使电信行业更加开放和高效。

Facebook connectivity initiatives

进入 2010 年以来,Facebook 发起成立了一系列组织:

  • 2011 年,Facebook 发起成立 Open Compute Project (OCP) ,把「开源」概念引入数据中心硬件,推动不同公司共享数据重新产品设计,以实现最高效的服务器,存储和数据中心硬件设计,和可扩展的计算

  • 2014 年,Facebook 在内部成立了 Connectivity Lab,探索新的航空航天和通信技术

  • 2016 年,联合发起成立 TIP,作为创始成员与 500+ 运营商合作,TIP 也成为 Facebook 参与电信业创新的重要渠道

而在 2016 年的 F8 大会上,Facebook 进一步明确提出了「10 Year Roadmap」,其中「Connectivity」是未来 10 年需要发力对三大核心技术领域之一。

Facebook's 10 Year Roadmap

目前,Facebook 自身在 Connectivity 和 TIP 中已取得了一定的成果:

  • 业务创新:
    • Analytics:业务分析工具,帮助运营商识别网络业务机会,改善产品体验
    • Free Basics:与运营商合作发布 Internet.org,免费提供基本的在线服务
    • Express WiFi:帮助运营商和互联网服务商改进 WiFi 业务
  • 蜂窝网络技术创新:
    • Terragraph:多节点的无线系统,帮运营商降建网成本,开源核心模块 Open/R
    • OpenCellular:开源无线接入平台,集成多种回传方式
    • Magma:开源移动核心网解决方案,允许运营商更容易地部署移动网络,可支持各代接入网
  • 新兴连接技术创新:
    • Aquila:太阳能无人机通信,因故障较多已被叫停,转为与其它公司合作开发高空互联网传输系统,处理频谱分配等
    • Athena:低轨道卫星通信,目的是有效地为全球范围未有网络服务和服务不周到的地区提供宽带接入
  • 等等

Facebook 视电信运营商为盟友,主要关注点在于通过开源开放对传统电信领域进行技术改造,以期自身可在全球运营商连接的改善中受益。

3)Microsoft:作为解决方案商,技术赋能电信业

Microsoft 在电信领域对战略定位,是成为电信云化的战略性供应商。其全球工业技术战略总监 Rick Lievano 认为:5G的杀手级应用是泛在连接,起于电信运营商,Microsoft 致力于帮助运营商改善运营、客户关怀,创造新的收入来源。

Cloudification of Telco Infrastructure

从赋能实践来看:

  • Microsoft + AT&T
    • Microsoft 与 AT&T 签署为期 5 年、价值 20 亿美元的合作协议
    • Azure 成为 AT&T 的首选云服务商,后续双方还将在边缘开展合作
  • Microsoft + Telefónica
    • 结合 AI、区块链、边缘计算等加速 Telefónica 网络转型
    • Azure AI 支持 Telefónica 的 Home as a Computer 愿景
    • 探索 Aura 和 Azure 认知服务在客户关系渠道的扩展
  • Microsoft + TIM:
    • AI 战略合作关系,TIM 将在各项业务层面引入 Microsoft 的 AI 平台技术
    • 双方将基于大数据、AI 合建可定制化产品的系统
  • Microsoft + Vodafone
    • 为 Vodafone 提供数字助手,可解决 80% 的客服问题

Microsoft 将运营商视为重要合作伙伴,利用 AI、区块链、云等技术推进运营商数字化转型,意图在电信云化的合作中受益,以此带动 Azure 的扩展。

4)Amazon:或颠覆电信技术架构和商业模式

Amazon 的布局兼顾近期和远期。

近期,着眼于储备 5G 关键技术之 SDN/NFV 的人才,意图使能网络定制化、开放化和服务化,以面向万物互联和各行各业。已招揽的人才包括:

  • 前 ETSI 的 NFV-ISG 副主席 Tetsuya Nakamura,任职 AWS 的合作伙伴方案架构师
  • 前爱立信 IT 和云服务主管 Jean-Philippe Poirault,任职 Amazon 全球电信业务副总裁

远期,则有对连接的多方面创新探索:

  • 打造天地一体化网络:Project Kuiper +AWS Ground Station
    • 低轨道卫星通信 Project Kuiper:计划将 3236 颗卫星送入近地轨道,为全球无服务和服务不足的地区提供低延迟、高速宽带连接,覆盖世界 95% 的人口,一旦成功,将迎来 40 亿增量用户
    • 卫星地面站服务 AWS Ground Station:一个由 12 个地面站组成的全球网络,控制卫星通信,快速提取和处理卫星数据,将数据与在 AWS 云中的应用程序和其他服务快速集成
  • 基于核心网云化,销售公有云 LTE 专网:Athonet 的 BubbleCloud
    • Athonet(之前提到的 TIP 加速器企业)在 AWS Marketplace 售卖 LTE 专网解决方案 BubbleCloud,基于公有云的 5G 核心网
    • 云化核心网部署于 AWS 之上,并将部分功能下沉到边缘节点,可部署工业物联网、企业、智能城市、智能电网和车联网等领域的 LTE 专网

Amazon 的布局是希望打造端到端的连接服务,Connectivity 是对在线服务的交付,与 Amazon 擅长的实体物品交付类似,既可以作为 Prime 一环,也可在 AWS 或 ToB 交付中改善端到端的服务体验。

5)Alibaba:布局边缘节点,搭建卫星物联网

阿里更多是从自身业务发展的角度布局电信领域。

首先,基于运营商边缘节点和网络构建边缘计算产品矩阵

  • Link IoT Edge,连接最后 1 公里的 IoT 边缘计算平台,支持 50+ 连接协议
  • ENS(Edge Node Service),连接最后 10 公里的边缘节点服务,将计算、转发等业务下沉至边缘,全部边缘节点总数超过 300 个,平均每个运营商在每个省份的覆盖是 3 个

其次,与铁塔公司达成站址合作,意在边缘计算

  • 铁塔提供遍布全国近 190 万站址及配套设施支撑,阿里可依托站址资源增强边缘计算能力,打造云边端协同一体化的云计算服务体系
  • 未来,二者还将加快面向 5G、自动驾驶、车联网、新能源、智能设备等领域的探索布局

此外,还有「一站一星」,意图自建全球物联网

  • 发射「糖果罐号」迷你空间站和「天猫国际号」通讯卫星
  • 当前已经用于服务「双十一」活动
  • 未来可能通过建设低轨卫星通信搭建全球互联网体系,解决目前难以覆盖的偏远地区物流和通信问题

阿里通过对边缘资源和新型连接方式的布局,在有意减小对运营商网络的依赖。

6)Huawei:引领 CT 兼顾 IT,践行 CNF+AI 策略

华为电信网络解决方案架构过去十年经历三重演进。

  • Single:2005 年,实现支撑10年的技术平滑演进,一个团队维护多种网络
    • 「All IP」时期
    • 多张垂直网络合一
  • Softcom:2011 年,提出 All Cloud 战略的三个阶段,最终以 Cloud Native 的方式实现全云化网络
    • 「All Cloud」时期
    • 融合云计算和 SDN 技术
    • Cloud Native 实现全云化
  • Softcom AI:2016 年,在全云化网络基础上引入 AI 能力,使网络具有自动、自治、自愈、自优等特点
    • 「All Intelligence」时期
    • 全云化网络引入 AI 技术

近期一个值得关注的布局,是携手联通推出公有云核心网解决方案,有望吸引更多运营商客户在公有云托管核心网,打造更加灵活的专网覆盖。

China Unicom - Network as a Service

华为是通信技术的引领者,其多年在 CT 领域的技术沉淀,或将为其云和 ToB 方案带来网络连接方面的差异化优势。

5. 趋势判断:CT 与 IT 的融合与竞合,将重塑产业边界

1)当前的合理预期

  • 边缘计算 & AI 领域, CT 与 IT 形成竞合
    • 兼具技术与场景,将是双方的竞争焦点
    • 架构趋同,带来资源/平台层面的合作机会
  • 开源通信技术栈
    • 在 TIP 和网络初创企业的创新驱动下,将形成完整的开源通信技术栈(含 Cellular)
    • 与开源网络生态 Harmonization 进一步融合
  • 天地一体化通信
    • 低轨道卫星通信被认为是最有前途的卫星通信系统,也是 6G 中的热点
    • 边缘计算/ DEC 将扩展至低轨道卫星通信

2)关键的不确定性

  • AI 体系结构
    • 通信与互联技术创新,对体系结构的影响?
    • 连接和云之间的界限变得模糊?
  • 核心网(开源/商业软件栈)云化
    • 核心网 in 公有云成为趋势?商业模式?
    • 核心网云化+专网,解决 ToB「最后一公里」连接问题,边缘场景替代运营商?
  • 6G & Beyond
    • 单一网络/架构无法提供所有服务?
    • 形成更多互补性连接技术/形态?
    • 各个企业都能成为「运营商」?

总的来看,边缘计算、5G 网络云化、合作赋能和 AI 体系结构是双方相结合能产生重大机遇的环节。

不过,国内与国外的政策环境具有显著差异。国内是垄断市场,互联网公司不能触碰 Connectivity。未来随着中美贸易战的持续深入,相关政策是否会松动,值得持续关注。


感谢 乐小清、McBang 对本文初稿的贡献。