Liang FANG’s Blog My Thoughts On Everything

具身认知学习笔记(20220227)

Embodied Cognition

(题图来自 Jelle van Dijk

具身认知(Embodied Cognition),从最初的哲学思辨,随着心理学的不断思考,正逐渐转向实证研究,并影响了人工智能的演进。

1 哲学视角:最初的哲学思辨,身心是一元还是二元?

  • 笛卡尔:「我思故我在」
    • 主体vs客体。
    • 认知独立于身体。
  • 梅洛·庞蒂:知觉现象学
    • 认为人知觉的主体是身体,而身体是镶嵌在世界的里面,就好比人的心脏镶嵌在身体里面一样。
    • 知觉、身体和世界三者是一个统一整体,人可以产生知觉和认识世界,是通过人的身体和世界中的其他的物体发生互动的结果。

2 心理学视角:行为主义的回归,还是认知主义的新取向?

  • 什么是认知?
    • 是个体认识客观世界的信息加工活动,是概念在大脑中形成的过程。
    • 如果把大脑比做计算机「硬件」,那么认知就是其上运行的「软件」。
  • 传统认知主义:
    • 符号主义(Symbolism):
      • 以计算机模拟为基础的符号加工模式,基本信条是「认知是可计算的」。
        • 认知过程类似于计算机对信息的处理、操作和加工。尽管两者的结构和动因可能不同,但功能上都是一种「计算」。
        • 计算机和人脑都是符号加工的形式系统,计算机依据逻辑规则,认知过程依据先天或后天的理性规则,以形式化的方式对大脑接收到的信息进行处理和操作。
        • 典型例子: Alan Turing在1936年提出的图灵机概念,有限的符号最终可生成无限的信息。
        • 总之,认知虽然表现在包括大脑在内的身体上, 但是却不依赖于身体, 其功能是独立的。
    • 联结主义(Connectionism):
      • 以神经的网状结构和并行加工原理为基础的联结主义模式(Connectionism)。
        • 受神经科学发展推动。
        • 试图找寻认知是如何在复杂的联结和并行分布加工中得以涌现的。
        • 典型例子:深度神经网络(DNN)取得了巨大的成功。
  • 新阶段/思潮:
    • 具身认知(Embodied Cognition):
      • 强调「身体在认知的实现中发挥着关键作用」:
        • 认知是包括大脑在内的身体的认知,身体的解剖学结构、身体的活动方式、身体的感觉和运动体验决定了我们怎样认识和看待世界,我们的认知是被身体及其活动方式塑造出来的。
        • 认知是具体的个体在实时的环境中产生的,储存在记忆里的认知信息并非抽象的符号,而是具体、生动的,同身体的特殊感觉通道相联系。
        • 认知、身体、环境是一体的,认知存在于大脑,大脑存在于身体,身体存在于环境。
        • 它不是一个运行在「身体硬件」之上并可以指挥身体的「心理软件」。
      • 假设:如果我们拥有蝙蝠的生理结构, 我们所感知到的世界就完全不是现在的样子。我们感知到的世界同我们身体的解剖学结构是密切相关的。
      • 实证研究:
        • Wells & Petty (1980):点头的身体运动增强了积极的态度,而摇头的身体运动强化了消极的态度。
        • Stepper & Strack (1993):情绪是具身的,认知并不是情绪形成的唯一因素,身体及其活动方式对情绪与情感的形成有着重要作用。
        • Spence & Nicholis & Driver (2001):实验者考察被试在使 用不同感觉通道加工信息时, 从一个通道转向另一个通道所耗费的反应时,身体的感觉运动系统在认知过程中发 挥了重要作用。
        • ……
      • 传统认知主义vs具身认知:
        • 传统认知主义:视身体仅为刺激的感受器和行为的效应器。
        • 具身认知:赋予身体在认知的塑造中以一种枢轴的作用和决定性的意义,在认知的解释中提高身体及其活动的重要性。
  • 行为主义vs认知主义
    • 行为主义:否认或贬低认知过程,或者把高级心理过程归结为「肌肉收缩」和「腺体分泌」,或者认为发生在中枢神经系统中的高级心理过程只不过是一些生理性的「中介变量」。
    • 认知主义:认知心理学的产生推翻了行为主义的假设,把思维、记忆、 推理等高级心理过程置于一个重要地位,认为决定行为的正是这些内部的认知机制。
    • 争议:
      • 钟摆似乎又转向了相反的方向,正在回归到行为主义的假设。
      • 具身认知仍然是认知,只不过这种认知并非纯精神的,而是一种通过身体及其活动方式而实现的适应环境的活动。
  • 以Lawrence Shapiro为代表的学者提出的具身主义浪潮会在不远的将来到来。
    • 主体身体的属性限制或约束了主体能够习得的概念。
    • 认知过程的核心在于主体和环境的交互而不是表征和算法操作。
    • 身体和世界在认知过程中起到构成而非仅因果作用。

3 神经科学视角:具身认知的生物学机制,更为客观?

  • 具身认知观:
    • 心智是具身的神经生物现象。
  • 镜像神经元:被认为是具身认知的根源之一
    • 灵长类大脑中的镜像神经元组则储存了特定行为模式的编码。这种特性不单让我们可以想都不用想,就能执行基本的动作,同时也让我们在看到别人进行某种动作时,自身也能做出相同的动作。
    • 由于有镜像神经元的存在,人类才能学习新知、与人交往,因为人类的认知能力、模仿能力都建立在镜像神经元的功能之上。
    • 有些研究者甚至断言:镜像神经元之于心理学,犹如DNA之于生物学。
  • 具身模仿论:为具身认知提供全局性解释理论
    • Galese & Fogassi等(2005)提出。
    • 各种各样的镜像神经元匹配系统在我们所持有的关于自我和他人身体的经验性知识中起协调作用。
    • 这种与身体紧密联系的「经验性知识」使得我们能够直接理解他人动作的意义。
    • 这种「共享簇」在功能层面可以定义为具身模仿。
  • 两者结合,通过有效地共享他人动作表征、意义与意图,为认知具身化的合理性奠定了基础,并重新赋予「身体」在科学心理学研究中的重要地位。

4 人工智能视角:具身智能与强化学习,是认知世界的最佳方式?

  • 传统智能:
    • 由于程序从功能上是独立于硬件的,那么理论上,认知独立于大脑在内的身体。
    • 对应于信息处理认知「软件」和大脑「硬件」的划分,出现了「离身的」(disembodied)心智/认知(mind)。
    • 「离身的心智表现在人脑上,就是人的智能,表现在电脑上,就是人工智能」。
    • 人工智能的几次繁荣和低谷都与符号主义和联结主义认知科学的发展密切相关。
  • 具身智能(Embodied Intelligence):假设智能行为可以被具有对应形态的智能体通过适应环境的方式学习到
    • 背景:距离AGI还有相当的距离
      • 样本量小、泛化能力差、能耗大、语义理解欠缺等瓶颈。
      • 近年来,深度学习在封闭环境和静态规则领域取得了巨大的进步,但面对开放环境和动态规则,仍面临巨大挑战。
    • 前提:具身认知,认为人的认知过程无法脱离身体而进行。
    • 推广:具身智能,整个环境和个体的行为同样是认知的重要组成部分,智能体(Agent)通过感知外部环境,产生思想并通过计算后,生成相应动作与环境交互,以此改变和影响环境,这个过程周而复始,产生智能。
    • 假设:在自然界中,动物利用其形态来学习复杂的任务,获得显着程度的具身智能。
  • 具身认知与强化学习:Reward is Enough? 基于强化学习取得了前所未有的突破
    • 李飞飞等:深度进化强化学习框架DERL
      • 在强化学习中,创建具有特定形态的智能体,使其通过具身性获得智能能力是一大挑战。
      • 提出的DERL框架,可以让智能体通过在复杂的任务和环境中,仅依赖低层次自我中心传感信息的方式,逐步进化出多样的智能体形态,在平地、多变地形等不同环境中执行巡视、导航、避障、探索、 逃脱、爬坡、推箱子和控球等多种不同的任务。
      • 通过 DERL,研究者发现了一些环境复杂性和形态智能,控制学习能力等之间的关系。

    DERL

    • DeepMind:Open-Ended Learning中的开放环境XLand
      • 前期::《Reward is Enough》论文,假设智力及其相关能力能够被认为是为了奖励的最大化,建议通过试错经验来最大化奖励的智能体能够学习到表现出绝大多数甚至所有的这些能力的行为,因此强大的强化学习智能体可望成为AGI解决方案。
      • 通过自动生成大量不同 的环境和游戏目标,智能体可以接受各种各样任务的训练,在大规模的开放环境中,智能体甚至学会了举一反三,做到了现有深度神经网络难以做到的零样本学习。

    XLand

    • BAAI:信息模型、具身模型和脑模拟机器人的结合将诞生超级人工智能
      • 基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展,如自动驾驶、机器人、游戏中数字人。
      • 从更长远的角度出发,将人类大脑、生物大脑、机器人等研究方向结合,形成物理世界中具有真正实体性的机器人技术也会取得大发展。
        • 未来三年,这些技术将持续演变。
        • 未来五到十年,信息模型和具身模型将会结合,成为「数字超人」,在知识能力以及跟环境的互动程度上,将比以往的人类都要强。在元宇宙中,我们甚至不知道面对的是人工智能的化身还是真正的人类。具身模型和机器人也将结合,在物理世界出现能力比人类还要强的无人系统,即「具身超人」。
        • 乐观估计,在未来三十年,数字超人和具身超人可能会结合,最终诞生超级人工智能,这是人工智能的终极梦想,实现超越人类的智能系统。
  • 具身智能&元宇宙:
    • 智能体和人类代理同时在元宇宙内互动,共建元宇宙内容。
    • AI&元宇宙:
      • AIGC促进了内容元宇宙内容的生成,弥补了数字内容需求与供给的差距。
      • 元宇宙通过无数人类和智能体的建设和互动,为AGI的诞生和进化提供一个足够开放和巨大的环境和生态。
      • 「过去做AI是为了更好的游戏,现在做游戏是为了更好的AI」。