Liang FANG’s Blog My Thoughts On Everything

AI风险的视角

AI的风险分析是AI伦理与治理的关键前置环节,我的态度是不低估、不夸大、客观研究、积极应对。

1 分析维度

  • 产生原因:事故风险、滥用风险、结构风险
  • 产生方式:算法、数据、应用
  • 时间范围:近期、远期
  • AI能力:ANI、AGI、ASI
  • 持续时长:即时、长期
  • 影响程度:小影响、中影响、大影响、极端影响
  • 确定程度:小概率、中概率、大概率
  • 生命周期:研发、供应、使用
  • 特定风险:需具体模型具体分析
  • ……

2 维度解读

2.1 产生原因

因果链的角度,分析产生风险的各种直接和间接原因。可能包括:

  • 事故风险(Accident risks):AI系统异常行为的危害。
    • 如AI对环境的误解从而导致自动驾驶汽车的事故。
    • AI越来越多地被嵌入到安全攸关的重要系统中,如车辆和能源系统,事故的潜在成本提升。
    • 应对:增强鲁棒性、保证性、规范性等。
      • 鲁棒性(Robustness):确保系统即使在不熟悉的环境中也能继续在安全范围内运行。
      • 保证性(Assurance):确保它可以被人类操作员轻松分析和理解。
      • 规范性(Specification):确保其行为符合系统设计者的意图,如更先进AI系统的价值对齐(Value Alignment)问题。
  • 滥用风险(Misuse risks):人们以不道德的方式使用AI的可能性。
    • AI的双重用途性质(Dual-use) ,如Deepfake,可能被用于政治干扰或钓鱼攻击。
    • AI和自主机器的进步激发了人们对自动化武器的担忧。
    • 应对:出版前审查,以及其他可能阻止不道德行为者获得或使用强大AI功能的措施;OpenAI,分阶段开放+合作伙伴共享。两种方式对 GPT-2 模型进行开源;国外主要云服务商,陆续不再提供通用人脸识别API。
  • 结构风险(Structure risks):环境和激励机制被技术微妙塑造而产生的风险。
    • 滥用风险、事故风险及相关的治理政策,都只聚焦了影响因果链的最后一步。
    • 过去:第一次世界大战中,铁路等技术,即使没有被故意滥用,也可能产生深远的负面影响。
    • 当前:核战略稳定、垄断市场、劳动力转移、隐私侵犯等。
    • 应对:增加结构视角,政策干预的机会也会更大。

causal

2.2 产生方式

数据和算法也是当前AI治理的重点治理对象:

  • 算法风险:如算法漏洞存在安全隐患、算法偏见导致歧视政策,算法治理要加强算法规则的透明度、可靠性、可解释性和可验证性。

  • 数据风险:如隐私保护、个人敏感信息的识别和处理,数据治理要明确数据权属以及隐私保护规则,数据共享的机制,以及相应的保护和惩罚措施。

2.3 时间范围

可能存在多种维度:

  • 被认为是「近期」的问题往往是由于当前/可预见的AI系统和能力而在当前/不久的将来出现的问题,其规模/严重程度各不相同,主要对人类和社会产生直接影响。
  • 被认为是「长期」的问题往往是由于AI能力的巨大进步(特别关注TAI或AGI)而在遥远的未来出现的问题,以及那些可能构成风险的问题是严重的/大规模的,具有非常长期的后果。

2.4 AI能力

是关注当前AI系统的影响和挑战,还是更先进AI系统造成的影响和挑战。从能力、影响、速度的维度看:

  • Artificial Narrow Intelligence (ANI)
    • 擅长单一领域,或超越人类
    • 意味着工作增强
    • 当前AI在部分领域已达成
  • AGI Artificial General Intelligence (AGI)
    • 在所有任务都可与人类匹敌
    • 意味着工作被替代的风险
    • 也许几十年后达成
  • ASI Artificial Super Intelligence (ASI)
    • 在所有任务都远远超越人类
    • 意味着人类被替代风险
    • AGI之后很快达成

2.5 持续时长

是主要关注AI对社会的即时和直接风险,还是考虑未来可能产生的风险。

  • 即时风险(Immediate risks):意味着短期内就能看到产生影响,但是否需迫切应对需要看影响程度和持续时长。
  • 长期风险(Long-lasting risks):意味着持续积累作用于未来影响,对人类社会的影响可能更为深远。

2.6 影响程度

是关注所有规模的风险,还是优先关注那些规模可能特别大的风险。其中:

Existential risk(生存性风险,X-Risk)是牛津大学Nick Bostrom于2002年提出的概念。他将其定义为:「生存性风险是威胁起源于地球的智能生命过早灭绝或对其未来发展潜力的永久和剧烈破坏的风险。」

X-Risk划分为四级,是与广义的技术成熟度联系起来加以定义的:

  • 人类灭绝(Bang):源自地球的智能生命在相对突然的事故或蓄意破坏导致的灾害中灭绝。
  • 永久停滞(Crunches):尽管人类以某种形式继续存在,但人类发展为后人类1的潜力永远受到阻碍。
  • 有损实现(Shrieks):某种形式的后人类已经实现,但它受限于可能和可取带宽的极小范围。
  • 后续毁灭(Whimpers):后人类文明出现了,但其发展方向逐渐但不可逆转地导致我们所珍视的事物完全消失,或者导致这些事物的实现仅达到本可实现的极小程度。

Toby Ord在《The Precipice》中对生存性风险也做了估算,与未对齐的AI相比(1/10概率),其他的生存性风险都相形见绌。

Existential Catastrophe Via Chance within the next 100 years
Asteroid or comet impact ~ 1 in 1,000,000
Supervolcanic eruption ~ 1 in 10,000
Stellar explosion ~ 1 in 1,000,000,000
Total natural risk ~ 1 in 10,000
Nuclear war ~ 1 in 1,000
Climate change ~ 1 in 1,000
Other environmental damage ~ 1 in 1,000
‘Naturally’ arising pandemics ~ 1 in 10,000
Engineered pandemics ~ 1 in 30
Unaligned artificial intelligence ~ 1 in 10
Unforeseen anthropogenic risks ~ 1 in 30
Other anthropogenic risks ~ 1 in 50
Total anthropogenic risk ~ 1 in 6
Total existential risk ~ 1 in 6

(图表引自The Precipice

欧盟人工智能法案的分类类似:极小、有限、高、不可接受,但不可接受与X-Risk概念并不相同

  • 极小风险,提供简单工具性功能的AI系统。
  • 有限风险,具有特定透明度义务的AI系统。
  • 高风险,可能危及公民人身安全及生活基本权利场景中的AI系统。
  • 不可接受,对基本人权和社会公平构成明显威胁的AI系统。

2.7 确定程度

是关注相对确定且易于理解的问题和风险,还是更不确定的问题和风险。

  • 确定也意味着更易于理解和聚焦。
    • 吴恩达曾说过,他不关心更先进AI的原因与「我不担心火星上人口过剩的原因是一样的……我们从未踏上过这个星球,所以我们现在怎么能有效地担心这个问题呢?」
  • 长期风险、生存性风险、更先进AI系统造成的风险,则都有很大的不确定性和推测性。
    • 那些关注AI生存性风险的人,往往批评吴恩达的这类想法过于投机,并且「分散了人们对当今AI真正问题的注意力」。

2.8 生命周期

关注单点风险,还是全生命周期风险。

  • 各阶段的风险包括

    • 研发阶段:关注自律意识、数据质量、安全透明、避免偏见等。

    • 供应阶段:关注市场规则、质量控管、用户权益、应急保障等。

    • 使用阶段:关注提倡善意、避免滥用、禁止恶用、主动反馈等。

  • 全生命周期

    • 从负责任AI的角度,需要伦理道德融入人工智能全生命周期,从整体视角考虑各个阶段的风险。

2.9 特定风险

需具体模型具体分析,如:

  • 语言模型的毒性/偏见。
  • 图片生成模型的色情/暴力。
  • 基础模型的风险继承等。

3 易被忽视的方面

3.1 单一维度

  • 产生原因:价值对齐(Value Alignment),AGI Safety领域最难的问题之一(易被忽视)
    • 一方面,如何将人类的价值观赋予AI,这是一个技术问题。
    • 另一方面,选择何种价值观赋予AI,这是一个社会问题。
    • 在其他安全手段都失效的情况下,价值对齐也许也是人类最后一层保护伞。

MLSafetyCheese

(图片引自Unsolved Problems in ML Safety

  • 产生原因:结构风险,不应忽略技术更为复杂和间接的影响(易被忽视)
    • AI是否会改变政治、社会和经济结构,从而向决策者(甚至是善意和称职的决策者)施加压力,使其做出昂贵或冒险的选择。
  • 时间范围:近期 vs 远期
    • 当我们讨论AI的不同时间段(近期和远期)影响时,是在讨论AI能力、持续时长、确定程度、影响程度的差别?(易被混淆)
    • 似乎存在两个不同的研究社区,且在哪些问题最重要方面存在分歧。
      • 近期阵营担心,对AGI/ASI的担忧分散了我们今天在人工智能方面面临的真正问题 X(其中 X = 算法偏差、技术失业、可解释性、数据隐私等)
      • 长期阵营,他们关注的问题使得任何近期关注问题的重要性都相形见绌。
      • 但这种二分法模糊了两者关心社会影响和积极应对风险的文化,以及在可解释性、对抗性等方面高度相关的目标(易被忽视)
  • 持续时长:即时 vs 长期
    • 长期风险因存在很多影响因素和不确定性,本身就是一个研究难点。
    • 并不是非此即彼,一项技术即可能产生即时影响,同时也可能产生长期影响。(易被忽视)
      • 如带有偏见的推荐算法,即时影响个人权益,长期固化社会偏见。

3.2 分析组合

  • 确定程度 x 影响程度

    • 讨论近期 vs 远期的一种分析组合
    • 风险的动物隐喻:
      • 灰犀牛:很有可能发生的大影响事件,若无视警告会扑面而来,隐喻「已知的已知」
      • 房间里的大象:某件虽然明显却被集体视而不见,隐喻「已知的未知」(易被忽视)
      • 黑天鹅:具有重大影响的意料之外的事件,隐喻「未知的未知」(易被忽视)
      • 黑水母:环境变化水母堵塞发电站进水口是小变化导致大影响,隐喻「未知的已知」(易被忽视)
      • 通常,焦点会被黑天鹅和房间里的大象所吸引,但黑水母同样值得关注。

    Animal-metaphors

    (图片引自dayonefutures

  • AI能力 x 持续时长

    • 讨论近期 vs 远期的另一种分析组合(易被忽视)
    • 机构关注点:
      • AI Now(主要关注当前AI x 即时)
      • FHI(主要关注长期,从中等AI的军备竞赛,到强AI的X-Risk等)
      • CFI(广泛关注)
      • 近中期AI能力的中长期影响(似乎更被忽视)

capabilities_impacts

(图片引自Beyond near-and long-term: Towards a clearer account of research priorities in AI ethics and society

  • 持续时长 x 影响程度
    • 讨论近期 vs 远期的再一种分析组合
    • 持续积累的中小影响,也可能产生变革性(Transformative AI)(易被忽视)
      • 如人类渐渐依赖机器进行决策
      • 其中也隐含了对AI能力的讨论

4 建议

  • 从研究的角度,在选择细分风险研究领域时,可结合自身能力、领域预判重要性、领域被忽视程度等角度综合分析。
  • 从沟通的角度,在讨论AI风险时,建议明确表明自己所讨论的风险维度和潜在假设,以利于相互沟通和理解。

参考文献

[1] Remco Zwetsloot, and Allan Dafoe. “Thinking about risks from AI: accidents, misuse and structure. Lawfare.” (2019).

[2] Carina Prunkl, and Jess Whittlestone. “Beyond near-and long-term: Towards a clearer account of research priorities in AI ethics and society.” In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, pp. 138-143. 2020.

[3] Miles Brundage, Shahar Avin, Jack Clark, Helen Toner, Peter Eckersley, Ben Garfinkel, Allan Dafoe et al. “The malicious use of artificial intelligence: Forecasting, prevention, and mitigation.” arXiv preprint arXiv:1802.07228 (2018).

[4] Pedro A. Ortega, Vishal Maini, and DeepMind Safety Team. “Building safe artificial intelligence: specification, robustness, and assurance.” DeepMind Safety Research Blog (2018).

……


  1. Nick Bostrom的「后人类」和「后人类文明」用来表示我们有朝一日可能成为的技术高度增强的社会(有更好的智力和身体,更长的寿命等)。