ISACA Journal | 走进神奇的黑匣子:管理人工智能(AI)的系统理论指南

人工智能算法(AI)在指导决策方面显示出巨大的潜力,因此许多企业已经实施了该技术。据统计,2021年的人工智能投资达到约680亿美元。然而人工智能的推广还存在许多未知因素:65%的企业无法解释人工智能工具是如何工作的;决策者可能过度信任人工智能神奇黑匣子中的未知组件,因此可能无意中使企业面临道德、社会和法律威胁。

尽管许多人认为这项新技术是客观和中立的,但基于人工智能的算法往往只是重复过去的做法和模式。人工智能可以简单地将现状“自动化”。事实上,基于人工智能的系统有时会做出有问题、歧视性或有偏见的决定,因为它们往往会复制人工智能引入之前已经存在的有问题、歧视性或有偏见的过程。随着人工智能的广泛应用,这项技术影响了大多数人。因此,现在是时候从全系统的角度审视这项技术,确保它能够用于合乎道德、公正的决策了。

系统理论

许多学科鼓励采用系统理论方法研究现象。这种方法指出,输入引入到系统而过程将这些输入转化为输出(图1)。

算法定义为是“一种涉及多个步骤的标准程序,如果正确遵循这些步骤,可以依靠这些步骤解决特定类型的问题。”人工智能算法使用定义的模型将输入转换为输出。英国统计学家乔治·E·P·博克斯曾说过:“所有的模型都是错误的,但有些是有用的。”关键是,世界是复杂的,不可能建立一个考虑所有可能变量的模型,从而获得理想的结果。然而,模型可以根据过去发生的事情为未来可能发生的事情提供一般性指导,为决策者提供帮助。

人工智能算法要么使用预定义的模型,要么创建自己的模型来进行预测。这是将人工智能算法分类为符号或统计的基础。符号算法使用一组规则将数据转换为预测结果。规则定义了模型,用户可以通过查看模型轻松地理解系统。从系统理论的角度看,输入和过程是明确定义的。例如,符号算法用于开发信用评分,其中输入是先验定义的,并且使用相关的权重和公式执行过程(计算)以获得输出。然后,输出用于决定是否扩大信用。

相反,统计算法通常允许计算机开发新的模型(过程)时选择最重要的输入。这些模型通常比符号算法开发的模型更复杂,但仍然基于输入预测结果。与使用统计算法相关的一个问题是,用户可能不知道选择了哪些输入或使用了哪些过程将输入转换为输出,因此可能无法理解他们用于做出决策的模型。

系统理论表明,这些模型的输出在很大程度上取决于提供的输入(数据)和选择的算法(过程)类型。随后使用人工智能模型的输出做出的决策很容易导致偏见,从而导致对个人或群体的系统性和不知情的歧视。

计算机系统偏见

人工智能算法的系统理论讨论可以通过考虑偏见如何影响结果进行扩展。偏见定义为选择一种泛化而不是另一种泛化,而不是与观察到的训练实例保持严格一致,通常出现在一个结果更有可能来自一组函数而不是来自另一组函数的情况下。偏见通常出现在数据收集中,即采集了影响结果的非代表性样本,或者算法本身倾向于一个结果。基于人工智能算法输出的决策通常会引起公众的极大兴趣,因为它们会对人们的生活产生重大影响,比如人员是否选中参加面试或是否批准获得住房贷款。在IT领域,偏见可以分为三类:预存的、技术性的和突现的。

早已存在的偏见

有时,社会中形成的偏见(早已存在的)会转移到软件中。这种转移既可以显式地发生,比如在算法中故意植入歧视态度,也可以隐式地发生,比如在基于偏见的历史数据的帮助下训练分析算法。预存的偏见通常是在系统的输入阶段引入的。一个早已存在的偏见的例子是使用经典的Fair Isaac Corporation(FICO)算法计算信用评分。在这种情况下,与传统信用定义相关的文化偏见可能会导致歧视,因为一些文化更强调积极的支付。

技术偏见

技术偏见通常是与硬件、软件或外围设备相关的计算机限制的结果。技术规范可能会影响系统的过程,导致某些群体受到与其他群体不同的对待。当标准不允许记录某些特性时,可能会发生这种情况,或者可能是与软件或算法编程相关的技术限制的结果。算法中的这些缺陷经常出现在系统的处理阶段。技术偏见的一个例子是无法使用人工智能算法重现答案。当用于训练(或开发)模型的数据发生轻微变化,从而产生不同的模型时,可能会发生这种情况。无法复制具有相同或相似数据的模型会导致对模型的整体有效性产生怀疑。这种偏见的一个例子发生在亚马逊,当时系统根据应聘者履历中的词汇选择将女性的履历排除在外。亚马逊试图消除这种偏见,但最终不得不放弃人工智能算法,因为算法无法识别导致歧视性输出的潜在技术逻辑。

突现偏见

突现偏见是由于对输出的错误解释或软件用于意外目的时发生的。这种类型的偏见可能会随着时间的推移而出现,例如当值或过程发生变化但技术不适应13 时,或者当决策者基于算法的错误输出应用决策标准时。突现偏见通常发生在将输出转换为决策时。

突现偏见的一个例子是使用罪犯矫正替代性制裁分析管理系统(COMPAS),一些美国法院系统使用该系统确定被告再犯的可能性。算法主要使用犯罪统计的历史数据训练,这些数据基于统计相关性而非因果关系。因此,与种族和经济手段有关的偏见往往会导致少数族裔从该模型中得到不好的预测。一项针对美国佛罗里达州7000多名被捕者的研究评估了COMPAS在预测累犯方面的准确性。调查发现,44.9%被贴上高风险标签的非裔美国人被告没有再犯。因此,使用这一模型的结果做出决定,会在没有正当理由的情况下,对近45%的非裔美国人被告产生负面影响。相反,在研究中被标记为高风险的白人被告中,只有23.5%的人没有再次犯罪。明知使用有偏见的结果做出决定,会引起可能导致负面结果的突现偏见。

这些形式的偏见可能以不同的组合形式出现,指向隐藏在人工智能黑匣子中的神秘之处(图2)。人工智能系统可能导致不道德或歧视性的结果。因此,在使用人工智能输出做出决策之前,决策者必须了解每一步盒子里发生了什么,以及每种类型的偏见。

分析人工智能黑匣子并消除偏见

了解偏见是如何进入人工智能黑匣子之后,管理者的目标是识别并消除偏见。如图3所示,有五个步骤可以避免偏见和歧视。

步骤1:输入

人工智能算法的目标是基于输入开发输出(预测)。因此,人工智能算法可能会根据任何给定的输入变量检测出可能具有的歧视性关系。包括种族、族裔、性别和年龄等输入,授权该系统根据这些输入提出建议,从定义上讲,这就是歧视。基于这些因素做出决策也是歧视。这并不是告诫你永远不要使用这些输入;相反,它是一种警告,即歧视可能会遭到指控。例如,汽车保险模型根据年龄和性别预测事故率。大多数人可能会同意这是公平的,因此在事故风险模型中包括年龄和性别将是适当的输入。但企业应该对其输入保持透明,确保公众了解决策过程中考虑的因素。在将变量引入系统之前进行相关性研究,可以提供潜在歧视问题的早期迹象。

早已存在的偏见也可以通过输入引入。这可以通过选择包括潜在的歧视性输入或选择其他可能作为性别、年龄和族裔的替代品的输入实现,例如由于社会经济关系而选择个人经济变量作为输入。决策者必须知道人工智能算法正在使用哪些输入。

步骤2:过程

必须尽可能详细地理解用于将输入转换为输出的算法。了解算法对于符号算法很容易,但对于一些统计人工智能技术要困难得多。决策者应要求识别用于开发和训练人工智能统计模型的输入,确定正在使用哪些变量。另一个考虑因素是确定为什么选择特定的人工智能技术,并确定无法解释的模型与可以解释的模型的增量解释力。应测试不同的人工智能算法,确定每种算法的准确性,当无法解释的模型明显优于可解释的模型时,有必要进一步调查输入。

研究多种模型也有助于识别技术偏见。例如,天气预报员只依赖一个模型的日子已经一去不复返了。现在更常见的是使用意大利面模型(分段矢量数据模型),该模型概述了许多模型的预测,而不是仅仅依赖于一个模型。

算法开发完成后,用户接受测试(UAT)是确保算法真正实现设计目的的重要步骤。UAT应该“检查算法和代码本身的各个方面”。对于非歧视性人工智能应用,重要的是要将正义视为一种目标价值,并为因基于人工智能的决策而处于不利地位的人员提供执行权利的能力。

步骤3:输出

输出是做出决策之前的最后一步。应对与歧视有关的输出和最常见的输入(如性别、种族、族裔)进行相关性和适度性研究。应向决策者报告结果,确保他们了解输入与输出之间的关系。

步骤4:决策

在此步骤中,人工智能系统将重新连接到外部环境。决策者必须明白,使用人工智能做出的决策会对与这些决策相关的人员或系统产生影响。在这一点上,分析所做的决策是否会导致歧视非常重要。当决策直接与输出关联而没有任何人为干预时,这一点尤其重要。然而,需要注意的是,人类互动并不能消除突现偏见的可能性,因为人类天生就有偏见。

步骤5:结果

在这一点上,决策与环境相互作用,其影响是已知的,但前提是企业要跟进并测量实际结果。企业往往不监测所发生的事情,并继续使用相同的输入和过程,在不知不觉中使偏见影响了影响决策过程的输出。

最后的检查:伦理

了解输入、过程、输出、决策和结果可以确保从人工智能算法中消除偏见,并识别潜在的歧视。然而,企业可以遵循所有这些步骤,但在决策过程中仍然存在伦理问题。开发伦理人工智能的生命周期模型是识别和消除伦理人工智能问题的一个很好的方法。决策者可能仍然缺少一个框架决策什么是非伦理的。

有许多框架可以解决算法的伦理问题。其中一些框架是专门的,涵盖了医疗保健等特定领域。PAPA模型和AI4人员模型这两个框架已经得到了广泛的应用,并形成了一个有趣的对比,因为前者是在20世纪80年代末开发的,后者是在2018年开发的,处于一个完全不同的技术世界。

PAPA模型

PAPA模型确定了在信息时代维护人类尊严的四个关键问题:

1. 隐私——一个人想要与他人共享的私人信息量以及打算保持隐私的信息量

2. 准确性——谁对信息的正确性负责

3. 所有权——谁拥有不同类型的信息和相关的基础设施

4. 可访问性——信息如何提供给不同的人,以及在什么情况下可以访问

AI4People 模型

AI4People模型最近才出现,通过分析六个现有的伦理框架和确定47个原则来制定道德决策。AI4People模型具有五个核心原则:

1. 慈善——促进福祉和保护地球

2. 不伤害——避免侵犯个人隐私和人工智能能力的限制,不仅包括人类滥用人工智能的意图,还包括机器有时不可预测的行为

3. 自主性——人类和人工智能平衡的决策权

4. 正义——维护团结和防止歧视

5. 可解释性——通过使其他原则易于理解、透明和可问责来实现它们

图4比较了这些模型,并为决策者提供了符合伦理的人工智能算法考虑因素。

这两个伦理模型表明,企业应该考虑可以决定其决策的伦理含义的其他结果变量。这不仅应由软件开发人员完成,还应由参与算法的利益相关者完成。决策者应评估图4中列出的每个领域,并确定他们应收集和跟踪哪些额外的结果变量,从而确保人工智能算法不会对伦理利益产生负面影响。一个决策者的有限观点可能不足以胜任这项任务。一种选择是组建一个多元化的委员会评估这些领域,并就跟踪哪些结果提出建议。委员会评估可能有助于暴露最初未确定的问题,这些问题可以纳入人工智能算法的重新设计,确保伦理问题得到解决。

结论

使用人工智能算法的可以促进人类的自我实现,并提高有效性和效率。因此,这项技术已经被应用于许多行业。然而,在收集和处理个人数据以及遵守社会规范和价值观方面存在风险因素和伦理问题。符合伦理的人工智能算法的先决条件是无偏见的数据、可解释的过程、对算法输出的无偏见解释以及对伦理、法律和社会影响结果的监测。

人工智能算法可以通过更好地预测未来结果来提高组织绩效。然而,决策者并不能免除对人工智能决策的输入、过程、输出和结果的理解。采用系统理论方法可以帮助企业确保人工智能算法的法律、伦理和社会方面得到审查。基于人工智能算法的结果不能被认为是僵化和有限的,因为社会和技术是不断变化的。同样,伦理原则也可能改变。当算法的环境发生变化时,必须对算法进行调整,即使它需要超出原始的规范。

编者注:本文出自ISACA Journal 2023年第1期。尾注略。文章内容仅代表作者本人观点。
作者:
SIMONA AICHI是路德维希港商业与社会大学(德国路德维希港)的本科生。她的研究兴趣包括算法的影响,这是她计划在硕士学位学习中继续研究的课题。
GERALD F.BURCH博士,是西佛罗里达大学(美国佛罗里达州彭萨科拉)的助理教授,教授研究生和本科生的信息系统和商业分析课程。
翻译:唐四宝(Jerry Tang),CISA, CDPSE,CZTP,ISACA微信公众号特邀通讯员。
校对:姚凯(Kevin Yao),CISA,CISM,CRISC,CGEIT,CDPSE,ISACA微信公众号特邀通讯员,关注IT安全,隐私保护和数字化。