ISACA Journal | 审计AI系统的策略与方法
毋庸置疑,人工智能(AI)如今正风靡一时。随着AI技术以前所未有的速度进步与成熟,它迅速渗透到了商业世界的各个角落,促使企业纷纷着眼于通过利用AI的潜力来实现成本削减和效能提升的目标。随着 AI的采用,人们对其抱有很高的期望,既有明确的具体目标,也有较为模糊的愿景。然而,“AI的风险是什么?”这个问题不断被提出,而审计正是解答这一问题的前沿力量。国家和国际权威机构担心可能存在偏见、伦理和监管问题,例如欧盟 (EU) 正在制定的法规。另一个令人担忧的是AI会犯错误。控制不力的AI会犯一些影响重大但看似却很微妙的错误。这可能会造成一些重大损害,尤其是在认为人工审查困难或不可能的情况下更是如此。因此,探讨这些风险因素以及一些适用的指导原则是有价值的。
有效的AI审计技巧
1. 不要指望监管能提供所有答案.
根据目前的观察,监管可能会增加大量开销,但在风险处置方面不太可能做出巨大贡献。伦理AI受到了广泛关注,其核心理念是AI的使用不应导致歧视。然而,无论是否使用AI,当进行数据分析的时候就已经导致了歧视现象的发生。例如,汽车保险费用通常会根据驾驶员的年龄、性别和婚姻状况而有所差异。
AI的决策及其错误的最终责任必须由人类承担,特别是在缺乏监管和相关专业标准的情况下。一个通用的经验法则是所谓的Hand规则:美国法官Learned Hand经常与法律思想流派相联系在一起,即制造商的负担不应小于不良事件的风险(当然,这是一个估计值)。这让人想起应用于其他法规的法律思维,例如欧盟通用数据保护条例GDPR。虽然它没有完全解决问题,但它是限制风险的有效指南。诸如美国联邦贸易委员会(FTC)指南之类的外部输入也提供了一些指导,即使语言可能模糊不清(例如,关于公平性的问题,在开发者之间也可能难以达成共识)。例如,指南警告企业对其AI负责:“对自己负责——否则准备好让FTC来为你负责。”
2. 了解业务
这是所有企业的必修课。AI是一种工具,任何使用工具的人都必须明白为什么以及如何使用它。工具应当服务于组织目标,而不是反过来。仅仅为了使用AI而使用AI是错误的方法。更为合理的方式是从识别一个问题开始,然后考虑AI是否可以提供解决方案。理解希望从AI中获得什么以及如何实现这一点至关重要。
与AI密切相关的话题是伦理和法律的合规性。已经有许多不当使用AI的案例已被记录下来,几乎所有这些案例都因未能服务于正当的商业目的而引发了伦理和法律问题。例如,AI已被用来根据面部特征预测犯罪行为,而犯罪行为被定义为违法行为,与面部特征没有任何可以想象的因果关系。此外,误报的成本可能高得令人望而却步。因此,如果没有因果联系,仅仅基于某个模型(无论是AI还是其他)的统计推断应该受到怀疑。例如,在汽车保险的情况下,决定任何特定驾驶员风险(无论是由AI还是非AI手段确定)的因素当然是危险驾驶或安全驾驶,但由于保险公司通常没有这些信息,他们会尝试根据他们所掌握的信息来评估风险,例如年龄、性别和婚姻状况。这些因素可能与决定性因素驾驶行为有间接、因果和统计上的相关性。这种统计相关性可能会使个人信念失效,例如对平等概念的信念。声称某个群体基于性别、年龄或其他因素在统计上更加鲁莽,这违背了反歧视原则,但数据可能支持这一观点。这些结果是否可以使用,如果可以,如何使用?再次强调,这取决于法律法规。
同样的,如果AI预测某人的面部特征与罪犯者的面部特征有 90% 的匹配度,并且此人被错误关押,这并不是AI的缺陷,问题在于其使用方式。相反,如果以探索性的方式使用这种匹配来筛选可能的匹配对象,并在这个较小的数据集上运行验证性稳健测试,这将代表AI更为明智的应用。因此,最重要的问题是:AI将用于什么用途,成本效益关系如何?
3. 认识到AI并不完美.
AI会犯错,而且复杂度越高,出错的可能性越大。这些错误会产生后果,而这些后果是有代价的。然而,并非所有AI的应用都有相同的成本后果。在一个应用中99%的准确性可能是不够的,而在另一个应用中60%的准确性就足够了。管理这些错误及其相关成本是关键所在。人类是否会检查AI是否存在明显错误?是否有另一个系统(AI或非AI)?是否可以接受此类错误的风险?这些是必须回答的关键成本效益问题。例如,AI应用程序中的错误(向观众推荐可能有趣的电影)与误解上下文并用于制定业务决策或服务客户的AI文本分析所产生的不同后果。
4. 并非所有AI技术都同样强大.
一个简单的例子是GenAI,例如 ChatGPT,按照任何人的理解都不改变上下文的情况下,问题的细微变化可能导致截然不同的答案。为了说明这一点,将以下场景提供给生成式AI引擎 :
一家公司在高管获得巨额奖金后,陷入财务困境,要求审计员延长工作时间并减薪。一位审计员回答说:“当然,能工作更长时间、拿更少薪水,是一种福报。”当生成式AI系统被问及审计员是否对此请求感到高兴或不高兴时,令人印象深刻的是,生成式AI理解了其中的讽刺意味,并正确推断出审计员并不高兴。但如果对话语稍作修改——不会误导任何人——比如审计员简单地说,“当然,我可以加班”,生成式AI就会推断审计员是真的高兴。这种细微的措辞变化对AI的理解产生了巨大影响,尽管所有基本参数都没有改变。
情景可以稍作变动,例如,公司的财务困难不是因为管理层的奖金,而是由于创造性会计手法所致。在这种情况下,“当然,我可以工作”再次被(误)解读为审计人员表达了真正的高兴,而“这将是一种荣幸”则被认为含义模糊。然而,在这两种情况下,问题的关键在于公司的财务困难并不是审计人员的过错。
尽管从根本上说,没有理由表明生成式AI不能在这两种情况下都被训练得正确回答问题,但事实是,这类错误仍无法排除。
另一个有趣的例子是,生成式AI表现得像一个无法解决问题的学生,只是显示出所有看似相关的材料,希望能答对一些内容。请考虑下面这个例子 :
一个生成式AI系统被问道:“在新冠疫情期间,一位首席审计执行官在审计委员会的批准下给所有审计员分配了运营任务,因为运营团队人手短缺,而审计员几乎没什么工作可做。这是否违反了审计标准?”
答案很简单:由于审计并非审计员被分配去做的运营任务之一,审计标准不适用于他们在运营团队的工作。唯一值得注意的考虑因素是,当相关审计员恢复审计工作时,他们将有一年的时间不被允许审计他们曾工作过的特定职能(在这种情况下,特指运营团队)。
然而,AI给出的回答却是冗长且模糊的:“在像COVID-19疫情这样的危机期间,经过审计委员会批准将审计员分配到操作任务可能不一定违反审计标准,但会引起关注并且应谨慎行事。是否构成违规取决于多个因素。”接着,系统列出了相关性、监督、记录和透明度、风险评估、持续时间和影响以及与利益相关者的沟通等因素。
5. 仅仅因为一个AI系统声称能够解释其结果,并不意味着它值得信赖。
人类重视解释而不是“因为我说了算”这样的理由,但尽管可解释性是信任的促成因素,它既不是获得信任的必要条件,也不是充分条件。许多人乘坐过飞机,却不了解其工作原理或飞行员在起飞、巡航和降落期间的确切操作。那些未被解释或理解的事物,基于其成功的过往记录,仍可能被认为是值得信赖的。同样,仅仅做出解释并不足以获得信任。任何人做出站不住脚的行为都能为之想出一个解释或理由。问题在于,这个解释能否能通过事实和逻辑的检验?AI有效地采用了人类的这种质疑方式,实施了对抗网络,并取得了巨大成功。例如,让两个AI机器相互对抗——一个生成深度伪造内容,另一个试图检测它们——导致了更高质量的深度伪造。此外,人类需要相对简单的解释。因此,无论是高度复杂的模型(例如,一个深度神经网络,其复杂程度让人难以理解,即使它能产生大量输出以解释其进行的每一次计算)还是专有模型,实际结果都是一样的:AI是一个黑箱。也就是说,如果有人决心使用AI来做出影响生命的决策(例如,安全问题、刑事定罪)或依赖秘密的专有算法(供应商没有动力去使其具有可解释性),那么可解释性,尽管在数学上更难实现,但却是必须的——尽管这可能仍然不够。抛开前面所提到的担忧,如果无法检测出黑箱模型中存在的偏差或不公平性,则如果由于道德或法律/监管要求而存在这些担忧,那么出于合规原因,可解释性是必须的。或者,AI系统可能被用于发现某种模式,例如图像上的供应商名称或艺术家签名(引发合法性问题),这无需解释,因为目标——发现有趣的东西——显然已经实现,而如何实现并不重要。当需要可解释性时,有两种可能的途径:(1)实际进行计算的同一AI可以解释步骤,例如通过树和随机森林、基于案例的推理或神经加法模型(返回处理每个变量的神经网络输出的总和)。(2)事后分析,例如用于降维的主成分分析(PCA)或局部可解释的与模型无关的解释(LIME),用于提供解释——原则上,这可能与AI最初的计算几乎没有关系。当然,可解释性的最佳促成因素是领域知识——例如,知道向AI系统提出的问题的结果,如“欺诈的概率如何取决于交易监控的程度?”,对于某些变量应该是单调的,或者某些变量只会产生很小的影响,或者两个变量具有相加或近乎相加的效果。如果AI系统融入了这种知识,可解释性就会容易得多。但应该注意的是,如果使用AI来做出改变生活的决策,对可解释性的要求是相当高的:如果解释模型有 10%的错误,这几乎等同于原始的AI模型在改变生活的决策方面有 10%的错误。下一个问题是,什么样的解释才算足够简短?例如,如果AI基于给定区域认为图像中存在肿瘤,这解释了它考虑的因素,但没有解释它是如何得出这个结论的。这可能是某种统计概念,比如趋势?——例如,“我们这个案例的预测值很高,因为它属于预测值高的一类。”这足够好理解,但是否令人满意则取决于应用程序。
6. 对于AI来说,训练数据的安全性变得极其重要——就像代码本身一样重要.
传统上,IT 审计员很清楚保护源代码、可执行文件、职责分离(SoD)和其他所需控制措施的必要性。但在AI时代,保障训练数据的安全性也至关重要。AI的学习方式很像一个孩子:不是给孩子一个物体(比如自行车)的定义,而是给孩子展示是哪些是自行车,哪些不是自行车,并从中抽象出关键特征。这种知识会根据需要由家长、学校或其他来源进行纠正和强化。这极大地增加了对训练数据的安全要求。孩子出生在一个社区,就会采用这个社区的词汇。在AI系统中也观察到了类似的效果,这些系统可能不明智地通过互联网进行训练,如微软的“思考着你(TAY)” ,很快就变成了一个仇恨宣传代理,或者 ScatterLab 的“爱的科学/李-卢达” 。从本质上讲,在AI中,训练数据决定了问题将如何解决——就像代码修改一样。此外,互联网上的数据可能受版权保护,尽管可以公开获取,但将其用于训练AI模型可能会引发法律问题 。即使数据完全归其来源的企业所有,确保数据的准确性也很重要。例如,如果使用支持向量机(SVM)算法,确保数据被正确标记至关重要,特别是最接近两种可能的二元结果(例如,正常和异常行为)之间的分界线的数据。对靠近分界线的这些点标记错误可能会产生巨大的后果,而对远离分界线的点标记错误通常更能容忍。其他方法,如随机森林,可能对标记错误的训练数据更具容忍性。因此,确保训练数据的正确性、保护和控制非常重要。审查AI系统的审计员应该特别关注训练数据及其安全性和正确性。此外,通常很难确定训练和验证数据是否与模型在现实生活(即生产运行)中遇到的数据是否类似。
7. 在确定审计目标时要具体
审计授权是审计使用AI的特定系统或流程的任务,还是针对AI的通用控制框架?前者需要进行具体的 IT/运营审计,除了标准的 IT/运营审计问题外,还需要考虑其他因素,如错误处理、训练数据的保护,以及审计是否可以使用AI来提高其工作价值——如果可以,如何使用。除了实际技术外,AI在文书工作中可能会有帮助,比如做笔记、总结会议纪要,甚至准备报告。然而,这些通常不是审计员的主要任务,尽管它们可能会花费一些时间 。
审计期望
随着AI的采用不断增加,审计团队正试图弄清楚如何审计AI的风险和机会。这对审计员有两个相关的组成部分:首先,这涉及对企业采用AI相关的风险和机会的一般性审计,例如调查关于道德问题的要求和指南以及相关控制措施是否已经建立并且正在发挥作用。其次,它涉及审计以某种方式使用AI的特定系统和功能。在这项活动中,除了标准的 IT 审计问题外,训练数据的安全性和准确性至关重要。
通用AI审计
这里的基本问题是AI的责任归属。在任何被审计的领域,责任归属都是很关键的,正如“如果这不是某人的责任,那它是无人负责”所表达的那样。
一旦建立了责任制,就可以采取多种措施来降低不仅与AI而且与任何系统相关的风险。
模型风险管理(MRM)是一种明智的方法,它基于经济大萧条时期的经验教训以及由此产生的对金融机构预测模型的监管。毋庸置疑,这不是一种一刀切的方法,但某些关键理念可以借鉴,如果需要还可以修改后使用。
这些理念包括但不限于个人问责制:
-
提出一项挑战,让未参与AI系统开发的人员对其设计进行评测,通常是在系统上线之前进行的。评测必须具有建设性,即提出替代设计方案。如果采用这种策略,任何人员都不应豁免,包括能力极强的开发人员和高级员工。尤其重要的是质疑假设,并识别被视为理所当然的条件(AI系统运行的环境通常在不断变化),以及当出现问题时的控制和保障措施。例如,AI模型可能会——无论是明确地还是通过训练的——做出需要修订的假设,例如数据可靠性、某种固定的组织结构或植入到AI中的长期业务趋势。如果训练数据显示土地价格持续上涨,这种情况可能会隐含地构建在AI中。这与孩子根据童话故事将巫师与坏人联系起来没有什么不同。了解AI系统如何使用这些假设以及错误的成本(通常通过某些参数)是至关重要的。例如,欺诈检测系统通常有一个内部调整的参数,仅显示欺诈可能性高的案例,例如 90%。这个 90%的数字是一个参数,它来自于在可接受的低误报率和可接受的高漏报率之间的折衷。它可能是根据训练时的欺诈倾向确定的,但不能保证保持不变。当情况发生变化时,这种知识是否可以获得——并且是主动获得的?请注意,变化不仅指外部因素;它包括AI系统的使用、依赖或重要性的变化,因为此类变化会增加AI错误的风险。如前文所述,建设性的挑战对于双方加强论点和反驳论点,并最终提供更好的产品是一种有帮助的方式。
-
重点关注(或许通过激励手段)质量和测试,而不是发布的速度。应将适当的激励与无故障运行挂钩,而不是快速发布 。
-
如果企业正在销售AI产品,最好先在内部使用。这不仅能展示对产品的信心,还能作为早期问题的识别器。
-
AI的发展并非纯粹是数据科学家和 IT 专家的事情。领域专家及其投入至关重要。相信一种算法,无论多么复杂,都能完全取代领域专业知识,这通常是一个坏主意。例如,在无限多可能的特征(字段)中,领域专家最能理解哪些是相关的。尽管他们可能不知道对某个字段或变量的确切(例如线性、二次)依赖关系,但他们能够理解哪些是重要的。包括不相关的字段可能会导致模型学习特殊情况并且泛化能力不佳。如果存在伦理问题,其他学科的专业人员应该参与进来,提供反馈并提出相关问题 。
-
压力测试,即旨在评估AI在极端条件下的响应测试,类似于IT安全的渗透测试,在此过程中,数据科学家进行分析并试图找出AI会以不理想的方式运行的情况。在发布之前进行这样的测试是个好主意,因为任何发现的脆弱点都可以通过增强训练集或在系统意识到所接收的数据超出其训练范围时引入适当的例程来解决。毋庸置疑,允许AI系统在其没有经验的情况下进行外推并做出决策是非常不可取的。同样,在推出之前对所采用产品的设计、实施和保障措施进行评估的审计可能是有用的。由于通常无法保证AI在远离其训练数据的区域的行为,这种风险是非常真实的。
-
常见的 IT 控制措施(例如权限管理、最小特权原则、SoD 以及变更和事件管理)也适用于此。请记住,更复杂的系统可能会出现更严重的故障。应建立充分的控制措施和可靠的计划,以有效应对AI事件。如前所述,AI“可以快速、大规模地做出决策”,从而大大增加了潜在危害。因此,在 AI的使用发生变化时,通过控制措施来审查风险和潜在影响可以避免以后的很多麻烦。
-
规划允许人类或者可能是其他机器,推翻AI决策的功能是另一项非常重要的控制措施。
-
并非所有AI系统在各个方面都一样。如果希望或要求结果具有可解释性,则必须选择、实施和审查适当的AI技术。
-
在更高技术的层面上,引入约束来惩罚复杂性通常很重要,特别是在有充分理由预期相对较低的复杂性(例如,预期的单调行为)时。限制参数(字段)的数量及其相互作用(例如,组合过多不同的字段)也可能是个好主意。有许多限制或降低复杂性的技术。对于开发人员来说,这些想法需要更具体。例如,如果企业能够指定每个应用的百分比系数,这样只有当添加一个变量能使与训练数据的匹配度提高超过这个百分比时,才被允许添加,那将会很有帮助。
-
验收测试和试点项目始终都很重要。在验收测试期间,理解结果至关重要。例如,如果使用聚类算法,具有聚类质心参数的假设数据点有何意义?或者,在基于案例的推理(k-NN)中,这些邻居是什么,它们对手头的问题提供了哪些信息?此外,关于如何读取和理解结果的准确说明可能会很有用。可视化功能也有助于结果的理解 。
-
审计应当特别关注实施AI的原因。“因为商业案例有利”是一个有效的理由。“因为我们想要使用AI”或者“我们急于赶上AI的潮流”不是这样,这往往会导致问题。同样,确定优先级很重要,正如在所有业务应用中一样,无论是否涉及AI。。
-
毋庸置疑,部分或全部AI系统可能会外包出去(例如通过云方式)。但这并不是一个神奇的解决方案,如果客户没有指定控制措施,那么假设AI服务提供商会自动提供必要的控制措施就会是一场豪赌。
AI专项审计
在对使用AI的 IT 系统进行审计时,所有 IT 风险的标准来源,如访问管理、变更管理、接口管理等等,仍然存在。除了这些传统的 IT 审计问题外,训练数据的安全性和准确性也至关重要。错误率(例如误报率和漏报率)符合规范和操作要求是必不可少的,并且要有控制措施来处理影响较高的错误。其他相关的重要问题包括可解释性要求及其覆盖程度、AI的使用以及出现问题时的控制。此外,通用的AI风险因素,如直接或通过训练数据内置的假设,也同样适用。
结论
随着企业在运营中越来越多地使用AI,审计人员应注意其潜力和风险,以及可以实施哪些控制措施来避免不良事件的发生。本文上述中的提示和建议旨在减轻此类风险并提供此类控制。审计人员尤其必须意识到AI可能而且确实会犯错,这些错误必须得以控制。
除了标准的非AI IT 问题外,包括可解释性要求(或缺乏此类要求)、AI输出的使用和设计在内的规范需要特别关注。安全性尤为重要,因为不仅通常需要保护源代码免受非法篡改,而且还需要保护训练数据安全,因为在AI的情况下,源代码的可塑性要大得多。一些良好实践对于在利用AI潜力的同时控制其风险至关重要。
编者注:本文出自ISACA Journal 2024年第3期。尾注略。文章内容仅代表作者本人观点。
作者:SPIROS ALEXIOU (持有CISA,CSX-F,CIA证书)在一家大型公司担任 IT 审计员已有 16 年。他在 IT 系统方面拥有超过 27 年的审计经验
翻译:王彪,COBIT2019、CISA、CDPSE、CDMP、CDSP、CISP-DSO、ISO27001LA、信息安全工程师(软考)、ISACA微信公众号特邀通信员、天融信数据安全治理专家
校对:唐四宝(Jerry Tang),CISA, CDPSE,CZTP,ISACA微信公众号特邀通讯员。