ISACA Journal | 探索AI与机器学习下的新数据生态系统
谈及我们组织内部的数据,表象往往具有迷惑性。从表面上看,似乎一切并未发生太大变化。毕竟,那些用于促进和管理数据收集、数据聚合、数据消费、数据剥离等任务的技术与架构,仍在持续运行,并且大体上仍保持着多年来的状态。
从某些角度来看,这确实是一个正确的陈述。数据湖、数据仓库以及商业智能活动如今的运作方式与过去大致相同。作为风险意识与数字信任赋能领域的专业人士(如信息安全、保障、隐私、治理),我们深知这一点,因为这类举措往往在组织内高度可见。因此,它们通常是我们关注的重点,并且是我们直接与技术和业务领域同僚讨论、协商的话题。
然而,这种理解掩盖了同时发生的另一些情况,而这些情况则要复杂得多。在其他视角下,我们所认为了解的关于数据(事实上还包括更广泛的技术)的规则正在被重新改写。具体来说,我们正处在几股交汇的趋势之中,这些趋势代表了对我们技术生态系统理解的剧变。
关注此类变革对我们至关重要。这样的变革并不常见,但一旦发生,就可能意味着风险规划的重大转变。原因有两点。首先,某些采用动态有时会掩盖新的风险源。具体而言,当企业内的个人容易使用新技术时,他们可能会在没有技术组织直接监督的情况下开始使用这些技术(即影子IT)。这可能导致我们处于被动,因为用户可能无法完全理解风险暴露——而作为风险专业人士,由于我们对此没有直接的观察视角,也可能无法完全理解这些风险。
例如,考虑一下历史上(坦率地说,直到今天)有多少组织在应对软件即服务(SaaS)的影子采用问题上步履维艰。我们都知道,有些情况下,某个SaaS技术可以解决组织内某人遇到的特定问题——比如,如果它能完成一项用其他方法更难完成的任务。这个人可能会决定开始使用这款SaaS应用程序,却没有意识到在错误的情况下,这可能会带来风险。
此外,新兴技术会影响组织的风险方程式,因为它们可能会带来新的风险,这些风险可能需要一些时间和计划才能彻底解决。同时,它们也可以抵消历史上存在的某些风险。回想前面的例子,考虑一下将现有业务应用程序迁移到SaaS解决方案如何可以降低某些风险:以前,我们可能需要确保应用程序不断更新,而现在,卫生相关的任务(如打补丁)成为服务提供商的问题,而不是我们的责任。另一方面,以前不存在的一些新风险可能会浮出水面,比如供应链风险、可用性、潜在的透明度降低(如底层生态系统)、供应商锁定等。
人工智能(AI) 和机器学习( ML) 正在引发变革
目前,数据生态系统正处于十字路口。另一个原因是什么?答案在于人工智能(AI)和机器学习(ML)。
除非你生活在与世隔绝的地方,否则你一定知道过去两年来所有关注都集中在人工智能(尤其是生成式AI和大型语言模型[LLMs])和机器学习上。这些技术正在改变组织。虽然我们经常把两者相提并论(就像我刚刚做的那样),但事实是它们并不相同,具有不同的风险动态,而且对每种技术的采用情况也存在显著差异。
让我们先从媒体和行业报道中最受关注的部分谈起:生成式AI,特别是LLMs。这项技术在极短的时间内已经从相对小众走向几乎全民皆知。实际上,其使用范围如此广泛,以至于即使你认为自己的组织并未使用LLM,我也建议你重新审视一下。根据麦肯锡的一项调查数据,LLM的使用已接近无所不在。在所有接受调查的行业中,采用生成式AI最少的垂直行业(零售与消费品)仍有大多数(70%)受访者表示至少在某种程度上使用了该技术。而在采用率更高的行业,如科技、媒体和电信业,这一比例要高得多——高达88%。
关键在于,AI的使用正呈燎原之势并迅速增长。应用案例可能包括将LLM整合到开发工具、客户服务工具、办公与生产力应用程序中,直接融入商业应用,以及其他众多场景。之所以强调时刻关注LLM的重要性,是因为这一领域充斥着“影子IT”。LLM易于集成到现有产品中(主流搜索引擎和商业应用程序正将其直接纳入默认功能),个人用户也易于自行使用,且难以将相关流量与常规网络活动区分开来。这一切意味着,用户很可能已在多个互动环节中不知不觉地接触到了生成式AI。
从数据角度来看,这有几个值得关注的原因。首先,苹果公司、三星公司(以及意大利政府)的应对措施表明,许多组织对用户出于提升工作效率的考虑,愿意将公司的专有数据提交给生成式AI服务的现象感到担忧。其次,已至少发生过一起数据泄露事件,导致用户提交的部分提示信息被公之于众。综合这两点,我们应当警惕用户以我们未曾预料的方式向AI工具提交数据。
另一个即将出现且可能同样影响我们数据生态系统的挑战,源于组织内部从事数据分析(即机器学习ML)工作环节存在的可见度不足问题。与LLM不同的是,ML工作与数据密不可分。从字面意义上讲,数据是机器学习运行的基础。
从风险控制的角度来看,历史上对从业者构成挑战的一个领域就是应用程序安全。这是许多安全团队投入不多、许多从业者技能储备不涵盖的领域。机器学习在很多方面与此类似:它依赖许多安全社区成员不具备的技能,往往在组织内部形成孤岛,对于技术和企业团队来说往往不可见,等等。甚至出现了专门致力于将风险和数字信任原则(如信息安全、保障等)融入机器学习实践的整个社区生态系统(如MLSecOps6)。
我提出这些观点并非为了吓唬任何人、制造恐慌、不确定性或疑虑(FUD),甚至不是为了指出新的风险领域。相反,我是希望提高人们的认识。认识到这些新趋势可能正在进入你的组织,这是构建应对策略时明智的第一步。同样,它也有助于你在组织内部找到那些可能以新方式行事、需要额外审查的领域。
编者注:本文出自ISACA Journal 2024年第2期。尾注略。文章内容仅代表作者本人观点。
作者:ED MOYLE,是Drake Software公司的首席信息安全官。
翻译:李京(Randy Li),CGEIT,ISACA微信公众号特邀通讯员,关注IT治理、信息安全。
校对:张锋,CISA,CIA、CISP、ISACA微信公众号特邀通讯员。