如何确保人工智能和机器学习项目的安全性

发布时间：2020-09-27 09:42:23 所属栏目：点评来源：网络整理

导读：人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文叙述了几家公司将风险降至很低的方法。当企业采用新技术时，安全性往往被放在次要位置，以最低的成本尽快将新产品或服务提供给客户似乎更为重要。人工智能(AI)和机器学习(ML)提供了与早期技术

副标题[/!--empirenews.page--]

人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文叙述了几家公司将风险降至很低的方法。

当企业采用新技术时，安全性往往被放在次要位置，以最低的成本尽快将新产品或服务提供给客户似乎更为重要。

人工智能(AI)和机器学习(ML)提供了与早期技术进步相同的漏洞和错误配置的机会，而且还有其特有的风险。随着企业开始进行以人工智能驱动的数字化转型，这些风险可能会变得更大。博思艾伦汉密尔顿公司(Booz Allen Hamilton)的首席科学家爱德华•拉夫(Edward Raff)表示：“不要仓促地进入这个领域。”

与其他技术相比，人工智能和机器学习需要更多的数据，也需要更复杂的数据。数学家和数据科学家开发的算法来自研究项目。拉夫表示，在科学界，直到最近才开始认识到人工智能存在安全问题。

云平台通常要处理大量的工作负载，从而增加了另一个级别的复杂性和脆弱性。毫不奇怪，网络安全是人工智能采用者最令人担忧的风险。德勤上月公布的一项调查显示，62%的采纳者认为网络安全风险是主要的担忧，但只有39%的人表示他们准备应对这些风险。

让问题变得更加复杂的是，网络安全是人工智能使用的首要功能之一。德勤技术、媒体和电信中心的执行董事杰夫•洛克斯(Jeff Loucks)表示，企业在人工智能方面的经验越丰富，他们就越担心网络安全风险。

此外，即使是经验更丰富的企业，也没有遵循基本的安全做法，例如对所有AI和ML项目进行完整的审计和测试。Loucks表示，公司目前在实施这些方面做得不是很好。

AI和ML对数据的需求带来了风险

AI和ML系统需要三组数据：

训练数据以建立预测模型测试数据以评估模型的运行情况当模型投入使用时运营数据

虽然实时交易或运营数据显然是一项有价值的企业资产，但很容易忽略也包含敏感信息的训练和测试数据池。

许多用于保护其他系统中的数据的原则可以应用于AI和ML项目，包括匿名化、令牌化和加密。第一步是询问是否需要数据。在准备AI和ML项目时，收集所有可能的数据，然后看看可以做些什么。

关注业务成果可以帮助企业将收集的数据限制在所需的范围内。为教育机构分析学生数据的Othot公司的首席技术官约翰•阿巴蒂科(John Abbatico)表示，数据科学团队非常渴望数据，他们在处理学生数据时明确表示，高度敏感的PII(个人身份信息)不是必需的，也永远不应该包含在提供给他们团队的数据中。

当然，错误是会发生的。例如，客户有时会提供敏感的个人信息，如社会保险号。这些信息不会提高模型的性能，但会带来额外的风险。阿巴蒂科表示，他的团队已经制定了一套程序来识别PII，将其从所有系统中清除，并将错误通知客户。

人工智能系统还需要情景数据，这可能会极大地扩大公司的暴露风险。假设一家保险公司想要更好地掌握客户的驾驶习惯，它可以购买购物、驾驶、位置和其他数据集，这些数据集可以很容易地交叉关联并与客户账户匹配。这种新的、呈指数级增长的数据集对黑客更具吸引力，如果被攻破，对公司的声誉也会造成更大的破坏。

人工智能的安全设计

有很多数据需要保护的一家公司是在线文件共享平台Box。Box使用AI提取元数据，并提高搜索、分类等能力。Box的CISO拉克希米•汉斯帕尔(Lakshmi Hanspal)表示，Box可以从合同中提取条款、续订和定价信息。Box的大多数客户内容分类要么是用户定义的分类，要么是被完全忽视。他们坐在堆积如山的数据上，这些数据可能对数字化转型有用。

汉斯帕尔说，保护数据是Box的一个重要事项，同样的数据保护标准也适用于人工智能系统，包括训练数据。Box建立信任并保持信任。

这意味着所有系统，包括新的人工智能项目，都是围绕核心数据安全原则构建的，包括加密、日志记录、监控、身份验证和访问控制。汉斯帕尔指出，数字信任是其平台与生俱来的，他们将其付诸于实践。

Box对传统代码和新的AI和ML支持的系统都有一个安全的开发流程。汉斯帕尔说：“我们在开发安全产品方面与ISO的行业标准保持一致。设计上的安全性是内置的，而且有制衡机制，包括渗透测试和红色团队。”

数学家和数据科学家在编写AI和ML算法代码时通常不担心潜在的漏洞。当企业构建AI系统时，他们会借鉴现有的开源算法，使用商业的“黑匣子”AI系统，或者从零开始构建自己的AI系统。

对于开放源码，攻击者有可能嵌入恶意代码，或者代码包含漏洞或易受攻击的依赖项。专有商业系统还使用开放源代码，以及企业客户通常无法查看的新代码。

逆向攻击是一个主要威胁

AI和ML系统通常是由非安全工程师创建的开源库和新编写的代码的组合。此外，不存在用于编写安全AI算法的标准优秀实践。考虑到安全专家和数据科学家的短缺，这两方面的专家供应更少。

AI和ML算法是比较大的潜在风险之一，也是博思艾伦•汉密尔顿(Booz Allen Hamilton)的Raff最担心的长期威胁之一，其有可能将训练数据泄露给攻击者。他表示：“有一些逆向攻击，可以让人工智能模型向你提供关于它自身以及它所接受的训练的信息。如果它是根据PII数据进行训练的，你就可以让模型向你泄露这些信息。实际的PII可能会暴露出来。”

Raff说，这是一个被积极研究的领域，也是一个巨大的潜在痛点。有些工具可以保护训练数据免受逆向攻击，但它们太昂贵了。他表示：“我们知道如何阻止这种威胁，但这样做会使培训模型的成本增加100倍，这并不夸张，所以没人会这么做。”

你不能确保你不能解释的东西安全

另一个研究领域是可解释性。今天，许多AI和ML系统，包括许多主要网络安全供应商提供的AI和ML支持的工具，都是“黑匣子”系统。YL Ventures的CISO Sounil Yu表示：“供应商没有在其中建立可解释性。在安全方面，能够解释所发生的事情是一个基本的组成部分。如果我不能解释为什么会发生这种情况，我怎么能补救呢?“。

对于构建自己的AI或ML系统的公司来说，当出现问题时，他们可以回到训练数据或使用的算法来解决问题。Yu指出，如果你是从别人那里构建的，你根本不知道训练数据是什么。

需要保护的不仅仅是算法

人工智能系统不仅仅是一个自然语言处理引擎，或者仅仅是一个分类算法，或者仅仅是一个神经网络。即使这些部分是完全安全的，系统仍然必须与用户和后端平台交互。

系统是否使用强身份验证和最低权限原则?到后端数据库的连接是否安全?与第三方数据源的连接情况如何?用户界面对注入攻击是否有弹性?

（编辑：通化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页