偏见无处不在。但是要在技术领域检测到它们并不容易,这归结为一和零。在我作为IBM Security副总裁的工作中,随着AI的应用越来越广泛,业务主管经常问我如何应对算法结果中可能不明显的偏见。
我们已经看到各种行业对AI的使用(包括招聘和抵押贷款)出现了不适当和意外的偏见 。在这些情况下,由于偏见反映出与我们身份不同特征有关的方式,即性别,种族,年龄,因此存在明显的有缺陷的结果。但是我花了很多时间思考甚至没有意识到存在AI偏见的领域。在复杂的网络安全领域,我们如何识别偏见?
人工智能已经成为主要的安全工具,研究表明,有69%的IT高管表示,如果没有人工智能,他们将无法应对威胁。但是,无论是用于改进防御还是减轻安全任务,我们都必须相信AI给我们带来的结果不带有偏见。在安全性方面,AI偏见是一种风险形式-您向AI提供的信息,上下文和专业知识越多,您越能管理安全风险和盲点。否则,从种族和文化偏见到上下文,与行业相关的各种形式的偏见都会对AI产生影响。为了有效,AI模型必须多样化。那么,我们如何确保这种广度?如果不这样做,会出什么问题?
我认为这是三个区域,这些区域有助于防止AI偏见损害安全工作。
解决问题的算法
当AI模型基于错误的安全假设或无意识的偏见时,它们所做的不仅仅是威胁公司的安全状况。它们也会对业务产生重大影响。根据非安全因素调整为合格或恶意网络流量的AI可能会错过威胁,使它们无法进入组织的网络。它还可能会阻塞网络流量,从而限制可能成为关键业务的通信。
例如,假设一个AI开发人员将世界上的一个区域视为安全国家,因为它是一个盟友国,而另一个地区则是恶意的,因为它是一个专制政权。因此,开发人员允许来自前者的所有网络流量进入,同时阻止来自后者的所有流量。这种类型的聚合偏差可能导致AI忽略可能更重要的其他安全上下文。
如果计算机科学家在没有安全专家的影响和输入的情况下设计AI算法,那么结果将是有缺陷的。因为如果AI科学家没有与安全团队密切配合以收集数据,威胁情报和上下文,然后将这些见解进行整理,那么他们可能会在某种程度上调整AI工具。结果,训练有素的AI驱动的安全系统可能无法识别应识别为欺诈元素,漏洞或漏洞的内容。算法中的有偏规则不可避免地会产生偏差。
源数据
当源材料不是多种多样时,数据本身会产生偏差。馈送有偏见的数据的AI将仅了解世界的部分视图,并根据这种狭understanding的理解做出决策。在网络安全中,这意味着威胁将被忽略。例如,如果未对具有代表性的一组良性电子邮件(例如各种语言的电子邮件或具有ling语的语言特质)进行训练,则垃圾邮件分类器将不可避免地产生误报。即使是常见的,故意的语法,拼写或语法滥用,也可能促使垃圾邮件分类程序阻止良性文本。