6评估
如上所述,当使用糟糕的评估时,糟糕的ML模型可能看起来不错。强大的评估方法可用于检查模型是否已准备好部署、支持生命周期维护以及检查稳健性。评估方法可以在构建模型之前开发;这样做可以防止确认偏差,研究人员通过确认偏差构建一个模型来强化他们预先存在的观点,例如,数据包流长度是检测恶意网络流量的最佳方法。
6.1性能指标
每个指标都有其优点和缺点。使用单一指标(如准确率、曲线下面积(AUC)或F分数)很诱人,但这些指标中的每一个都可能隐藏模型中的弱点[119]。查看包括假阳性率和假阴性率在内的一系列指标将有助于发现弱点,尤其是在细分为样本子组(例如,恶意软件系列、网络攻击类型)时。
对于需要人工解释的模型,例如,应分析异常检测、(精确率)top-k和召回率。top-k的精度给出了排名前K个实例的相关实例的比例。Recall(召回率)提供生成警报的相关实例的比例。如果数据未标记[12],后者可能是一项棘手的任务,但生成真正的异常并检查它们是否被捕获,以及与其他异常检测模型或产品进行比较可以提供一些额外的评估。有关关键机器学习性能指标的明确解释,请参见[119]的第2章。
对于强化学习,分析模型采用的路径以检查虚假捷径是有用的[31]。
6.2 数据集分析
数据集分析还有助于减少偏差并提高稳健性。许多机器学习算法都是根据正确预测的百分比进行优化的。如果用于衡量此数据的数据具有大量一种类型的攻击,例如攻击,则模型可能会在仅识别此类攻击的性能达到峰值,而忽略数据集中代表性较少的案例。评估也是如此,因此按数据类型细分性能可能有益。
6.3 使用多个数据集进行测试
使用具有不同基础分布的多个数据集进行测试也可以突出弱点[86]。应避免K折叠评估,因为它可能导致数据窥探[11]。所选数据集可以随着时间的推移进行传播,以测试时间概念漂移的稳健性,来自不同的来源来测试上下文的稳健性和/或省略某些类型的样本来测试推广的能力,例如对看不见的攻击。部署模型后,可以使用强大的评估方法来检查性能,并且模型不需要重新训练。
6.4 生命周期维护
已构建和采购系统的生命周期维护不同,但对系统的评估可能是相同的。为了检查性能是否没有迅速下降,可以实施定期评估计划。这将需要一些人工标记工作来验证,但通过规划,这可以利用现有的工作,例如深入的人工调查,这些调查已经为网络流量、恶意软件等提供了基本事实。这可以定期进行,在未遂事故或成功攻击之后进行,或者最好两者兼而有之。缓解性能不佳的方法可能是重新训练模型或联系产品提供商。
网络安全知识体系:AI安全主题指南简介、AI和机器学习
网络安全知识体系:AI安全主题指南之为什么选择AI
网络安全知识体系:AI安全主题指南之网络安全应用
原文始发于微信公众号(河南等级保护测评):网络安全知识体系:AI安全主题指南之评估
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞https://cn-sec.com/archives/4269058.html复制链接复制链接