网络安全知识体系：AI安全主题指南之评估

AI安全防护系统提升网络安全 #生活知识# #生活感悟# #科技生活变迁# #人工智能日常#

6评估

如上所述，当使用糟糕的评估时，糟糕的ML模型可能看起来不错。强大的评估方法可用于检查模型是否已准备好部署、支持生命周期维护以及检查稳健性。评估方法可以在构建模型之前开发;这样做可以防止确认偏差，研究人员通过确认偏差构建一个模型来强化他们预先存在的观点，例如，数据包流长度是检测恶意网络流量的最佳方法。

6.1性能指标

每个指标都有其优点和缺点。使用单一指标（如准确率、曲线下面积（AUC）或F分数）很诱人，但这些指标中的每一个都可能隐藏模型中的弱点[119]。查看包括假阳性率和假阴性率在内的一系列指标将有助于发现弱点，尤其是在细分为样本子组（例如，恶意软件系列、网络攻击类型）时。

对于需要人工解释的模型，例如，应分析异常检测、（精确率）top-k和召回率。top-k的精度给出了排名前K个实例的相关实例的比例。Recall（召回率）提供生成警报的相关实例的比例。如果数据未标记[12]，后者可能是一项棘手的任务，但生成真正的异常并检查它们是否被捕获，以及与其他异常检测模型或产品进行比较可以提供一些额外的评估。有关关键机器学习性能指标的明确解释，请参见[119]的第2章。

对于强化学习，分析模型采用的路径以检查虚假捷径是有用的[31]。

6.2 数据集分析

数据集分析还有助于减少偏差并提高稳健性。许多机器学习算法都是根据正确预测的百分比进行优化的。如果用于衡量此数据的数据具有大量一种类型的攻击，例如攻击，则模型可能会在仅识别此类攻击的性能达到峰值，而忽略数据集中代表性较少的案例。评估也是如此，因此按数据类型细分性能可能有益。

6.3 使用多个数据集进行测试

使用具有不同基础分布的多个数据集进行测试也可以突出弱点[86]。应避免K折叠评估，因为它可能导致数据窥探[11]。所选数据集可以随着时间的推移进行传播，以测试时间概念漂移的稳健性，来自不同的来源来测试上下文的稳健性和/或省略某些类型的样本来测试推广的能力，例如对看不见的攻击。部署模型后，可以使用强大的评估方法来检查性能，并且模型不需要重新训练。

6.4 生命周期维护

已构建和采购系统的生命周期维护不同，但对系统的评估可能是相同的。为了检查性能是否没有迅速下降，可以实施定期评估计划。这将需要一些人工标记工作来验证，但通过规划，这可以利用现有的工作，例如深入的人工调查，这些调查已经为网络流量、恶意软件等提供了基本事实。这可以定期进行，在未遂事故或成功攻击之后进行，或者最好两者兼而有之。缓解性能不佳的方法可能是重新训练模型或联系产品提供商。

网络安全知识体系：AI安全主题指南简介、AI和机器学习

网络安全知识体系：AI安全主题指南之为什么选择AI

网络安全知识体系：AI安全主题指南之网络安全应用

原文始发于微信公众号（河南等级保护测评）：网络安全知识体系：AI安全主题指南之评估

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

https://cn-sec.com/archives/4269058.html复制链接复制链接

网络安全知识体系：AI安全主题指南之评估

6评估

6.1性能指标

6.2 数据集分析

6.3 使用多个数据集进行测试

6.4 生命周期维护

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享