改进的神经网络置信度度量:实证比较与误分类减少

0 下载量 181 浏览量 更新于2024-06-19 收藏 1.02MB PDF 举报
本文主要探讨了在神经网络分类器广泛应用的背景下,确保其预测准确性和可靠性的重要性。当前,尽管神经网络在诸如医疗保健、金融和自动驾驶等领域取得了显著的预测性能,但在安全关键领域,由于缺乏可信度保障,其预测结果的可靠性成为一个亟待解决的问题(Selis Pasteanu等人,2018;Gupta等人,2007)。 现有的置信度度量方法,如最大类概率(Hendrycks & Gimpel, 2017)、softmax输出的熵(Williams & Renals, 1997)以及最高和第二高激活输出间的差异(Monteith & Martinez, 2010),虽然被广泛使用,但它们在检测误分类错误方面往往表现出不足,存在高置信度却出错的情况(Provost等人,1998;Guo等人,2017;Nguyen等人,2015)。因此,构建一个可靠的分类器置信度检测器对于提升神经网络在实际应用中的鲁棒性至关重要。 本文提出了一种新的置信度测量框架,称为RED(Reliable Estimation of Detection for Neural Networks),旨在提高神经网络分类器的置信度检测能力。该框架通过在125个UCI数据集上对RED与现有的置信度估计算法进行实证对比,结果显示RED方法的有效性。特别是在大型深度学习架构的视觉任务中,RED展示了其可扩展性,证明了它能有效处理复杂的数据处理任务。 在涉及分布外样本(out-of-distribution samples)和对抗性样本(adversarial examples)的案例研究中,RED显示出潜在的优势,预示着其在增强神经网络对未知输入的适应性和抵抗攻击的能力方面具有广阔的应用前景。这不仅有助于提升分类器在非典型情境下的性能,还能增强其在安全领域的信任度。 总结来说,本文的主要贡献在于提出了一种新型的神经网络置信度检测框架,RED,它在实际应用中表现出更高的可靠性和鲁棒性,有望成为改进现有神经网络分类器性能的关键技术。随着对置信度评估方法的不断优化,未来的研究将进一步推动神经网络在安全关键领域的稳健应用。