原文:Energy-based Out-of-distribution Detection文章链接:https://arxiv.org/abs/2010.03759 该文章收到了LeCun的点赞与转发,LeCun点赞华人女科学家--使用能量模型替代Softmax函数!_腾讯新闻 Motivation & Related Works当机器学习模型看到与其训练不同的输入时,就会出现out-of-distribution (OOD) uncertainty,因此模型很难对他们进行正确预测(也即在与训练数据分布差距较大的数据点上表现极差)。对于将ML应用于安全关键的应用(如罕见疾病鉴定)而言,确定输入是否超出了分布范围是一个基本问题。 OOD(Out-of-distribution)检测的传统方法之一是基于softmax confidence。直觉上来看,对于in distribution的数据点,我们有高可信度给他们一个结果(就分类问题而言即将一张猫的图片分类为“猫”的概率很高),那么可信度低的就是OOD inputs。但是因为DNN在样本空间的过拟合,经常会对OOD的样本(比如对抗样本)一个很高的可信度。 另一种检测方法是基于生成模型的,这类方法从生成建模的角度推导出似然分数,主要利用 Variational Autoencoder 的 reconstruction error 或者其他度量方式来判断一个样本是否属于 ID 或 OOD 样本。主要的假设是,Autoencoder 的隐含空间(latent space) 能够学习出 ID 数据的明显特征(salient vector),而对于 OOD 样本则不行,因此OOD样本会产生较高的 reconstruction error. 这类方法的缺点在于生成模型难以优化而且不稳定,因为它需要对样本空间的归一化密度进行估计。 Contribution在本文中,作者使用energy score来检测OOD输入,ID的数据energy score低,OOD的数据energy score高。作者详尽证明了energy score优于基于softmax的得分和基于生成模型的方法.相比于基于softmax可信度得分的方法,energy score不太受到NN在样本空间过拟合的影响。相比于基于生成模型的方法,energy score又不需要进行显式的密度估计。 Background:Energy-based model基于能量的模型(EBM)的本质是构建一个函数,它将输入空间中的每个点映射到一个称为能量的单个non-probabilistic scalar。通过Gibbs分布我们可以将能量转化为概率密度 分母被称为配分函数,是温度参数。此时我们可以得到任意点的自由能为 我们可以轻易的联系分类模型与能量模型,考虑一个类的NN分类器将输入映射到个对数值,通过 softmax 归一化得到属于某一类别的概率,分类分布如下 这里的即的第个值,而此时我们可以定义能量为即负对数。同时我们可以得到关于的自由能 这里需要强调一下,这个能量已经与数据本身的标签无关了,可以看作是输出向量 的一种范数。 Energy-based Out-of-distribution Detection我们知道OOD detection实际上就是一个二分类问题,判别模型的密度函数可以写作 其中配分函数是未知的归一化常数,是intractable的。幸运的是 因为是样本独立的,不影响总体能量得分分布,所以说和数据点的负对数似然是线性对齐的,低能量意味着高似然,即更有可能是ID数据,反之更有可能是OOD数据。这涉及到一个阈值,比较empirical,这里不多说。 此时我们可能会想到,这比softmax函数好在哪里呢?不妨写出softmax分类的形式 当的时候,这其实就是 如果再进行一步化简我们可以得到 后两项并不是一个常数,相反对于一个ID的数据,其负对数似然期望是更小的,但是这个分类置信度却是越大越好,二者冲突。这一定程度上解释了基于softmax confidence方法的问题。 那么能量模型如何进行训练呢——通过分配较低的能量给ID数据,和更高的能量给OOD数据,明确地创造一个能量差距。总体的损失函数如下 其中是分类模型的softmax输出,即标准的交叉熵分布加上一个能量约束项。 即用了两个平方的hinge loss来分别惩罚能量高于和能量低于的ID/OOD数据。这里也即该方法的另一个好处,可以利用没有标签的OOD数据帮助训练。一旦模型训练完成,我们就可以按照按照能量进行OOD检测。 Experimental Results实验中有一点需要注意,作者采用了两个setting
实验统一使用WideResNet作为预训练分类模型,在六种OOD数据集上的表现如下,可以看到在不进行fine-tune的情况下基本碾压了基于softmax confidence的方法。有fine-tune的情况下,也比目前的sota-OE好很多。不过这里需要指出表格中标注的应该指的是训练集,因为作者也提到了下表是"We use WideResNet to train on the in-distribution dataset CIFAR-10.". 作者进一步比较了各种方法之间的差距,可以看到即使不使用fine-tune,只是将softmax confidence换成energy score效果就已经很不错了,进行fine-tune之后更是惊为天人。 同样还有与生成模型的比较,metric是the area under the receiver operating characteristic curve (AUROC)--越高越好。 |
NeurIPS 2020|基于能量的OOD检测
原文:Energy-based Out-of-distribution Detection 文章链接:https://arxiv.org/abs/2010.03759该文章收到了LeCun的点赞与转发,LeCun点赞华人女科学家-使用能量模型替代Softmax函数!_腾讯新闻Mo...
这篇内容能帮你快速理解什么
通过更完整的主题说明和结构表达,帮助用户更快抓住重点,也让搜索系统更容易识别页面主题。
让访问者快速理解当前问题、可行方法以及下一步应该继续看案例、看服务还是直接沟通。
文章页不只是获取流量,也承担继续阅读、查看服务和发起咨询的承接作用。
继续了解这个主题前,你可能还关心这些问题
为什么这类主题适合写成文章?
因为很多用户会通过问题词、对比词和方案词进入网站,文章页越清楚,越容易覆盖更具体的需求。
为什么文章页不能只有正文?
仅有正文不利于继续浏览和转化,文章页还需要总结、问答、相关推荐与咨询入口来承接用户。
看完之后下一步可以做什么?
可以继续看同类文章、服务页与案例页,也可以直接沟通官网升级与搜索优化需求。
这篇文章能帮助我解决什么具体问题?
这篇文章围绕当前主题提供了详细的解决方案、操作步骤和注意事项,帮助你快速理解核心要点并应用到实际场景中。
如何判断这篇文章的内容是否权威可靠?
内容基于实际项目经验和技术实践编写,结合行业标准和最佳实践,同时提供案例数据和方法论支撑,确保专业性和可操作性。
这类内容对SEO和网站排名有什么帮助?
优质的长文内容和FAQ结构能够提升页面主题相关性、增加用户停留时间、降低跳出率,这些都有助于搜索引擎评估页面质量并提升排名表现。
AI搜索引擎会如何理解和引用这类内容?
AI搜索系统会提取文章的实体信息、观点结论和结构化问答,当用户提出相关问题时,可能会引用本文作为答案来源或参考依据。
如果我有更多相关问题可以咨询谁?
可以通过页面底部的联系方式直接咨询我们的专业团队,包括电话、QQ或在线表单,我们会根据你的具体情况提供针对性的建议和方案。
这篇文章和同类内容有什么不同之处?
本文不仅提供理论知识,还包含实战经验、避坑指南和可执行的行动建议,同时兼顾传统SEO和新兴的GEO生成式搜索优化视角。
多久需要更新一次这类内容以保持时效性?
建议每季度审查并更新一次关键数据和案例,如果涉及技术工具或算法变化则需要更频繁地维护,确保内容持续为用户提供准确价值。