ICML 2022 | Out-of-Distribution Detection with Deep Nearest Neighbors

标题：Out-of-Distribution Detection with Deep Nearest Neighbors

作者：Yiyou Sun, Yifei Ming, Xiaojin Zhu, Yixuan Li (University of Wisconsin - Madison)

原文链接：https://arxiv.org/pdf/2204.06507.pdf

代码链接：https://github.com/deeplearning-wisc/knn-ood

1. 介绍

由于经典的机器学习方法通常假设模型训练和测试的数据是独立同分布的(IID, Independent Identical Distribution)，这里训练和测试的数据都可以说是 In Distribution(ID) 。

在实际应用当中，模型部署上线后得到的数据往往不能被完全控制的，会出先一些样本外的数据，也就是说模型接收的数据有可能是 Out-of-Distribution (OOD) 样本，也可以叫异常样本(outlier) 指的是模型能够检测出 OOD 样本，而 OOD 样本是相对于 ID 样本来说的。

如今的深度模型常常会对一个 OOD 样本认为是ID样本中的某一个类，并给出高的置信度，这显然是不合理的。举个通俗的例子，我们利用一个包含“猫”和“狗”两类的数据集训练一个二分类器。

如果测试的时候，出现了“人”的样本，如果利用传统的softmax对输出的logit进行处理，那么我们会认为该样本属于“猫”或“狗”的一类，这显然对模型的部署是有影响的，所以我们希望我们的模型能够不把它判定为“猫”或者“狗”，而是判定它为OOD。如何让模型识别出 OOD 样本对 AI 的发展有很重要的意义，特别是 AI 安全。

最近出现了一系列丰富的 OOD 检测算法，其中基于距离的方法 (distance-based methods) 显示出非常卓越的性能。基于距离的方法(Lee et al., 2018 ; Tack et al., 2020; Sehwag et al., 2021) 利用从模型中提取的特征嵌入(feature embedding)，并假设：在测试中OOD的样本相对训练中的ID样本相对来讲更远。

但这些方法都把feature embedding的空间空间分布建模为多变量的混合高斯分布 (mixture of multivariate Gaussian distributions GMM)，这显然是作用有限的，因为很显然视觉信息非常复杂，不是用一个很简单的GMM就能描述的，所以可能这种方式叶比较受阻。其实利用参数相关的分布假设来描述真实世界中的各种分布显然是非常有挑战的。马毅老师也在表达过高维空间特征的复杂性。