解密神经网络中的记忆:深入探讨模型大小、记忆和泛化在图像分类基准上的影响
揭秘神经网络中的记忆机制:深度探讨模型大小、记忆和泛化对图像分类基准的影响为了学习统计学,一个人必须在训练数据的记忆和对测试样本的传递之间取得平衡。然而,超参数化神经模型的成功对这一理论提出了质疑;这些模型可以记忆,但仍能良好地进行泛化,例如,它们能够正确匹配随机标签。为了实现分类的完美准确性,即对训练集进行内插,实践中常常使用这些模型。这引发了一系列研究,探讨这些模型的泛化能力。
Feldman最近表明,在某些背景下,可能需要记忆来实现泛化。在这里,“记忆”是通过稳定性概念来定义的,高记忆实例是指只有在包含在训练集中时,模型才能通过正确分类它们。对于实际的神经网络,这个概念可以估计训练样本的记忆程度。Feldman和Zhang在使用ResNet对图像进行行业标准分类时,研究了它的记忆模式。
尽管这是对真实世界模型记忆的有趣初步研究,但还存在一个基本问题:更大的神经模型是否会记忆更多?纽约的谷歌研究人员通过实证方法回答了这个问题,并全面研究了图像分类标准。他们发现,训练样本在模型大小上展现了惊人多样的记忆轨迹,有些样本显示出帽状或随着模型增大而增强的记忆,而其他样本则显示出随着模型增大而减弱的记忆。
为了产生多种尺寸的高质量模型,实践者使用了一种系统化的过程,即知识蒸馏。具体而言,它涉及到利用高性能大型模型的指导创建高质量的小型(学生)模型。
Feldman关于记忆的概念已经被用来从理论上研究不同模型大小之间的记忆和泛化关系。以下是他们基于受控实验结果的贡献:
- 对模型复杂度(如ResNet的深度或宽度)与图像分类器记忆的关系进行了定量调查。主要发现显示,随着模型复杂性的增加,记忆在不同样本之间的分布变得越来越双峰化。他们还指出,其他可计算的记忆评估方法,如困难度评估,无法捕捉到这一重要趋势。
- 他们给出了在不同模型大小下展示不同记忆分数轨迹的示例,并确定了四种最常见的轨迹类型,包括那些随着模型复杂性增加而增强记忆的案例,以进一步研究双峰记忆趋势。特别是,发现模糊和错误标记的案例符合该模式。
- 关于一个独热(即非蒸馏)学生模型记忆的样本,研究人员通过定量研究得出结论,蒸馏倾向于阻碍记忆。有趣的是,他们发现蒸馏主要会降低随着模型大小增加而记忆增强的情况。这一发现表明,通过减少需要记忆这些具有挑战性情况的需求,蒸馏有助于泛化。
研究人员首先定量分析了模型复杂度(用于图像分类的ResNet的深度和宽度)与记忆之间的关系。他们在两个知名数据集(CIFAR-100和ImageNet)上提供了ResNet深度和记忆分数之间的关系的图形表示。他们的研究发现,与其最初的想法相反,在深度达到20后,记忆分数开始下降。
研究人员得出结论,随着模型复杂性的增加,记忆在不同样本之间呈现出更大的双峰分布。他们还指出,目前的可计算方法用于评估记忆和样本难度存在问题,因为这些方法无法捕捉到这一关键模式。
研究小组通过实例在不同模型大小下展示了具有不同记忆分数轨迹的案例,以深入研究双峰记忆模式。他们确定了四个主要轨迹类别,其中一个类别涉及随着模型复杂性增加而增强记忆的情况。特别是,他们发现模糊和错误标记的样本往往遵循这种模式。
研究以定量分析结束,显示了知识从大型教师模型转移到较小学生模型的蒸馏过程与记忆的减少有关。这种阻碍在被独热的非蒸馏学生模型记忆的案例中最为明显。有趣的是,蒸馏主要减少了随着模型大小增加而增强记忆的情况。根据这些证据,我们可以得出结论,蒸馏通过减少对许多困难样本的记忆需求来改善泛化能力。
总结:
谷歌研究人员的发现对实际应用和未来研究方向具有重要意义。首先,使用仅代理数据来记忆特定数据时需要谨慎。先前的研究中已提出了以模型训练或模型推理为基础的各种有效代理度量标准,这些代理度量标准在记忆方面与实际情况高度吻合。然而,研究人员发现这些代理度量标准在分布上存在较大差异,并且不能有效地表征现实世界模型的记忆行为的关键特征。这表明为记忆分数找到有效计算的代理度量标准是未来的发展方向。先前的研究将例子的复杂性归类为预定的模型大小。研究结果突显了在描述例子时考虑多种模型大小的价值。例如,Feldman将数据集中记忆得分最高的例子定义为长尾例子。研究结果显示,对一个模型大小的记忆信息可能不适用于另一个模型大小。