首页 >> 生活 >

对深度分类器训练动态的新见解

2023-03-09 14:38:31 来源: 用户: 

麻省理工学院和布朗大学的研究人员进行的一项新研究描述了深度分类器训练过程中出现的几个特性,深度分类器是一种人工神经网络,通常用于图像分类、语音识别和自然语言处理等分类任务。

今天发表在《研究》杂志上的论文“使用平方损失训练的深度分类器中的动力学:归一化、低秩、神经崩溃和泛化界限”是同类论文中第一篇从理论上探索训练深度分类器的动力学的论文平方损失以及等级最小化、神经崩溃和神经元激活与层权重之间的对偶性等属性如何交织在一起。

在这项研究中,作者专注于两种类型的深度分类器:完全连接的深度网络和卷积神经网络(CNN)。

之前的一项研究检查了在训练的最后阶段在大型神经网络中发展的结构特性。该研究侧重于网络的最后一层,发现经过训练以适应训练数据集的深度网络最终会达到一种称为“神经崩溃”的状态。当神经崩溃发生时,网络将特定类别的多个示例(例如猫的图像)映射到该类别的单个模板。理想情况下,每个类别的模板应尽可能远离彼此,从而使网络能够准确地对新示例进行分类。

位于麻省理工学院大脑、思想和机器中心的麻省理工学院小组研究了网络可以实现神经崩溃的条件。具有随机梯度下降(SGD)、权重衰减正则化(WD)和权重归一化(WN)这三个成分的深度网络如果经过训练以适应其训练数据,将显示神经崩溃。与早期研究的实证方法相比,麻省理工学院小组采用了一种理论方法,证明神经崩溃是从使用SGD、WD和WN的平方损失最小化中出现的。

合著者和麻省理工学院麦戈文研究所博士后AkshayRangamani指出:“我们的分析表明,神经崩溃是从具有高表达深度神经网络的平方损失最小化中出现的。它还强调了权重衰减正则化和随机梯度下降在推动神经崩溃的解决方案。”

权重衰减是一种正则化技术,它通过降低权重的大小来防止网络过度拟合训练数据。权重归一化缩放网络的权重矩阵,使它们具有相似的比例。低秩是指矩阵具有少量非零奇异值的属性。泛化边界为网络准确预测训练期间未见的新示例的能力提供了保证。

作者发现,预测低秩偏差的相同理论观察结果也预测了权重矩阵和网络输出中存在固有SGD噪声。这种噪声不是由SGD算法的随机性产生的,而是由秩最小化和数据拟合之间有趣的动态权衡产生的,它提供了类似于混沌状态下动态系统中发生的情况的固有噪声源。这种类似随机的搜索可能有利于泛化,因为它可以防止过度拟合。

“有趣的是,这一结果验证了经典的泛化理论,表明传统边界是有意义的。它还为稀疏网络(如CNN)在许多任务中相对于密集网络的优越性能提供了理论解释,”合著者评论道和麻省理工学院麦戈文研究所博士后TomerGalanti。事实上,作者为具有局部内核的CNN证明了新的基于范数的泛化边界,这是一个在其权重矩阵中具有稀疏连接的网络。

在这种情况下,泛化可以比密集连接的网络好几个数量级。这个结果验证了经典的泛化理论,表明它的界限是有意义的,并且与最近的一些论文对过去的泛化方法表示怀疑相反。它还为稀疏网络(例如CNN)相对于密集网络的优越性能提供了理论解释。到目前为止,机器学习理论几乎完全忽略了CNN而不是密集网络代表深度网络成功故事的事实。相反,这里提出的理论表明,这是对深度网络为何如此有效的重要见解。

“这项研究提供了最早的理论分析之一,涵盖深度网络中的优化、泛化和逼近,并提供了对训练过程中出现的特性的新见解,”共同作者、脑与神经科学系EugeneMcDermott教授TomasoPoggio说。麻省理工学院的认知科学和大脑、思想和机器中心的联合主任。“我们的结果有可能加深我们对深度学习为何如此有效的理解。”

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章