程心,揭开对机器学习的七点误解~,毒

雷锋网 AI 科技谈论按,近来,哥伦比亚大学核算机科学专业博士生 Oscar Chan花都兵王g 发博论述了关于机器学习的七个误解,雷锋网(大众号:雷锋网) AI 科技谈论将原文编译收拾如下。

在了解深度学习的进程中盛传着 7 个误解,它们中许多都是曾经固有的成见,但在最近又被新的研讨提出了质疑,现在咱们把它收拾出来:

误解 1: TensorFlow 是个张量运算库

误解 2: 图画数据集反映了天然国际实在图画散布

误解 3: 机器学习研讨南非者并不运用测验集进行验证

误解 4: 神经网络练习进程会运用练习会集的一切数据点

误解 5: 咱们需求批规范化来练习超深度残差网络

误解 6: 留意力优于卷积

误解 7:&n姚振华bsp;显着图是解说神经网络的一种稳健办法

以下将别离阐明:

误解1:TensorFlow 是个张量运算库?

事实上,TensorFlow 是一个矩阵运算库,这与张量运算库存在显着差异。

在 NeurIPS 2018 的论文 Computing&nb程心,揭开对机器学习的七点误解~,毒sp;Higher Order Derivatives of Matrix and Tensor Expressions 中,研讨者标明,他们依据张量微积分(Tensor Calculus)所树立的新主动微分库具有显着更紧凑(compact)的表达式树(expression trees)。这是由于,张量微积分运用了索引标识,这使得前向方式和反向方式的处理方式相同。

南辕北辙的是——矩阵微积分为了标识便利而躲藏了索引,这一般会导致主动微分的表达式树显得过于冗繁。

若有矩阵的乘法运算:C=AB。在前向方式中,有:

而在反向方式中,则有:

为了正确完结乘法核算,咱们需求留意乘法的次序和转置的运用。关于机器学习开发者而言,这只是在标识上的一点困惑,但关于程序而言,需求核算花销。

下一个比如显着含义更程心,揭开对机器学习的七点误解~,毒加严重:关于求行列式 c=det(A)。在前向方式中,有:

而在反向方式中,则有:

这儿能够显着看出,无法运用同一个表达式树来标明两种方式,由于二者是由不同运算黄色笑话组成的。

总的来说,TensorFlow 和其他库(如 Mathematica、Maple、 Sage、SimPy、ADOL-C、TAPENADE、王不留行TensorFlow, Theano、PyTorch 和 HIPS autograd)完成的主动微分办法,会在前向方式和反向方式中,得出不同的、低效的表达式树。而在张量微积分中,经过索引标识保留了乘法的可交换性,然后轻松防止了这些问题(详细的完成原理,请阅览论文原文)。

研讨者在三个不同的问题上测验了他们进行反向方式主动微分的方程心,揭开对机器学习的七点误解~,毒法,也便是反向传达,并测验了其核算 Hessian 矩静香凶恶阵所耗费的时刻。

榜首个问题是优化一个形如 xAx 的二次函数;第二个问题是求解一个逻辑回归;第三个问题是求解矩阵分化。

在 CPU 上,新办法与当下盛行的 TensorFlow、Theano、PyTorch 和 HIPS autograd 等主动微分库比较,要快两个数量级。

在 GPU 上,研讨者发现,新办法的提速愈加显着,超出盛行库的速度近似三个数量级。

含义:运用现在的深度学习库完结对二次或更高阶函数的求导,所花费的本钱比本应耗费的更高。这包含了核算比如 Hessian 的通用四阶张量(例:在 MAML 中,以及二阶牛顿法)。走运的是,在深度学习中,二阶函数并不常见。但在传统机器学习中,它们却广泛存在:SVM 对偶问题、程心,揭开对机器学习的七点误解~,毒最小二乘回归、LASSO,高斯进程……

误解2:图画数据集反映了天然国际实在图画散布

人们大概会以为,现在的神经网络在方针辨认使命上,水平现已超越真人。其实并不尽然。或许在 ImageNet 等选择出来的图画数据集上,它们的作用的确比人工优异;但关于天然界的实在图画,它们在方针辨认上肯定无法比过任何一个正常的成年人。这是由于,从现在的图画数据会集抽取的图画,和从实在国际全体中抽取的图画的散布不同。

在一篇 2011 年旧论文 Unbiased Look at Dataset Bias 里,研讨者依据 12 个盛行的图画数据集,测验经过练习一个分类器用以判别一个给定图画来自于程心,揭开对机器学习的七点误解~,毒哪个数据集,来探究是否存在数据集误差。

随机猜想的正确率应该是 1/12 = 8%,而试验成果的精确率高于 75%。

研讨者在 HOG 特征上练习了一个 SVM,并发现其正确率到达 39%,高于随机猜想水平。现在,假如运用最先进的 CNN 来复现这一试验,分类器的体现或许更好。

假如图画数据集的确能够代表来自天然国际的实在图画,就不应能够分辨出某个特定图画是来自于哪个数据集的。

但数据中的误差,使得每个数据集都异乎寻常。例如,在 ImageNet 中,有十分多的「赛车」,不能以为这代表了一般含义上「轿车」的典型概念。

研讨者在某数据集练习分类器,并在其他数据集上评价体现作用,进一步衡量数据集的价值。依据这个方针,LabelMe 和 ImageNet 是误差最小的数据集,在「一篮子钱银(basket of currencies)」上得分 0.58。一切数据集的得分都小于 1,标明在其他数据集上程心,揭开对机器学习的七点误解~,毒练习的模型都给出了更低的精确度。在没有数据集误差的抱负状况下,应该有一些得分是高于 1 的。

作者做了失望的总结:

那么,假如咱们把现在用来练习算法的数据集布置在实践国际里,它有什么价值呢?总结下浮现出的答案会是:「比没有好,但没好太多。」


误解 3:机器学习研讨者并不运用测验集进行验证

在机器学习的榜首门课中,咱们会学习到将数据集分为练习集、验证集以及测验集。将在练习集上练习得到模型,在验证集进步行作用评价,用以辅导开发者调理模型,以求在实在场景下取得作用最洛宁韦北海好的模型。直到模型调理好之后,才应该运用测验集,供给模型在实在场景下实践体现的无偏估量。假如开发者「做弊」地在练习或验证阶段运用了测验集,那么模型就很或许遇到对数据集误差产生过拟合的危险:这类误差信息是无法在数据集外泛化得到的。

机器学习研讨竞赛剧烈,对新算法/模型的评价,一般都会运用其在测验集上的体现。因而关于研讨者而言,没有理由去写/提交一篇测验集作用不 SOTA 的论文。这也阐明在机器学习研讨范畴,整体而言,运用测验集进行验证是一个遍及现象。

这种「做弊」行为的影响是什么?

在论文 DoCIFAR-10Classifiers Genera黎若孟荆白lize to CIFAR-10? 中,研讨者们经过在 CIFAR-10 上树立了一个新的测验集,来研讨此问题。为此,他们解析标示了来自 Tiny Images 库陈晟俊的图画,在开端的数据收集进程也是如此。

研讨者们之所以选择 CIFAR-10,是由于它是机器学习界运用最广泛的数据集之一,也是 NeurIPS 2017 中第二受欢迎的数据集(在 MNIST 之后)。CIFAR-10 数据集的创立进程也有完善揭露的文档记载。而巨大的 Tiny Images 库中,也有满足的细粒度标签数据,然后使得在尽量不引起散布偏移的状况下重建一个测验集成为或许。

研讨者发现,许多神经网络模型在从本来的测验集切换到新测验集的时分,都呈现了显着的精确率下降(4% - 15%)。但各模型的相对排名仍然相对安稳。

总的来说,相较于体现较差的模型,体现较好模型的精确率下降程度也相对更小。这是一个振奋人心的音讯,由于至少在 CIFAR-10 上,跟着研讨社群创造出更好的机器学习模型/办法,由于「做弊」得到的泛化丢失,也变得愈加细微。

误解4:神经网络练习进程会运用练习会集的一切数据点

人们常说,数据是新式财富,数据量越大,咱们就能将数据相对缺乏的、过参数化的深度学习模型练习得越好。

在 ICLR 2019 的一篇论文 An Empirical Study of Example Forgetting During Deep Neural Network Learning 中,研讨者们标明在多个常见的较小图画数据会集,存在显着冗余。令人震惊的是,在 CIFAR-10 中,咱们能够在不显着影响测验集精确率的状况下除掉 30% 的数据点。

当神经网络在时刻 t 干咳吃什么药给出精确分类,而在 t+1 时刻发作误分类,此刻称为发作忘记事情。这儿的时刻是指网络中 SGD 的更新次数。为了追寻忘记事情,研讨者每次只在 SGD 更新时的小批次数据中的样本上运转神经网络,而不是在数据集的每个样本上运转。关于在练习时不会发作忘记事情的样本,称之尴尬记性样本。

研讨者发现,MNIST 中 91.7%、permutedMNIST 中 75.3%、CIFAR-10 中 31.3% 以及 CIFAR-100 中 7.62% 的数据归于难记性样本。这契合直观了解,由于跟着图画数据集的多样性和杂乱性上升,神经网络对数据的忘记性越大。


相较于难记性样本,可忘记样本好像体现了更多不寻常的共同特征。研讨者将其类比于 SVM 中的支撑向量,由于它们好像划分了决议计划鸿沟。

与此相反,难记性样本则编码了绝大部分的冗余信息。假如将样本按难记性进行排序,就能够经过删去绝大部分的难记性样本,然后减小数据集。

在 CIFAR-10 中,在不影响测验集精确率的状况下,30% 的数据是能够移除的,删去 35% 的数据后精确率会下降 0.2%。假如所移除的 30% 的数据是随机选择的,不是依据难记性来选取,精确率将会显着下降 1%。

与此相似,在 CIFAR-100 上,8% 的数据能够在不影响测验集精确率的状况下移除。

这些发现标明,在神经网络的练习中,存在显着的数据冗余,就像 SVM 的练习中,非支撑向量的数据能够在不影响模型决议计划的状况下移除。

含义:假如在开端练习之前,就能确认哪些样本是不行忘记的,那么咱们就能够经过删去这些数据来节约存储空间和练习时刻。

误解5:咱们需求批规范化来练习超深度残差网络

长久以来,人们都信赖「经过随机初始参数值和梯度下降,直接优化有监督方针函数(如:正确分类的对数概率)来练习深度网络,作用不会很好。」

从那时起,就有许多mua聪明的随机初始化办法、激活函我有一只小毛驴数、优化办法以及其他比如残差衔接的结构立异,来下降运用梯度下降练习深度神经网络的难度。

但真实的打破来自于批规范化(batch normalization)的引进(以及其他的后续规范化技能),批规范化经过约束深度网络每层的激活值,来平缓梯度消失、爆破等问题。

值得留意的是,在本年的论文 Fixup Initialization: Residual Learning Without 卡牌游戏Normalization 中,研讨标明在不引进任何规范化办法的状况下,经过运用 vanil院子la SGD,能够有用地练习一个 10,000 层的深度网络。

研讨者比较了在 CIFAR-10 上,不同深度残差网络练习一个 epoch 的成果,并发现程心,揭开对机器学习的七点误解~,毒,规范初始化办法在 网络到达 100 层时就失利了,但 Fixup 和批规范化在 10,000 层的网络都能成功。

研讨者经过理论剖析,证明了「几巴特定神经层的梯度范数,以某个随网络深度添加而增大的数值为希望下界」,即梯度爆破问题。

为防止此问题,Fixup 中的中心思维是在每 L 个残差分支上,运用一起依赖于 L 和 m 的因子来调整 operationm 个神经层的权重。

Fixup 使得能够在 CIFAR-10 上以高学习速率练习一个 110 层的深度残差网络,得到的测验集体现和运用批规范化练习的同结构网络作用适当。

研讨者也进一步展现了在没有任何规范化处理下,依据 Fixup 得到的神经网络在 ImageNet 数据集和英语-德语机器翻译使命上与 LayerNorm 网络得分适当。

误解6:留意力机制优于卷积

在机器学习范畴,有一个正得到认同的说法,以为留意力机许哲珮制是卷积的更优代替。重要的是 Vaswani et al 留意到「一个可分离卷积的核算本钱,和一个自留意力层与一个逐点前馈层结合后的核算本钱共同」。

即使是最新的 GAN 网络,也展现出自留意力相较于规范卷积,在对长时刻、多标准依赖性的建模上作用更好。

在 ICLR 2019 的论文 Pay Less Attention with Lightweight and Dyarcgisnamic Convolutions 中,研讨者对自留意力机制在长时刻依赖性的建模中参数的有用性和功率提出了质疑,他们标明一个受自留意力启示而得到的卷积变体,其参数功率更高。

轻量级卷积(lightweight convolutions)是深度可分离(depthwise-separable)的,它在时刻维度进步行了 softmax 规范化,通道维度上同享权重,且在每个时刻步上从头运用相同权重(相似于 RNN 网络)。动态卷积(dynamic convolutions)则是在每个时刻步上运用不同权重的轻量级卷积。

这些技巧使得轻量级卷积和动态卷积相较于传统的不行分卷积,在功率上优胜几个数量级。

研讨者也证明,在机器翻译、言语建模和笼统总结等使命上,这些新卷积能够运用数量适当或更少的参数,到达或超越依据自留意力的基准作用。

误解7:显着图(saliency maps)是解说神经网络的一个稳健办法

虽然神经网络一般被以为是黑匣子,但现在仍是现已有了有十分多对其进行解说的探究。显着图,或其他相似对特征或练习样本赋予重要性得分的办法,是其间最受欢迎的方式。

咱们很简单得出这样的定论,即对给定的图画进行某种分类的原因是由于图画的特定部分对神经网络进行分类时的决议计划起了重要作用。已有的几种核算显着图的办法,一般都依据神经网络在特定图画上的激活状况,以及网络中所传达的梯度。

在 AAAI 2019 的一篇论文 Interpretation of Neural Networks is Fragile 中,研讨者标明,能够经过引进一个无法感知的扰动,然后歪曲给定图画的显着性图。

「帝王蝶之所以被分类为帝王蝶,并不是由于翅膀的图画款式,而是由于布景上一些不重要的绿色树叶。」

高维图画一般都坐落深度神经网络所树立的决议计划鸿沟邻近,因而很简单遭到对立进犯的影响。对立进犯会将图画移动至决议计划鸿沟的另一边,而对立解说进犯则是将图画在相同决议计划区域内,沿着决议计划鸿沟等高线移动。

为完成此进犯,研讨者所运用的根本办法是 Goodfellow 提出的 FGSM(fast gradient sign method)办法的变体,这是最早的一种为完成有用对立进犯而引进的办法。这也标明,其他更近的、更杂乱的对立进犯也能够用于进犯神经网络的解说性。

含义:

跟着深度学习在医学成像等高危险使用中变得越来越遍及,咱们有必要留意怎么解说神经网络做出的决议。例如,虽然 cnn 能将 mri 图画上的一个点辨以为恶性肿瘤是件功德,但假如这些成果是依据软弱的解说裁人办法,那么这些成果就不应该被信赖。