失眠网 > 价值连城 ImageNet图像分类大神 Andrej Karpathy的采访给AI 深度学习从业者的建议

价值连城 ImageNet图像分类大神 Andrej Karpathy的采访给AI 深度学习从业者的建议

时间：2022-10-19 01:10:54

欢迎你 Andrej 非常荣幸今天能邀请到你谢谢你的邀请很多人都知道你在深度学习方面的工作但并不是每个人都了解你的个人经历那么你能先讲讲你是如何走上深度学习的研究道路吗 —

当然可以我记得我第一次接触深度学习是在多伦多大学读本科的时候当时Geoff Hinton在那儿开设了一门深度学习课程当时使用MNIST数字集训练

受限玻尔兹曼机(Restricted Boltzmann Machine) 我很喜欢Geoff所说的训练网络的方式他当时用的术语是网络的心智我当时觉得在使用这些数据进行训练时会发生某些神奇的事情这就是我第一次接触深度学习时的情况尽管当时我没有了解很多细节后来当我在英属哥伦比亚大学

攻读硕士学位时

我再次修了一门机器学习课程那时我第一次对这些网络有了更深入的了解有意思的是当时我对人工智能非常感兴趣所以我修了不少人工智能的课程不过我当时看到的很多东西都不够令人满意有大量的深度优先搜索

广度优先搜索 Alpha-Beta剪枝等等这些东西我当时并不满意当我第一次碰到机器学习中的神经网络时我觉得这是个更偏技术的术语并不像大家都谈论的人工智能那样出名我几乎可以这样说

机器学习在当时更像是一个技术术语我对人工智能并不满意当我看到机器学习时感觉就像这就是我想花时间研究的人工智能

这是真正有趣的东西于是我就走上了这个方向我觉得这几乎一个新的计算范式

因为通常情况下由人来编写代码但是在这种情况下由优化程序编写代码你只是创建输入输出规范准备很多很多的样本然后优化程序编写代码有时候它写的代码比你还要好所以我觉得这是一种非常新的编程思想

这让我着迷在你的工作成果中最令人称道的一件事是你现在成为了ImageNet图像分类大赛的人类基准这是怎么一回事呢

大体来说人们常把ImageNet比赛看做计算机视觉领域的世界杯所以无论人们是否关注这个基准和数字我们的错误率都会随时间越来越低在我看来人类在这个评分标准上

能达到什么程度并不明显我曾使用CIFAR-10数据集进行了

类似的较小规模的实验当时使用CIFAR-10数据集时

我只是看着这些32乘32的图像然后自己尝试进行归类那时候只有十个分类所以很容易为它创建一个界面我觉得当时我的错误率大约是6% 基于我了解的情况以及任务本身的难度我预测了我们可以达到的最低错误率是好吧我记不起来确切的数字了我猜是10%

现在我们达到了3%或2% 甚至更了不起的水平这就是我第一次开展人类基准实验的情况而且我觉得这是非常重要你在课上也指出了这一点我的意思是这个数字对于了解

人类的所能达到的水平非常重要然后我们就可以拿机器学习算法和它进行比较对于ImageNet来说在这个基准的重要性与应该花多大精力来降低错误率之间

似乎存在一些分歧我们甚至都不知道人类在这个基准上的表现如何所以我编写了这个JavaScript界面

然后我自己看图片 ImageNet的问题在于不只有10个分类比如有1000个分类这几乎成了用户界面上的挑战很明显我记不住这1000个分类都是什么

那么我怎么做才能保证公平呢于是我把所有的分类都列了出来

让自己看了一些样本对于每张图片我向下滚动浏览过1000个分类尝试根据我看到的每个分类里的样本来判断这张图片的分类可能是什么我觉得这个练习非常有启发我的意思是我之前并不知道

ImageNet有三分之一是狗和狗的品种当我看到网络花了大量的时间来处理狗我觉得很有意思它三分之一的性能来源于狗这些工作可能花了我一到两周的时间我放下了其他的事物我觉得这是个非常有意思的练习最终我得到了一个数字然后我觉得一个人不够我需要更多的人所以我想办法在实验室内部

组织其他人也参与进来我觉得人们并不那么愿意奉献一两周来做这么辛苦的工作坐上五个小时想办法确定一条狗的品种是什么所以在这方面我没法得到足够的数据但至少对人类的表现得到了一些近似的估计

我觉得这很有趣然后大家知道了这件事但我当时并没有察觉我只是想知道这个数字然后就成了这样大家都很高兴有人做了这件事还开玩笑地把我称为参考人类当然我也觉得很有趣

当软件也就是深度网络最后超过你的表现时你吃惊吗

当然当然非常吃惊我的意思是有时候真的很难

看出一张图片到底是什么有的图片就像一团黑点我也看不出来是什么我只能猜测它大概属于20个分类中的某一个

但网络直接就找出来了我不明白这是怎么回事有点超出人类的范畴此外我觉得网络非常擅长

识别诸如地砖图案和纹理的统计规律

我觉得在那方面网络可以更好地提取大量图片中的精细的统计信息

这点我并不吃惊在很多情况下我觉得惊讶的是

有些图片需要你读取文字图片中只是一个瓶子光看你不知道它是什么但它上面有文字告诉你它是什么作为人类我能读懂这没什么问题

但对网络来说它必须学习阅读才能识别这个物体

因为从外形看并不明显

让你出名的一件事也是让深度学习社区感谢你的一件事是你开展教学并把它放到了网上能讲讲这件事的经过吗 —

当然可以我有一种强烈的感觉总的来说这种技术是一种变革很多人想用它它就像一个锤子我想做的事情是能够把这个锤子随机地交给很多人我只是觉得这非常急迫从博士研究生的角度来说这不一定可取因为你放下了你的研究我的意思这占用了我120%的时间我必须放下所有的研究我的意思是这门课我教了两次

每次大概都要花四个月时间那段时间基本都花在上课上所以从这个角度来看并不太建议

但是总体来说这是我博士阶段的亮点它甚至与研究无关我认为教课绝对是我博士阶段的亮点只要看到那些学生就能感觉到他们有多兴奋这门课与众不同通常课程讲的是19世纪左右发现的东西但是我们可以在课堂跟大家说

看这是一周之前发表的论文甚至昨天发表的论文有新的结论我觉得本科生和其他的学生真的很喜欢课堂的这一面而且他们真的能理解这些内容这不是核子物理或火箭科学你只需了解微积分代数你就能够理解背后的所有原理我这个领域非常强大日新月异人们觉得自己站在浪潮前沿这感觉很棒我觉得这是人们真正喜欢这门课的原因而且你确实帮了很多人递出去了很多锤子 —

没错作为一个对深度学习有着长期研究的人这个领域还在迅速发展我很想知道你自己是怎样想的这些年来你对深度学习的理解有什么变化

大体来讲当我第一次见到受限玻尔兹曼机处理数字时对我来说这种技术的应用前景并不明朗也不知道它将来有多重要当我开始研究计算机视觉卷积网络的时候这些概念也已经存在了但很多计算机视觉领域的人觉得短时间内用不上我觉得大家当时的观点是在少量的场景下有用但无法扩展到处理更大的图像这种观点完全错误所以总体来说我对这个技术的通用程度感到惊讶也没想到能取得这么好的结果这是最大的惊喜而且不仅如此一方面它的表现非常好比如说ImageNet 另一方面我觉得出乎所有人预料的是至少出乎我的意料的是你可以对训练好的网络进行迁移你可以在任意的其他任务中对网络进行微调因为现在你不仅解决了需要数百万样本的 ImageNet的问题这个网络还成为了非常通用的特征提取器我觉得很少有人能预料到这第二个方面在这方面的论文中人们一直在研究计算机视觉场景分类动作识别对象识别基本属性等等人们只是通过微调网络就解决了每个任务这让我觉得非常惊讶是的我觉得监督学习占据了大部分的版面虽然微调训练好的模型或是迁移学习的效果很好但由于某些原因人们谈论的比较少

是的正是如此

是的我觉得有些方面的研究不多

大家对无监督学习抱有很高的期望这才是吸引很多研究人员在左右投身这一领域的原因我觉得这方面的前景还没有实现让我意外的是监督学习的效果那么好而无监督学习仍然处于不明朗的状态它的运作原理和应用前景尚不明确虽然这个领域仍然有很多忠实信徒

我知道你属于一直思考人工智能

长远发展的那种人你能跟我们分享下这方面的想法吗

我在OpenAI用了大约一年半的时间思考这些问题在我看来这个领域会分成两条道路一条是应用人工智能就是创建和训练神经网络主要使用监督学习也可能用无监督学习然后逐步提升性能比如图像识别器或类似的东西

我觉得另一个方向是人工通用智能也就是怎么让神经网络成为一个完全动态的系统它能思考说话可以做人能做的任何事情

在这些方面具有智能我一直以来都觉得有趣的是比如在计算机视觉中

我认为我们一开始使用的方法是错误的我们想把它分解成不同的部分就像是人类可以认出人人类可以认出场景人类可以认出物体所以我们只是关注人类能做的各种事一旦完成了这些独立的目标

就分成了不同的领域有了这些独立的成果我们再考虑如何把它们拼在一起我觉得这个方法不对我们已经见证了历史给出的结果

所以我觉得在更高级的人工智能领域历史正在重演人类会问问题会做计划会通过实验来了解世界的运行原理

人类需要互相交谈所以发明了语言人们试图把人类的能力分解成各种功能

然后逐一实现再把它们一起放进某种大脑我觉得这种方法不对

所以我更倾向于不按照那样分解而是使用一种完全动态的神经网络这样你总是与完全的代理人程序打交道然后的问题是应该如何构建目标使得当你在优化大脑的权重时能得到智能的行为这是我在OpenAI里一直深入思考的东西我认为人们已经想出了很多不同的方法来处理这个问题

比如在监督学习方向我在网上发过一篇文章不算是论文只是我写的一个小故事这个小故事试图设想出一个假想的世界我们只通过扩大监督学习的规模的方式

来发展人工通用智能我们知道这是可行的然后就会得到像亚马逊土耳其机器人这样的东西人们让数量众多的机器人执行任务然后以此为监督学习的数据集进行训练来模仿人类这样的东西会是什么样的等等

还有其他的方向比如源于算法信息论的无监督学习像AIXI那样或者源于人工生命这更像是人工进化这就是我花了很多时间所思考的东西我觉得我找到了正确的答案但是我不想在这儿说

至少我可以通过读你的博客学到更多的东西 —

是的当然

你已经给了很多建议现在仍有很多人想进入人工智能和深度学习领域你能给这些人一些建议吗 —

没问题我觉得当人们和我谈起CS231n课程

以及他们认为这门课程非常有用的原因时我反复听到的是人们喜欢我们一直深入底层细节他们不是在用什么库而是看到了真正的代码他们看到了一切是如何实现的自己也实现了其中的大部分要一直深入底层理解背后的所有原理

不把事物过于抽象简化也很重要你需要充分了解全栈当我学习这些知识的时候这种做法收获最大我只是从头开始把它实现了这是很重要的从理解知识的角度来看这样做性价比最高我写了自己的库叫做ConvNetJS 它是用JavaScript写的实现了卷积神经网络那就是我学习反向传播的方法所以我一直建议人们不要一开始就使用 TensorFlow这样的东西当你能自己编写最底层的代码后再去使用你知道了底层的所有原理后再使用这些框架框架为你抽象掉了一些细节但你必须知道背后的原理所以这点对我帮助最大这是人们上CS231n课程时最喜欢的一点这也是我给大家的建议所以不是去运行神经网络然后顺其自然对在某些层的序列中我知道当我加一些 Dropout层效果会更好但那并不是你想要的在这种情况下你就无法进行有效的调试也无法有效地改进模型

是的听你这么说

我很高兴在deeplearning.ai的课程中开课的时候首先讲了很多个星期的Python编程

是的很好

非常感谢你分享这些见解和建议在深度学习的世界里

你已经是许多人心目中的英雄我很高兴也很感谢你

今天能在这里与我们分享

谢谢你的邀请