自(zì)2012年以来,随着欣顿(Hinton)、乐昆 (LeCun)和吴恩达(Andrew Ng)对深(shēn)度(dù)学习的(de)研究,使其在机器(qì)学习(xí)方面的应(yīng)用取得了显著成就,深度学习成为计算机科学(xué)的(de)一个新兴领域。谷歌、脸谱、百度、腾(téng)讯等互联网(wǎng)公司纷纷投入巨资研究深度学习,并兴起了基于(yú)深度学(xué)习的创(chuàng)业大潮。然而,对深度学习原理的(de)困惑。对其应用的质疑也(yě)一直存在。在ImageNet目标检测中,人(rén)脸(liǎn)识别率已(yǐ)达(dá)99.5%,甚至超越人眼(yǎn)的识别准确(què)率,在此(cǐ)情(qíng)况下,深(shēn)度(dù)学习(xí)何(hé)以为继?又该如(rú)何提升?深度(dù)学习是处于热潮的(de)初始?还是强弩之末?是一直所(suǒ)向披(pī)靡(mí)?还(hái)是很(hěn)快走向终点?作为沉寂了20余年的(de)神经网络领域,深度(dù)学习到底还能走多远?
神经网络(luò)与人脑的区别:
目前,深度学习(xí)在几个主要领域都获得了突(tū)破:在语(yǔ)音识别(bié)领域(yù),深度学习用深层模(mó)型替换(huàn)声学模(mó)型中的混合(hé)高斯(sī)模型(xíng),错误率降低了30%;在图像识别领域,通过(guò)构造深度卷积神经网络,将Top5错误率由(yóu)26%降低至15%,又(yòu)通过加大加深网络结构,进一步降(jiàng)低到11%;在自然语言处理(lǐ)领域,深度学习与其他(tā)方法(fǎ)水平相(xiàng)当(dāng),但免去了繁琐的特征(zhēng)提取步骤。深度学习是最接近人类大脑的智能学习方法。
然而(ér),与(yǔ)人脑相(xiàng)比,深(shēn)度(dù)学(xué)习目前在处理问(wèn)题(tí)的能力上(shàng)还有不小(xiǎo)的差距。当前(qián)的深(shēn)层网络在结构、功能、机制上都(dōu)与人脑(nǎo)有(yǒu)较大(dà)差距(jù)。从结构上看,人脑有1000亿左右(yòu)的神经元,这(zhè)些(xiē)神经元形成了(le)1000到1万层的连接。而(ér)目(mù)前的深层网络通(tōng)常只有几百(bǎi)万个神(shén)经元,层(céng)数不超过10,因此深(shēn)层网络的规模远小(xiǎo)于人脑。另外,人脑(nǎo)是高度结构化的(de),每一(yī)个部分(fèn)执行(háng)一个特定的(de)功(gōng)能,而且(qiě)不同部分之间会协作(zuò),但深层网络(luò)在高度结构化方面目(mù)前(qián)还(hái)没有(yǒu)太多考虑。从功能上看,人脑善于处理各种问题(tí),能(néng)够完(wán)成复(fù)杂任务。而当前深(shēn)层网络(luò)的功能单一,基本是用处理识别与分类问题,没(méi)有(yǒu)综合处(chù)理问题的能力。从机制(zhì)上看,人脑的数据存储(chǔ)与(yǔ)处理机制更为复杂。人(rén)脑中的数据以(yǐ)知(zhī)识的形式组(zǔ)织起来(lái),存储与应(yīng)用(yòng)密切相联,而当前计算机的(de)数(shù)据存储方(fāng)式远远没有(yǒu)做(zuò)到这(zhè)一点。人的感知器官并非感知器,而是依靠大量的(de)反馈搜寻有用的信息。另外人(rén)脑具有知识反(fǎn)馈机制,在深层网络中并未(wèi)得到体现(xiàn)。而研究者的研究(jiū)对象从一个函数(shù)变(biàn)成了(le)一个过(guò)程,难度骤然增(zēng)大。
人脑的学习能力是通过先天进化和后天学习得到的(de)。先(xiān)天进化可以理解为物种在长时间学习大量(liàng)知(zhī)识后演变(biàn)得到(dào)的结(jié)果(guǒ),后天学习包括对新接触知识(shí)的(de)总结与演绎(yì)。而深度学习的网络结构是由人来设计的,网(wǎng)络参数是从训练数据集中(zhōng)学习得到的。就(jiù)数据量而言,人脑在先天(tiān)进化与后天(tiān)学习中所接触的数据量(liàng)远大于深层网络。
深度学习(xí)的局限(xiàn)性(xìng):
随着大数据的出现和(hé)大规模计算能力的提升,深度学习(xí)已然成为(wéi)非(fēi)常活(huó)跃的计算机研究(jiū)领域。然而,在不断的(de)研究(jiū)中(zhōng),深度学习的局限性也(yě)日益突显。
缺乏(fá)理论(lùn)支持,对(duì)于深度学(xué)习(xí)架构,存在一(yī)系列的疑问:卷积神经网络为什么是一个好的(de)架(jià)构?深度(dù)学习的结构需要多少隐(yǐn)层?在(zài)一个(gè)大的卷积(jī)网络中到底需要多少有(yǒu)效的参数?虽然(rán)深度(dù)学习在很(hěn)多实际应(yīng)用中取得(dé)了突(tū)出的成效,但这些问(wèn)题一直困扰着深(shēn)度学习的研究人员。深度学习方法(fǎ)常(cháng)常被视为黑(hēi)盒,大(dà)多(duō)数的(de)结(jié)论都由经验而非理论来确认。不论是为了构建更(gèng)好的深(shēn)度学(xué)习系统,还是为了(le)提供(gòng)更好的解释,深度学(xué)习都(dōu)需要更(gèng)完善的理论(lùn)支撑。
缺乏短时记忆能(néng)力,人(rén)类大脑有惊人的记忆功能,不(bú)仅能够识别个体案例,也能分析输入信(xìn)息(xī)之间的(de)整体逻辑序列。这些信息序列(liè)包含有大量(liàng)的内容,信息彼此间有(yǒu)着(zhe)复杂的时(shí)间关联性。例如在自然语(yǔ)言(yán)理解的许多任务(如问答系统)中需要一种方法来临时存储分隔(gé)的(de)片段,正确解释视频中的事件,并能够回答有关问题,需要记住视频中发(fā)生事件的抽象表示。而包括递归神经(jīng)网络在内的深度学习系统(tǒng),却不能(néng)很好地(dì)存储多个时间序列上(shàng)的记忆。近年来,研究人员提出了在神经网络中增加(jiā)独立的记(jì)忆模(mó)块,如长短时记忆(Long Short-Term Memory,LSTM)、记(jì)忆网络(memory networks)、神经图灵(líng)机(neural Turing machines)和Stack增强递归神经网络(stack-augmented recurrent neural network),虽然有一定的(de)成果,但仍(réng)需扩展更(gèng)多新思路(lù)。
缺乏执(zhí)行无监督学习的能力,无监督学习在人(rén)类和动物(wù)的学习中占据主(zhǔ)导(dǎo)地位,我们(men)通过观察能够发现世(shì)界的(de)内在结构,而(ér)不是被(bèi)告知(zhī)每一(yī)个客观事物的名称。虽(suī)然无监督学习(xí)可(kě)以帮助特定的(de)深(shēn)度(dù)网络进行“预训(xùn)练”,但最终能够应用(yòng)于实践的(de)绝大部分深度学习方法都是纯粹的有监督学(xué)习。因为无标记数据远远(yuǎn)多于标记数据,因此(cǐ)无监督学(xué)习具有巨大(dà)的研究(jiū)潜(qián)力。找到合(hé)适的无监督学(xué)习算法,对深度学习的发(fā)展至(zhì)关重要。

深度学习(xí)未来的(de)发展方向:
深度学习在人脸识别、目标检测等领(lǐng)域都取得了很大进展,识别准(zhǔn)确率(lǜ)甚至超过人类,但这并不代表(biǎo)深(shēn)度学(xué)习的发展已走(zǒu)到尽(jìn)头。以(yǐ)下几个方(fāng)面(miàn)的研究对深度学(xué)习(xí)的继续发展(zhǎn)具有(yǒu)重大意义。
1. 开发(fā)深度学习的演绎能力:人类在(zài)学习的(de)过程中,除了对已有知识的归纳总结,还伴随对知识的(de)演(yǎn)绎推(tuī)理,如对定(dìng)理(lǐ)进(jìn)行推论等。当前的深度学习还停留在对(duì)数据的归纳上(shàng)。如果(guǒ)深(shēn)层网络(luò)对数据的归纳能力达到饱和,提升其演绎推理能力将是深度学习继续(xù)发展的(de)突破(pò)口(kǒu)。
2. 提升综(zōng)合处理问(wèn)题的能力:当前(qián)的深(shēn)度学习(xí)主(zhǔ)要(yào)用(yòng)于处理单一(yī)问题,但(dàn)一套(tào)模型往往不能通(tōng)用于多个问题,如人脸识别、语音识别等。但人脑可以实(shí)现这一功能,比如视觉皮层可(kě)以辅(fǔ)助听(tīng)觉等。因此,提升深层网(wǎng)络(luò)综合(hé)处理问题(tí)的能(néng)力对于人工智能的实现具有(yǒu)重要意义。
3. 减少对硬件的依赖:随着GPU及(jí)高性(xìng)能并(bìng)行计算(suàn)的(de)发展,硬件设备(bèi)的数据处理能力得到巨大提升。但过度依赖硬件(jiàn)会造成深度学习偏离人(rén)的(de)思维,而陷入计算(suàn)机思维。与计算(suàn)机相比,人脑的计算速度(dù)极慢(màn),但功耗极低(dī),且能够(gòu)完成复杂(zá)的(de)任务(wù)。学习(xí)人脑,使用相对弱的硬件(jiàn)来实(shí)现强(qiáng)大的功能,是使深度学习向(xiàng)人工(gōng)智能发(fā)展的关键。
综上所述,深(shēn)度学习通过建立类(lèi)似(sì)于(yú)人脑的分(fèn)层模型(xíng)结构,对输入数(shù)据逐(zhú)层提取从底(dǐ)层到高层(céng)的(de)特征,从而建立从底层信号到(dào)高层语义的映射(shè)关系。但在规模、功能、机(jī)制、设计等方(fāng)面,当前(qián)深度学习所(suǒ)采用(yòng)的(de)深层网络与人脑存在(zài)很大差异。虽(suī)然深(shēn)度学习在很多方面取得了巨大成功,但仍存在一些缺陷。当前的深度(dù)学习框架缺(quē)乏理论支撑,不能很好地存储(chǔ)时间序列上的记忆,缺少对无标记数据的学习能力。这些(xiē)缺陷限制了深度学习的进一步发展。深度学习作为计算机科学(xué)的新兴(xìng)领域,还有很长的路要走。深度学(xué)习掀(xiān)起了机器学习的新浪潮,在语音图像的(de)智能识别(bié)与理(lǐ)解等方面取得了很大进展。但(dàn)深度学(xué)习还面临(lín)着一系列难题,在对知(zhī)识的演绎能力(lì)、对(duì)问题的综合处理能力等方(fāng)面还(hái)有很大的提升空间,在深层网络的设(shè)计规则上也需要进一步探索。