神经网络是一种模拟生物神经系统的计算模型,具有广泛的应用和重要的研究价值。以下将从不同方面详细介绍神经网络。
一、神经网络的发展历程
- 20 世纪 60 年代,Hubel 和 Wiesel 在研究猫脑皮层中发现了用于局部敏感和方向选择的神经元结构,卷积神经网络就是在此生物学的基础上发展而来的8。
- 随着互联网和计算机信息技术的不断发展,图神经网络已成为人工智能和大数据处理领域的重要研究方向。图神经网络可对相邻节点间的信息进行有效传播和聚合,并将深度学习理念应用于非欧几里德空间的数据处理中1。
- 深度神经网络在过去几年中一直是机器学习领域的热门研究课题。图形处理单元(GPU)的引入和硬件的进步使得深度神经网络的训练成为可能。以前由于所需的训练样本数量巨大,训练过程是不可能的。新的训练引入的架构在不同的分类和回归问题中已经超越了经典方法4。
二、神经网络的类型
- 图神经网络:图神经网络可对相邻节点间的信息进行有效传播和聚合,并将深度学习理念应用于非欧几里德空间的数据处理中。简述图计算、图数据库、知识图谱、图神经网络等图结构的相关研究进展,从频域和空间域角度分析与比较基于不同信息聚合方式的图神经网络结构,重点讨论图神经网络与深度学习技术相结合的研究领域,总结归纳图神经网络在动作检测、图系统、文本和图像处理任务中的具体应用1。
- 卷积神经网络:卷积神经网络是一种前馈神经网络,作为一种深度学习算法,它可以对特定范围内的其他单元做出反应,并且能够很好地处理巨大的图像。卷积神经网络是传达视觉信息的非常方便的工具,并且可以很好地提高识别精度。然而,体积神经网络也增加了网络的复杂性,使其更难以优化并且更容易过拟合。近年来,对卷积神经网络的改进主要在六个主要部分:卷积层、池化层、激活函数、损失函数、正则化和优化,这减少了卷积神经网络的冗余,并使其能够更快、更准确地处理10。
- 量子神经网络:量子计算与人工神经网络相结合的量子神经网络有可能成为未来信息处理的重要手段。分析了人工神经网络向量子神经网络演变的动因及形式、量子神经网络的优势及可能的物理实现方法。着重讨论了几种量子神经网络模型的结构、学习方法及特性,并阐述了量子神经网络在模式识别、纠缠计算、函数近似等方面的初步应用7。
三、神经网络与生物大脑的关系
- 神经网络与人类大脑有一定的相似性。人类大脑由 100000 亿条神经组成,这些神经由神经元组成,神经元具有一定的权重并接收信号,这些信号被处理并转换为所需的输出。类似地,神经网络作为一种并行设备产生,可以比常规系统更快地执行计算任务。神经网络的基本任务是根据估计、改进和信息聚类来感知示例和分组能力,因此被称为人工神经网络(ANN)。这个网络充当人类大脑的角色,努力解决复杂的问题。ANN 是并行分布式处理系统或连接系统3。
- 第 1 章介绍了生物大脑的功能组织。首先描述了神经元,它们是大脑的基本单位。这些结构能够收集信号、处理它们并将它们传递给后续单元。同时,它们是动态的,可以根据环境条件而变化。本章的第二部分致力于描述突触:神经元之间连接的动态实际上是学习和记忆过程的基础。两者都与信号强度和迭代的概念有关。因此,提出了关于信息如何存储的详细描述。本章以对使神经环境成为高度互连组织的一些特性的描述性概述结束9。
四、神经网络的训练方法
- 最近的机器学习大部分都集中在深度学习上,其中神经网络权重通过随机梯度下降的变体训练。另一种方法来自神经进化领域,该领域利用了进化算法来优化神经网络,这是受自然大脑本身是进化过程的产物的启发。神经进化可以实现基于梯度的方法通常不可用的重要功能,包括学习神经网络构建块(例如激活功能),超参数,体系结构,甚至是学习自己的算法。神经进化也通过在搜索过程中维持大量解决方案,实现极端探索和大规模平行化,这也与深度学习(和深度增强学习)不同5。
- 自尺寸估计前馈网络(SSFN)是一种前馈多层网络,在训练过程中具有低复杂性,因为其权重中使用了随机矩阵实例。其权重矩阵通过逐层凸优化方法(监督训练)与随机矩阵实例(无监督训练)相结合进行训练。探索使用确定性变换来替换 SSFN 权重矩阵中的随机矩阵实例。使用确定性变换自动降低计算复杂性,因为其结构允许通过快速算法进行计算。研究了几种确定性变换,如离散余弦变换、哈达玛变换和小波变换等。为此,开发了两种基于特征统计参数的方法。所提出的方法在每一层上实现,以决定使用的确定性变换。通过 SSFN 在对象分类任务中使用几个基准数据集说明了所提出方法的有效性。结果显示出与原始 SSFN 相似的适当性能,并且在不同数据集上也具有一致性。因此,证明了在机器学习研究中引入确定性变换的可能性4。
五、神经网络的应用
- 图神经网络在动作检测、图系统、文本和图像处理任务中有具体应用1。
- 卷积神经网络主要用于图像分类、文本处理、视频处理等10。
- 量子神经网络在模式识别、纠缠计算、函数近似等方面有初步应用7。
- 深度神经网络在许多图像分析任务中实现人类水平性能,但 DNN 大多部署到消耗相当数量的电力的 GPU 平台。新硬件平台采用较低精度算术实现功耗的急剧减少。最近,脑激发的尖峰神经芯片已经实现了毫无武力的耗材甚至较低的功耗,同时仍提供实时处理6。
1
图神经网络综述王健宗3
Neural Networks and Their ApplicationsShivani Joshi4
Development of Neural Networks Using Deterministic TransformsGrau Jurado, Pol5
通过神经进化设计神经网络Kenneth O. Stanley6
提高尖端神经网络馈电神经网络的分类精度Antonio Jimeno Yepes展开
神经网络的发展历程中有哪些关键节点和重要技术突破?
神经网络的发展历程漫长而曲折,经历了多个关键节点和重要技术突破。以下是对神经网络发展历程中的关键节点和重要技术突破的详细阐述:
一、早期探索阶段
20 世纪 40 年代至 60 年代,神经网络开始了早期的探索。
- 麦卡洛克 - 皮茨神经元模型:1943 年,神经生理学家沃伦・麦卡洛克(Warren McCulloch)和数学家沃尔特・皮茨(Walter Pitts)提出了麦卡洛克 - 皮茨神经元模型,这是第一个人工神经元模型,为后来神经网络的发展奠定了基础2。该模型将神经元的活动描述为一个二进制的阈值逻辑单元,能够对输入进行加权求和,并根据阈值进行输出决策。这个模型虽然简单,但它首次将神经元的活动进行了数学建模,为理解大脑的信息处理机制提供了一个初步的框架。
- 感知机模型:1957 年,弗兰克・罗森布拉特(Frank Rosenblatt)提出了感知机模型,这是第一个具有学习能力的神经网络模型3。感知机是一种简单的线性分类器,它可以通过调整权重来学习输入数据的模式,从而实现对不同类别的分类。感知机的出现引起了广泛的关注,它为神经网络的学习算法提供了一个重要的范例。然而,由于感知机只能处理线性可分的问题,对于复杂的非线性问题无能为力,这也导致了后来神经网络发展的一段停滞期。
二、低潮期
20 世纪 60 年代末至 80 年代,神经网络的发展进入了低潮期。
- 明斯基和佩珀特的批评:1969 年,马文・明斯基(Marvin Minsky)和西摩・佩珀特(Seymour Papert)出版了《感知机》一书,对感知机的局限性进行了深入的分析和批评4。他们指出,感知机只能处理线性可分的问题,对于复杂的非线性问题无能为力,而且感知机的学习算法也存在一些问题。这本书的出版对神经网络的发展产生了重大的影响,使得神经网络的研究陷入了一段长时间的停滞期。
三、复兴阶段
20 世纪 80 年代至 90 年代,神经网络的发展迎来了复兴。
- 反向传播算法:1986 年,大卫・鲁梅尔哈特(David Rumelhart)、杰弗里・辛顿(Geoffrey Hinton)和罗纳德・威廉姆斯(Ronald Williams)提出了反向传播算法,这是一种用于训练多层神经网络的有效算法5。反向传播算法通过计算网络输出与期望输出之间的误差,并将误差反向传播到网络的各个层,从而调整网络的权重,使得网络的输出逐渐逼近期望输出。反向传播算法的出现使得多层神经网络的训练成为可能,极大地推动了神经网络的发展。
- 卷积神经网络:20 世纪 80 年代末至 90 年代初,卷积神经网络开始出现6。卷积神经网络是一种专门用于处理图像等二维数据的神经网络,它通过卷积层和池化层的组合,能够有效地提取图像的特征,从而实现对图像的分类和识别。卷积神经网络的出现使得计算机视觉领域取得了重大的突破,成为了神经网络发展的一个重要里程碑。
四、蓬勃发展阶段
21 世纪以来,神经网络的发展进入了蓬勃发展阶段。
- 深度学习的兴起:2006 年,杰弗里・辛顿等人提出了深度信念网络(Deep Belief Network,DBN),并通过无监督学习的方法对其进行预训练,然后再用有监督学习的方法对其进行微调,从而有效地解决了深度神经网络的训练问题7。这一突破引发了深度学习的热潮,使得深度神经网络在图像识别、语音识别、自然语言处理等领域取得了巨大的成功。
- 循环神经网络和长短时记忆网络:20 世纪 80 年代末至 90 年代初,循环神经网络(Recurrent Neural Network,RNN)开始出现8。循环神经网络是一种专门用于处理序列数据的神经网络,它通过循环结构能够有效地捕捉序列数据中的时间依赖关系。然而,传统的循环神经网络存在长期依赖问题,即难以有效地处理长序列数据中的长期依赖关系。为了解决这个问题,1997 年,塞普・霍奇里特(Sepp Hochreiter)和尤尔根・施密德胡伯(Jürgen Schmidhuber)提出了长短时记忆网络(Long Short-Term Memory,LSTM)9。长短时记忆网络通过引入门控机制,能够有效地控制信息的流动,从而解决了传统循环神经网络的长期依赖问题。长短时记忆网络的出现使得循环神经网络在自然语言处理等领域取得了重大的突破。
- 图神经网络:近几年来,将深度学习应用到处理和图结构数据相关的任务中越来越受到人们的关注。图神经网络的出现使其在上述任务中取得了重大突破,比如在社交网络、自然语言处理、计算机视觉甚至生命科学等领域得到了非常广泛的应用10。图神经网络可以把实际问题看作图中节点之间的连接和消息传播问题,对节点之间的依赖关系进行建模,从而能够很好地处理图结构数据。
- 量子深度学习神经网络:2019 年,有研究对量子深度学习神经网络的现状进行了调查。发现几个公司增加了量子计算机的库存,新算法解决了量子网络的训练问题,新量子感知机解决了神经网络的非线性函数问题。这些成果可能会带来真正的量子深度学习神经网络11。
综上所述,神经网络的发展历程中经历了多个关键节点和重要技术突破,这些突破不断推动着神经网络的发展,使其在各个领域得到了广泛的应用。随着技术的不断进步,相信神经网络在未来还会取得更多的突破和创新。
2
Introduction to Neural NetworksGrégoire Montavon
3
Neural Networks and Their ApplicationsShivani Joshi
4
Development of Neural Networks Using Deterministic TransformsGrau Jurado, Pol
5
通过神经进化设计神经网络Kenneth O. Stanley
6
提高尖端神经网络馈电神经网络的分类精度Antonio Jimeno Yepes
展开
不同类型的神经网络在应用中有哪些优势和局限性?
神经网络在近年来得到了广泛的应用,不同类型的神经网络具有各自独特的优势和局限性。以下将详细介绍几种常见类型神经网络的特点。
一、深度神经网络(DNN)
深度神经网络在角度到达估计问题中具有显著优势。Oded Bialer、Noa Garnett 和 Tom Tirer 在 2019 年发表的 “Performance Advantages of Deep Neural Networks for Angle of Arrival Estimation” 中指出,当信号源数量较大时,最大似然估计器由于复杂度极高而难以处理,而深度神经网络方法可以在具有可行复杂度的情况下达到最大似然性能,并且在各种信噪比和阵列响应不准确的情况下优于其他可行的信号处理估计方法20。
然而,深度神经网络也存在一些局限性。例如,训练深度神经网络需要大量的数据和计算资源,并且容易出现过拟合问题。此外,深度神经网络的解释性较差,难以理解其决策过程。
二、宽神经网络
从 “The Limitations of Large Width in Neural Networks: A Deep Gaussian Process Perspective” 这一研究来看,作者 Geoff Pleiss 和 J. Cunningham 在 2021 年指出,大宽度的神经网络在一定条件下可能存在局限性。常规网络随着宽度增加会获得更强的表示能力,但这可能掩盖了一些负面效应。理论和实证结果表明,大宽度可能对层次模型不利,非参数深度高斯过程会收敛到高斯过程,变得更浅且表示能力没有增加。在特定宽度(如宽度为 1 或 2)时可能达到最佳测试性能,超过这个宽度后性能可能会下降21。
三、神经网络集成
王正群、陈世福和陈兆乾在 2005 年发表的 “优化分类型神经网络线性集成” 中,提出了一种构造多神经网络集成系统的方法。该系统的输出由个体神经网络的输出线性加权产生,并提出了一种判别函数来度量个体神经网络在不同权重下的集成性能,函数表示了由个体神经网络输出刻画的模式类内会聚性和类间散布性。通过遗传算法求解最优个体网络集成权重问题,分析了该判别函数的合理性及其与 Bayes 决策规则的关系22。
神经网络集成的优势在于可以结合多个神经网络的优势,提高系统的性能和泛化能力。然而,神经网络集成也存在一些局限性,如计算复杂度较高,需要更多的训练时间和资源。
四、BP 神经网络
汪拥军、赵时和马曾在 2009 年发表的 “BP 神经网络在网络通信中的应用” 中,根据神经网络的原理和 BP 神经网络的特点,说明了将 BP 神经网络技术应用在网络通信中的优势,并从三个方面介绍了 BP 神经网络在网络通信中的应用,最后分析了目前神经网络技术在网络通信中应用研究的现状和发展趋势23。
BP 神经网络的优势在于具有较强的自学习和自适应能力,可以处理非线性问题。但是,BP 神经网络也存在一些局限性,如容易陷入局部极小值、训练速度较慢、对初始权值敏感等。
五、两层神经网络
Behrooz Ghorbani、Theodor Misiakiewicz 和 Song Mei 在 2020 年发表的 “两层神经网络懒惰训练的局限性” 中,研究了特征向量为 D 维高斯且响应为未知二次函数的模型以及特征向量为两个 D 维居中高斯混合且 Y_I 为相应类标签的模型。使用双层神经网络具有二次激活,并比较了随机特征(RF)制度、神经切线(NT)制度和全训练的神经网络(NN)制度三种不同的学习制度。结果表明,当神经元的数量小于环境维度时,这三种训练制度中实现的预测风险之间存在潜在的无染色差距。当神经元数大于尺寸的数量时,NT 和 NN 学习都实现零风险24。
六、尖峰神经网络(SNN)
“Efficient Spiking Neural Networks With Radix Encoding” 中,作者 Zhehui Wang、Xiaozhe Gu 和 Rick Siow Mong Goh 在 2022 年提出了一种基数编码的尖峰神经网络,具有超短的尖峰序列。能够在不到六个时间步长内实现比传统对应物更高的准确性,同时还开发了一种将基数编码技术融入人工神经网络到尖峰神经网络转换方法的方法,以便在成熟平台和硬件上更有效地训练基数编码的尖峰神经网络。尖峰神经网络由于其事件驱动的计算机制和用加法代替耗能的权重乘法,在延迟和能量效率方面比传统人工神经网络具有优势25。
但尖峰神经网络也面临一些挑战,如需要特定的硬件支持、训练算法相对复杂等。
七、量子神经网络(QNN)
李飞、赵生妹和郑宝玉在 2004 年发表的 “量子神经网络及其应用” 中,分析了人工神经网络向 QNN 演变的动因及形式、QNN 的优势及可能的物理实现方法。着重讨论了几种 QNN 模型的结构、学习方法及特性,并阐述了 QNN 在模式识别、纠缠计算、函数近似等方面的初步应用。量子神经网络有可能成为未来信息处理的重要手段,其优势在于利用量子计算的特性可以提高计算速度和处理复杂问题的能力7。
然而,量子神经网络目前还处于发展的早期阶段,面临着许多技术挑战,如量子比特的稳定性、量子纠错等问题。
八、卷积神经网络(CNN)
Bernardo Janko Gongalves Biesseck、Edson Roteia Araujo Junior 和 Erickson R. Nascimento 在 2019 年发表的 “探索卷积神经网络对局部特征二元测试选择的局限性” 中,研究了卷积神经网络在局部特征二元测试选择的问题。结果显示了存在局部最小值以及不正确的渐变组件的问题,但卷积神经网络通过学习本地表示,在局部特征提取中贡献显著,例如升力方法产生的关键点描述符比手工算法更具辨别力27。
卷积神经网络的优势在于在图像识别、目标检测等任务中表现出色,能够自动学习特征。但也存在一些局限性,如需要大量的训练数据、对参数调整敏感等。
九、硬件尖峰神经网络
在 “Advantages of binary stochastic synapses for hardware spiking neural networks with realistic memristors” 中,作者 K. Sulinskas 和 M. Borg 在 2022 年研究了硬件实现尖峰神经网络的问题。发现当使用基于尖峰时间依赖可塑性的无监督训练时,二进制随机突触与现实模拟忆阻器相比具有优势。二进制随机尖峰神经网络在考虑具有实际位分辨率的忆阻器以及在具有相当大的周期噪声的情况下,性能与模拟确定性尖峰神经网络相似甚至更好,并且需要更少的权重更新来训练,从而更好地利用现实忆阻设备中的有限耐久性28。
总的来说,不同类型的神经网络在应用中各有优势和局限性。在实际应用中,需要根据具体问题选择合适的神经网络类型,并结合数据特点和计算资源等因素进行综合考虑。
7
量子神经网络及其应用李飞
20
Performance Advantages of Deep Neural Networks for Angle of Arrival EstimationOded Bialer
21
The Limitations of Large Width in Neural Networks: A Deep Gaussian Process PerspectiveGeoff Pleiss
22
优化分类型神经网络线性集成王正群
23
BP神经网络在网络通信中的应用汪拥军
展开
神经网络的训练方法如何进一步优化以提高性能和效率?
神经网络的训练方法一直是机器学习领域的研究重点,优化训练方法可以显著提高神经网络的性能和效率。以下将从几个方面探讨神经网络训练方法的优化策略。
一、参数通讯优化
在卷积神经网络的并行训练中,可以将梯度计算和参数通讯同时执行,利用计算时间来覆盖通讯时间34。通过改变通讯方式,利用归约和冗余通讯方式减少参数通讯时的同步等待时间。这样可以提高并行训练的效率,从而间接提高整个神经网络的训练效率。
二、数据加载优化
利用预加载和异步拷贝的方式将数据提前加载并拷贝到 GPU 显存空间,减少数据加载带来的时间消耗34。这一策略可以确保在训练过程中数据能够快速地被神经网络使用,避免因为数据加载等待而降低训练效率。
三、代价函数优化
一般而言,误差代价函数是一个跟神经网络在特定训练数据集合上误差情况的可微分函数。通过利用数学方法寻求这个函数的最小值,可以进一步使权值最优化35。可以尝试不同的代价函数,或者对现有的代价函数进行改进,以更好地衡量神经网络的输出正确性,从而引导神经网络朝着更优的方向更新参数。
四、基于元启发式算法的监督学习
对于尖峰神经网络(SNNs),由于直接使用基于反向传播的监督学习方法具有挑战性,因此可以采用基于元启发式算法的监督学习方法。例如,通过适应时间误差函数,使用七种知名的元启发式算法,如和声搜索(HS)、布谷鸟搜索(CS)、差分进化(DE)、粒子群优化(PSO)、遗传算法(GA)、人工蜂群(ABC)和语法进化(GE)作为搜索方法进行网络训练38。相对目标触发时间被用来代替固定和预定的时间,使得误差函数的计算更加简单。实验结果表明,这种方法在解决四个分类基准数据集方面具有竞争优势。
五、知识蒸馏
对于尖峰神经网络,可以通过知识蒸馏的方法进行训练。具体来说,可以使用 Kullback-Leibler 散度(KL 散度)进行知识蒸馏,训练低延迟的尖峰神经网络。这种方法可以在不损失准确性的情况下实现最快的推理,相比其他最先进的 SNN 模型具有优势31。
综上所述,通过参数通讯优化、数据加载优化、代价函数优化、基于元启发式算法的监督学习以及知识蒸馏等方法,可以进一步优化神经网络的训练方法,提高其性能和效率。