老饼讲解-神经网络
自实现-BP神经网络
基本原理
附件:nguyen_Widrow法初始化BP网络译文(下)
作者 : 老饼 日期 : 2022-06-09 04:52:41 更新 : 2022-06-29 01:24:43
本站原创文章,转载请说明来自《老饼讲解-BP神经网络》bp.bbbdata.com



本文衔接上文:《神经网络初始化nguyen_Widrow法(上)》,

继续讲解Derrick Nguyen 和Bernard Widrow的初始化方法。


本文由本站翻译,有什么译的不对的地方,请联系本站.   



  多输入的网络  


拥有多个输入的神经网络的输出可以写成:


 ............(11)
其中  和   是   N 维的向量.



我们再次定义方程 (11) 里连加号的第 i 项为  


 ..............(12)



稍微较难理解。


图5 展示了拥有两个输入的网络的一个典型 和它的傅立叶变换 
注意到, 是一个经过变换空间 U 原点的行脉冲,行脉冲的方向依赖于向量
这使我们将  理解为 经过  的傅立叶变换  的原点的一个片段的拟合的一部分.
 
 
图5 : 一个 yi(X) 和它的 2-D傅立叶变换

现在来看  的傅立叶变换 D(U)的一个片段 ,它经过变换空间 U 的原点。
的时间域是  的一个简单的函数, 其中 由片段的方向决定。

图6展示了一个2维的和它的傅立叶变换 D(U),一个片段  和片段的逆变换    。
由于  是单变量  的函数,它可以如前节所示被一个神经网络拟合,不同的拟合将被叠加组成完整的拟合。

图6 : d(x),它的傅立叶变换 D(U),D(U)的一个片段Di(U),和 Di(U)的反变换 di(X)


总结


的方向决定了 D(U)的第 i 个片段的方向, 
的大小决定了在对 D(U)的第 i 个片段的反变换分段线性拟合时的区域大小,
的值决定区域的位置, 
最终,  决定线性拟合函数的坡度。




  选择初始化权重加速训练  


如同单输入的情况,很自然的希望选择的权重,将隐节点分散到输入空间 X,实质上提升多输入网络的学习速度,

这章节描述一个这样做的方法。




假定输入向量 X的元素的范围从 -1到 1。
首先,对的元素以 [ -1, 1 ] 的均匀分布赋值,这样它的方向是随机的。


下一步,我们调整权重向量的大小,这样每个隐节点仅是一个小区域的线性近似。

让我们假定,有H个隐节点,这些 H 个隐节点将会被用于组合成S个片段,每个片段会有 I 个区域,
所以


由于在训练前,我们并不知道网络会产生多少个片段,我们可以设置网络的权重,
使  
输入向量 X 的每个元素的范围从 -1 到 1,这代表每个区域的大小近似于   。

接下来的大小如下调整:


在我们的实验中,
我们设置的大小为 ,给区间之间提供一些重叠。


下一步,我们通过以下设置,定位区域的中心在随机位置:

  = 在 -|Wi| 与 |Wi| 之间的均匀分布



以上权值初始化项目被用于训练一个带有两个输入的神经网络,用于拟合图7所示的曲面。


曲面函数如下:



使用的网络带有21个隐节点。
用以上方式初始化权值和在 [ -0.5, 0.5 ]之间均匀分布随机初始化权值,
这两种方案的均方差 vs 训练时间图也在图7展示。
用以上方式初始化权值的网络在一个要短得多的时间里达到了一个较低的均方误差。

图7 : 一个2-D目标函数和使一个神经网络拟合它的学习曲线,
实线 : 使用如文中所说的初始化方法。虚线 : 权值随机初始化在 -0.5 和 0.5之间




  总结  


这个文章描述一个 2层神经网络怎么通过组合一组分段线性片段,拟合任意非线性函数。
给出了一个选取初始权重的方法,减少网络的训练时间.

作者已使用该方法对大量不同的训练问题初始化自适应权重,并在每个案例中,都获得巨大的速度提升。


当有大量的隐层节点,且期望输出比较复杂时,提升效果是最明显的。
我们已经用该方法训练我们的“Truck-Backer-Upper”,它可以将训练时间从2天减少到4小时。
2层神经网络的表现,如果文中所描述,建议了一个分析网络的不同方法。
每一个隐节点响应拟合 d(X) 的一个小部分。

我们可以认为这是对d(X)进行抽样,
这样,要有较好的拟合效果,隐节点个数就与d(X)的带宽相关。
这样就给了我们拟合给定的 d(X)所需的隐节点个数的大概的测定。
由于所需隐节点个数与d(X)的复杂度相关,而带宽是复杂度的较好评估,
我们预测的隐节点个数通常是较好的。
这个工作正在进行,而完整的结果会在不久会发布。




  参考文献  


[1]B.Irie and S.Miyake.Capabilities of three-layered perceptrons. In proceedings of the IEEE International Conference on Neural Networks,pages I-641,1988.

[2]D.E.Rumelhart,G.E.Hinton, and R.J.Williams.Learning internal representations by error propagation.In David E.Rumelhart and james L.McClelland,editors,parallel Distributed Processing,volume 1,chapter 8.The MIT Press,Cambridge,Mass.,1986

[3]D.Nguyen and B.Widrow.The truck backer-upper:An example of self-learning in neural networks.In Proceedings of the international Joint Conference on Neural Networks,pages II-357-363.IEEE,June 1989.




  译后语  


这张文章的确是研究初始化的好文章,它的贡献最大的可能不在于公式本身,而在于研究初始化参数的思路。


事实上,matlab神经网络工具箱所采用的初始化方法就是基于此法的改进版。
喜欢读原文的,请直接搜索原文阅读 。

翻译中免不了有误,或者有更好的建议,欢迎通过网站联系我。








 End 







联系小饼