冰冰点灯,照亮我家门前~
欢迎进入nnetinfo
用户名:
密码:
深圳学习数据分析,数据挖掘,请联系yahushuxue@163.com~
nnetinfo : 本网发布神经网络相关的学习与研讨内容。
当前位置:教学区
神经网络初始化nguyen_Widrow法(下)
作者:xiaoH   日期:2015-11-13 14:06:37.0

                                              本文由xiaoH翻译,有什么译的不对的地方,请联系本站.   

   衔接上文:《神经网络初始化nguyen_Widrow法(上)》,继续讲解Derrick Nguyen 和Bernard Widrow的初始化方法

 

多输入的网络

    拥有多个输入的神经网络的输出可以写成:

                                                                (11)

    现在 X 和 Wi 是N维的向量.我们再次定义方程 (11)里连加号的第 i 项为 yi(X)

                                           

    yi(X) 稍微较难理解。图5展示了拥有两个输入的网络的一个典型 yi(X)和它的傅立叶变换Yi(U)。注意到, Yi(U)是一

个经过变换空间 U原点的行脉冲,行脉冲的方向依赖于向量Wi,这使我们将 Yi 理解为经过 d(x) 的傅立叶变换 D(U)

的原点的一个片段的拟合的一部分.

 

        

                                                            图5 : 一个 yi(X) 和它的 2-D傅立叶变换

    考虑到 d(x) 的傅立叶变换 D(U)的一个片段,这个片段,我们将称为Di(U),经过变换空间 U的原点。时间域是Wit *X

的一个简单的函数其中Wi由片段的方向决定。图6展示了一个2维的 d(x) ,它的傅立叶变换  D(U),一个片段 Di(U),和片

段的逆变换 di(X)。由于di(X)是单变量 Wit *X的函数,它可以如前节所示被一个神经网络拟合。不同 di(X) 的拟合将被

叠加组成完整 d(X)的拟合。

   

                       图6 : d(x),它的傅立叶变换 D(U),D(U)的一个片段Di(U),和 Di(U)的反变换 di(X)

      总结,Wi的方向决定了 D(U)的第i个片段的方向.Wi的大小决定了在对 D(U)的第 i 个片段的反变换分段线性拟

合时的区域大小。wbi的值决定区域的位置。最终,vi决定线性拟合函数的坡度。

 

选择初始化权重加速训练

       如同单输入的情况,很自然的希望选择权重,将隐节点分散到输入空间 X,实质上提升多输入网络的学习速度,

这章节描述一个这样做的方法。假定输入向量 X的元素的范围从 -1到 1。首先。对 Wi 的元素以 [ -1, 1 ] 的均匀分

布赋值,这样它的方向是随机的。下一步,我们调整权重向量Wi的大小,这样每个隐节点仅是一个小区域的线性近

似。让我们假定,有H个隐节点,这些H个隐节点将会被用于组合S个片段,每个片段片段会有I个区域。所以

                                                                         H=SI

     由于在训练前,我们并不知道网络会产生多少个片段,我们会设置网络的权重这样 S = I N-1。输入向量 X 的每

个元素的范围从 -1 到 1,这代表每个区域的大小近似于 2/I 。接下来 Wi的大小如下调整:

                                                                     |Wi|=I =H1/N

     在我们的实验中,我们设置 Wi的大小为 0.7H1/N,给区间之间提供一些重叠。下一步,我们通过以下设置,定位

区域的中心在随机位置:

                                                          wbi = 在 -|Wi| 与 |Wi| 之间的均匀分布

      以上权值初始化项目被用于训练一个带有两个输入的神经网络,用于拟合图7所示的曲面。曲面函数如下:

                                          

      使用的网络带有21个隐节点。用以上方式初始化权值和在 [ -0.5, 0.5 ]之间均匀分布随机初始化权值,这两种方

案的均方差 vs 训练时间图也在图7展示。用以上方式初始化权值的网络在一个要短得多的时间里达到了一个较低的

均方误差。

 

                                     图7 : 一个2-D目标函数和使一个神经网络拟合它的学习曲线,

                          实线 : 使用如文中所说的初始化方法。虚线 : 权值随机初始化在 -0.5 和 0.5之间

 

总结

        这个文章描述一个 2层神经网络怎么通过组合一组分段线性片段,拟合任意非线性函数。给出了一个选取初始

权重的方法,减少网络的训练时间.作者已使用该方法对大量不同的训练问题初始化自适应权重,并在每个案例中,

都获得巨大的速度提升。当有大量的隐层节点,且期望输出比较复杂时,提升效果是最明显的。我们已经用该方法

训练我们的“Truck-Backer-Upper”,它可以将训练时间从2天减少到4小时。

       2层神经网络的表现,如果文中所描述,建议了一个分析网络的不同方法。每一个隐节点响应拟合 d(X) 的一个

小部分。我们可以认为这是对d(X)进行抽样,这样,要有较好的拟合效果,隐节点个数就与d(X)的带宽相关。这样

就给了我们拟合给定的 d(X)所需的隐节点个数的大概的测定。由于所需隐节点个数与d(X)的复杂度相关,而带宽是

复杂度的较好评估,我们预测的隐节点个数通常是较好的。这个工作正在进行,而完整的结果会在不久会发布。

 

参考文献:

[1]B.Irie and S.Miyake.Capabilities of three-layered perceptrons. In proceedings of the IEEE International

     Conference on Neural Networks,pages I-641,1988.

[2]D.E.Rumelhart,G.E.Hinton, and R.J.Williams.Learning internal representations by error propagation.In

     David E.Rumelhart and james L.McClelland,editors,parallel Distributed Processing,volume 1,chapter 8.

     The MIT Press,Cambridge,Mass.,1986

[3]D.Nguyen and B.Widrow.The truck backer-upper:An example of self-learning in neural networks.In Pr-

    -oceedings of the international Joint Conference on Neural Networks,pages II-357-363.IEEE,June 1989.

 

 

译后语:

        这张文章的确是研究初始化的好文章,它的贡献最大的可能不在于公式本身,而在于研究初始化参数的思路。

事实上,matlab神经网络工具箱所采用的初始化方法就是基于此法的改进版。喜欢读原文的,请到     

                                                Nguyen_Widrow初始化权值(原文)

        翻译中免不了有误,或者有更好的建议,欢迎通过xiaoh2015@sina.com联系我。