使用公式(3)中的梯度下降法进一步计算每个节点权重的调整,其中yi是前一个神经元的输出,η是学习率: 参数η通常被设置为权值收敛到响应和响应周围振荡之间的权衡。 感应局部场vj变化,可以计算其导数: 式中,φ′是上述激活函数的导数,激活函数本身不变。当修改隐藏节点的权重时,分析更为困难,但可以证明,相关的量是等式(4)中所示的量。该算法表示激活函数的反向传播,如等式(4)所示,取决于表示输出层的第k层的权重的调整,而该调整又取决于隐藏层权重的激活函数的导数。 3.2 长短期记忆网络 长短期记忆网络是递归神经网络(RNN)的一种特殊形式,能够捕捉数据序列中的长期依赖关系。RNN是一种具有特定拓扑结构的人工神经网络,专门用于识别不同类型数据序列中的模式:例如,自然语言、DNA序列、手写、单词序列或来自传感器和金融市场的数字时间序列数据流[12]。经典的递归神经网络有一个显著的缺点,那就是它们不能处理长序列和捕捉长期的依赖关系。RNN只能用于具有短期内存依赖性的短序列。LSTM是用来解决长期记忆问题的,它是直接从RNN派生出来的,用来捕获长期的依赖关系。LSTM神经网络以单元为单位组织,通过应用一系列运算来执行输入序列变换。内部状态变量在从一个单元转发到下一个单元时由LSTM单元保留,并由所谓的操作门(忘记门、输入门、输出门)更新,如图16所示。所有三个门都有不同且独立的权值和偏差,因此网络可以了解要维持多少以前的输出和电流输入,以及有多少内部状态要传递给输出。这样的门控制有多少内部状态被传输到输出,并且与其他门的操作类似。LSTM单元包括: 1 单元状态:这个状态带来整个序列的信息,并代表网络的内存。2 遗忘门:它过滤从以前的时间步中保留的相关信息。3 输入门:它决定从当前时间步添加哪些相关信息。4 输出门:它控制当前时间步的输出量。第一步是忘记门。这个门将过去的或滞后的值作为输入,并决定应该忘记多少过去的信息以及应该保存多少。先前隐藏状态的输入和当前输入通过sigmoid函数传输到输出门。当可以忘记该信息时,输出接近0,而当要保存该信息时,输出接近1,如下所示: 矩阵Wf和Uf分别包含输入连接和循环连接的权重。下标f可以表示忘记门。xt表示LSTM的输入向量,ht+1表示LSTM单元的隐藏状态向量或输出向量。 (责任编辑:admin) |