帝国做网站怎么加视频,谷歌seo引擎优化,职业生涯规划大赛是干什么的,wordpress 修改入口文件一、稳定训练
目标#xff1a;使梯度值在更合理的范围内
常见方法如下#xff1a; 将乘法变为加法 ResNet#xff1a;当层数较多时#xff0c;会加入一些加法进去 LSTM#xff1a;如果时序序列较长时#xff0c;把一些对时序的乘法做加法 归一化 梯度归一化使梯度值在更合理的范围内
常见方法如下
· 将乘法变为加法 · ResNet当层数较多时会加入一些加法进去 · LSTM如果时序序列较长时把一些对时序的乘法做加法
· 归一化 · 梯度归一化把梯度转化为一个均值0、方差1这样的数从而避免梯度的数值过大或过小 · 梯度裁剪如果梯度大于一个阈值就强行拉回来减到一个范围里
· 合理的权重初始化、选取合理的激活函数
二、合理初始化操作
目标让每层的方差都为一个常数
· 让每层的输出和梯度都看作“随机变量”
· 让输出和梯度的均值和方差都保持一致那么就可以在每层的传递之间保持不会出现问题 权重初始化
目标将参数和权重初始化在一个合理的区间值里防止参数变化过大或过小导致出现问题
· 当训练开始时数值更易出现不稳定的问题 · 随机初始的参数可能离最优解很远更新幅度较陡损失函数会很大从而导致梯度较大 · 最优解附近一般较缓更新幅度会较小
· 假设不定义初始化方法框架将使用默认初始化即采用正态分布初始化权重值 · 这种初始化方法对小型神经网络较为有效但当网络较深时这种初始化方法往往表现较差
· Xavier初始化 某些没有非线性的全连接层输出例如隐藏变量 的尺度分布 · 对于某一层 输入 以及其相关权重 输出由下式给出 权重 都是从同一分布中独立抽取的 · 假设该分布具有均值 0 和方差 不一定是标准正态分布只需均值方差存在 · 假设层 的输入也具有均值 0 和方差 且独立于 并彼此独立 可以按下列方式计算 的均值与方差 为了保障 的方差不变化可设置 。 现在考虑反向传播过程我们面临着类似的问题尽管梯度是从更靠近输出的层传播的。 使用与前向传播相同的推断我们可以看到 · 除非 否则梯度的方差可能会增大。其中 是该层输出的数量。 · 然而我们不可能同时满足 和 这两个条件。 但我们只需满足 即可达到要求这便是Xavier初始化的基础。 通常Xavier初始化从均值为 0方差 的高斯分布中采样权重。 Xavier初始化表明 · 对于每一层输出的方差不受输入数量的影响 · 任何梯度的方差不受输出数量的影响。