深度学习基础知识

深度学习基础知识

  • 1x1卷积的作用
    • 起到升维或降维的作用,减少模型的参数
    • 增加模型的非线性
    • 可以用于不同通道上特征的融合
    • 对不同的特征进行归一化操作
  • 卷积、激活、池化作用

    • 卷积的作用

      捕获图像相邻像素的依赖性;起到类似滤波器的作用,得到不同形态的feature map

    • 激活函数

      引入非线性因素

    • 池化

      减少特征维度大小,使特征更加可控;减少参数个数,从而控制过拟合程度;增加网络对略微变换后的图像的鲁棒性;达到一种尺度不变性,即无论物体在图像中哪个方位均可以被检测到。还起到一定的非线性效果。

  • 模型欠拟合什么情况下会出现?有什么解决方案?
    • 模型复杂度过低,不能很好的拟合所有的数据
    • 增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等
  • 处理过拟合问题

    • L1/L2正则化

      L1正则化在损失函数中加入所有权重参数w的绝对值之和,迫使更多的w为0,使特征变得稀疏;L2正则化也叫作权重衰减,目标函数中增加所有权重w参数的平方之和。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)

    • dropout

      在训练过程中,让神经元以超参数p的概率被激活(也就是说1-p的概率被设置为0),类似于bagging算法

    • 数据增强

    • shortcut-connect(使用残差网络Residual network,densenet)

    • 提前结束训练

  • 梯度消失与梯度爆炸

    • 梯度消失

      根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。

      解决办法:

      • 使用ReLU代替Sigmoid激活函数
      • 使用Xavier初始化
    • 梯度爆炸

      根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大, 产生数值上溢。

  • Relu激活函数的优缺点

    • 优点
      • 解决梯度消失和梯度爆炸的问题(因为其倒数只为0或1)
      • 计算方便,计算速度快,求导方便
      • 加速网络训练
    • 缺点
      • 负数部分激活后值为0,导致一部分神经元无法激活
      • 输出不是以0为中心
  • Sigmiod
    $$
    \begin{align} sigmoid^{‘}(x)&=(\frac{1}{1+e^{-x}})^{‘} \ &=\frac{1}{1+e^{-x}}e^{-x}(-1)\ &=\frac{e^{-x}}{(1+e^{-x})^2}\ &=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})\ &=sigmoid(x)(1-sigmoid(x))\ &=\frac{1}{4}-(sigmoid(x)-\frac{1}{2})^2 \end{align}
    $$

最大值为1/4

  • 反向传播

    本质是链式求导和梯度下降