深度学习基础知识
- 1x1卷积的作用
- 起到升维或降维的作用,减少模型的参数
- 增加模型的非线性
- 可以用于不同通道上特征的融合
- 对不同的特征进行归一化操作
卷积、激活、池化作用
卷积的作用
捕获图像相邻像素的依赖性;起到类似滤波器的作用,得到不同形态的feature map
激活函数
引入非线性因素
池化
减少特征维度大小,使特征更加可控;减少参数个数,从而控制过拟合程度;增加网络对略微变换后的图像的鲁棒性;达到一种尺度不变性,即无论物体在图像中哪个方位均可以被检测到。还起到一定的非线性效果。
- 模型欠拟合什么情况下会出现?有什么解决方案?
- 模型复杂度过低,不能很好的拟合所有的数据
- 增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等
处理过拟合问题
L1/L2正则化
L1正则化在损失函数中加入所有权重参数w的绝对值之和,迫使更多的w为0,使特征变得稀疏;L2正则化也叫作权重衰减,目标函数中增加所有权重w参数的平方之和。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)
dropout
在训练过程中,让神经元以超参数p的概率被激活(也就是说1-p的概率被设置为0),类似于bagging算法
数据增强
shortcut-connect(使用残差网络Residual network,densenet)
提前结束训练
梯度消失与梯度爆炸
梯度消失
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。
解决办法:
- 使用ReLU代替Sigmoid激活函数
- 使用Xavier初始化
梯度爆炸
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大, 产生数值上溢。
Relu激活函数的优缺点
- 优点
- 解决梯度消失和梯度爆炸的问题(因为其倒数只为0或1)
- 计算方便,计算速度快,求导方便
- 加速网络训练
- 缺点
- 负数部分激活后值为0,导致一部分神经元无法激活
- 输出不是以0为中心
- 优点
Sigmiod
$$
\begin{align} sigmoid^{‘}(x)&=(\frac{1}{1+e^{-x}})^{‘} \ &=\frac{1}{1+e^{-x}}e^{-x}(-1)\ &=\frac{e^{-x}}{(1+e^{-x})^2}\ &=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})\ &=sigmoid(x)(1-sigmoid(x))\ &=\frac{1}{4}-(sigmoid(x)-\frac{1}{2})^2 \end{align}
$$
最大值为1/4
反向传播
本质是链式求导和梯度下降