上一次修改时间：2018-08-31 02:54:44

优化器介绍、验证码识别

交叉熵
注：上图中公式下面有空白的说明补充，另外，交叉熵作为损失函数的主要特点是收敛快；
优化器介绍------梯度下降
注：Adagrad在训练分类数据时，每训练一次同类的数据，则会减小该类的学习率，如上图的例子中，在训练过程中，狗和猫的分类的学习率就会比较小，而大象的学习率则会相对较高；
优化器对比图：
googlenet
https://blog.csdn.net/u010402786/article/details/52433324
http://www.robots.ox.ac.uk/~vgg/data/
验证码识别
注：多任务交替训练时，前面的共享层在每个任务训练时都会参与训练，但后面分层的任务，如上图中的Task 1和Task 2，Task 1训练数据输入进来后，只有Task 1参与训练，其它的层，如Task 2则不参与训练；
注：验证码识别时，采用的是第联合训练的方法，先将验证码的4个数字拆分成4个标签，对应四个训练任务国，四个训练任务则会产生四个loss值，整个训练任务的目标是优化这个四个loss值加起来的总loss；