交叉熵
注:上图中公式下面有空白的说明补充,另外,交叉熵作为损失函数的主要特点是收敛快;
优化器介绍------梯度下降
注:Adagrad在训练分类数据时,每训练一次同类的数据,则会减小该类的学习率,如上图的例子中,在训练过程中,狗和猫的分类的学习率就会比较小,而大象的学习率则会相对较高;
优化器对比图:
googlenet
https://blog.csdn.net/u010402786/article/details/52433324
http://www.robots.ox.ac.uk/~vgg/data/
验证码识别
注:多任务交替训练时,前面的共享层在每个任务训练时都会参与训练,但后面分层的任务,如上图中的Task 1和Task 2,Task 1训练数据输入进来后,只有Task 1参与训练,其它的层,如Task 2则不参与训练;
注:验证码识别时,采用的是第联合训练的方法,先将验证码的4个数字拆分成4个标签,对应四个训练任务国,四个训练任务则会产生四个loss值,整个训练任务的目标是优化这个四个loss值加起来的总loss;