强化学习
注:Alphago主要是由卷积神经网络和强化学习构成的,第一阶段中,Alphage从围棋网站中下载了大量高段位棋手的棋谱,将这些棋谱的图片放入卷积神经网络中进行训练,训练好的模型SL可以用来预测在某些棋形下,人类棋手下在某点的概率;然后,将SL网络复制一份RL,并两将这两个网络相互下棋,如果RL在对弈中,赢了一盘,则增加在该盘中走过的所有路径的概率,反之,如果输了,则减小该盘中所有路径的概率,经过一定次数的迭代后,抛弃掉原来的SL网络,并将RL网络再复制一份出来进行对抗,持续让两个网络中的某一个持续进化,另外,Alphage还有一个价值网络,用来评估当前局面下,输赢的概率,因为人类棋手的棋局相对较少,价值网络用来评估输赢的数据是Alphage自身的对抗训练的棋局数据;
迁移学习
注:目前,很多领域内要找到大量高质量的训练数据是件十分困难的事,一个解决方案就是迁移学习,将某些有大量高质量数据训练出模型迁移到那些只有少量数据的领域,在少量数据的领域以达到一个较好的效果;
生成式对抗网络GAN
注:上图中,加入微小的对抗性干扰后的错误输出,是由神经网络的线性特征造成的;
注:生成式对抗网络中,生成器和判别器的能力都会随着训练的进行而越来越强;
注:上图中,卧室的小图片都是由DCGANs网络随机生成的,不是真实的图片,但目前生成大的图片时,效果还不是太好;