上一次修改时间:2018-11-30 02:48:58

神经序列模型1号机

  1. 机器学习回顾

    图片.png

    注:参数和超参数的区别:参数是指需要通过训练数据来训练确定的随机数,超参数则为需要人工手动设置的参数上面公式中的函数 f 为模型本身

    图片.png

    注:测试集只能使用一次,当模型在测试集进行过一次测试后,该测试集对该模型而言等价于验证集

    图片.png

    图片.png

    注:目标函数中的参数T是指训练数据本身,为已知

    图片.png

    注:图片.png是整体数据相加后再求平均

    图片.png

    注:凸函数总是会有全局最小值

    图片.png

    图片.png

    注:随机梯度下降的缺点,单个数据不能代表数据集本身,因此非常不稳定

    图片.png

    图片.png

    图片.png

    图片.png

  2. 神经网络基础

    图片.png

    注:神经网络的模型是线性运算和非线性运算的一个组合

    图片.png

    注:前向传播算法公式中,J 表示目标函数,D 表示训练集,图片.png为真值,图片.png为预测值;因为函数 f 是线性函数和非线性函数的组合,因此,f 可以写成图片.png

    反向传播算法需要计算将函数 f 拆解成 n 个fn 后,每个 fn 里的参数图片.png

    图片.png

    图片.png

    注:只跟图片.png的形式有关是指,除本身图片.png外的所有项(如j-1,j-2),在求偏导时,都会看成是常数,其导数都为0

    图片.png

    图片.png

    算法伪代码

    图片.png

    图片.png

    图片.png

    注:目标函数 J 和函数值 y 的区别:J 是目标函数本身,y 则是当自变量 x 确定后,对应的函数值,是目标函数 J 所有值的集合中的一个具体值

    图片.png

    图片.png

    图片.png

    图片.png

    注:softmax函数可以将一个多向量变成概率,一个多维向量经过softmax变换后,每维向量的值都在0到1之间,且每维向量的和为1

    图片.png

    图片.png

    注:当真值 y 等于预测值 图片.png时,CE会取得最小值

    图片.png

    计算示例

    图片.png

    注:上图中的问题是一个多分类问题,即 y 值向量有且只有一个维度等于1

    图片.png

    图片.png

  3. 小试牛刀

    图片.png

    图片.png

    图片.png

    图片.png

  4. NNLM

    图片.png

    图片.png

    注:上图中,input层的输入为one-hot vector编码(如单词 皮卡丘 表示为 000010 , 皮丘表示为 01000000),此时,机器无法理解这两个词的关系;经过input embeddings后,使用更高维的特征来表示单词(如单词 皮卡丘 的表示可能为 0.12 0.22 0.33 0.44,皮丘的表示为 0.12 0.55 0.66 0.77),机器就有可能会发现多个单词在更高维度的表示上是相似的,这样就是理解这多个单词之间是有联系的

    图片.png

    图片.png

  5. Word2Vec

    Word2Vec只有一个embedding层和一个softmax层Word2Vec没有内部的评价指标,只能跟据外部指标来评价,如下面的四词类比任务计算资源足够的情况下,可以用NNLM来训练embeddingembedding的初始矩阵也是随机的,随机值通过训练来更新

    图片.png

    图片.png

    图片.png

    图片.png