基本概念
注:自然语言理解就是将自然语言转换成便于计算机理解的格式,如树、或区间(-1,1)之间的实数;
常见应用
注:1)推荐系统中,可以通过计算文章的相似度,推荐类似的文章;
2)体育赛事报道自动生成时,用同义词替换可以保证生成相同意思的句子时,不会出现完全相同的两句话;
3)目前大部分的自然语言理解的应用主要是模板匹配和分类器;
注:上图中右下角语言相关技术中的各项都有现存的模块可供调用,不需要自己实现;
自然语言理解的挑战
注:新颖观点的意思是,不对语言本身做结构化处理,只在语言本身的表层进行处理;
历史进程
注:规则系统和概率系统和深度学习并不是一个替换的关系,实际使用中,这三者是可以共存的;
注:上图中的规则 我饿(死)了 这种示例,可以用正则表达示来进行匹配;
注:准确率的计算是指,例如给出3个句子,每个句子中提取出来一个词,然后根据提取出来的词来计算准确率;
Sequence 2 Sequence
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
解决自然语言处理的一般思路
一些常用的工具
注:Stanford Core NLP支持中文;