自然语言处理NLP学习路线总结.docx-得力文库

资源描述

《自然语言处理NLP学习路线总结.docx》由会员分享，可在线阅读，更多相关《自然语言处理NLP学习路线总结.docx（14页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、自然语言处理（NLP）学习路线总结1、自然语言处理概述自然语言处理NaturalLanguageProcessingNLP是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进展有效通信的理论以及方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或者“理解自然语言以执行自动翻译、文本分类以及情感分析等。自然语言处理是人工智能中最为困难的问题之一。2、自然语言处理入门根底2.1数学根底1线性代数向量、矩阵、间隔计算余弦间隔、欧式间隔、曼哈顿间隔、明可夫斯基间隔、切比雪夫间隔、杰卡德间隔、汉明间隔、标准欧式间隔、皮尔逊相关系数2概

2、率论随机试验、条件概率、全概率、贝叶斯定理、信息论3统计学图形可视化饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘数据度量标准平均数、中位数、众数、期望、方差、标准差概率分布几何分布、二项分布、正态分布、泊松分布统计假设检验2.2语言学根底语音、词汇、语法2.3Python根底廖雪峰教程Python从入门到理论2.4机器学习根底统计学习方法、机器学习周志华、机器学习实战2.5深度学习根底CNN、RNN、LSTM2.6自然语言处理的理论根底统计自然语言处理宗成庆第二版、Python自然语言处理、数学之美第二版3、自然语言处理的主要技术范畴3.1语义文本相似度分析语义文本相似度分析是

3、对两段文本的意义以及本质之间的相似度进展分析的经过。3.2信息检索InformationRetrieval,IR信息检索是指将信息按一定的方式加以组织并通过信息查找知足用户的信息需求的经过以及技术。3.3信息抽取InformationExtraction信息抽取是指从非构造化/半构造化文本如网页、新闻、论文文献、微博等中提取指定类型的信息如实体、属性、关系、事件、商品记录等并通过信息归并、冗余消除以及冲突消解等手段将非构造化文本转换为构造化信息的一项综合技术。3.4文本分类TextCategorization文本分类的任务是根据给定文档的内容或者主题自动分配预先定义的类别标签。3.5文本挖掘T

4、extMining文本挖掘是信息挖掘的一个研究分支用于基于文本信息的知识发现。文本挖掘的准备工作由文本采集、文本分析以及特征修剪三个步骤组成。目前研究以及应用最多的几种文本挖掘技术有文档聚类、文档分类以及摘要抽取。3.6文本情感分析TextualAffectiveAnalysis情感分析是一种广泛的主观分析它使用自然语言处理技术来识别客户评论的语义情感语句表达的情绪正负面和通过语音分析或者书面文字判断其表达的情感等。3.7问答系统QuestionAnswering,QA自动问答是指利用计算机自动答复用户所提出的问题以知足用户知识需求的任务。不同于现有搜索引擎问答系统是信息效劳的一种高级形式系统

5、返回用户的不再是基于关键词匹配排序的文档列表而是精准的自然语言答案。3.8机器翻译MachineTranslationMT机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言sourcelanguage翻译到的语言称作目的语言targetlanguage。机器翻译研究的目的就是建立有效的自动翻译方法、模型以及系统打破语言壁垒最终实现任意时间、任意地点以及任意语言的自动翻译完成人们无障碍自由沟通的梦想。3.9自动摘要AutomaticSummarization自动文摘又称自动文档摘要是指通过自动分析给定的一篇文档或者多篇文档提炼、总结其中的要点信息最终输出

6、一篇长度较短、可读性良好的摘要通常包含几句话或者数百字该摘要中的句子可直接出自原文可以重新撰写所得。根据输入文本的数量划分文本摘要技术可以分为单文档摘要以及多文档摘要。在单文档摘要系统中一般都采取基于抽取的方法。而对于多文档而言由于在同一个主题中的不同文档中不可防止地存在信息交叠以及信息差异因此怎样防止信息冗余同时反映出来自不同文档的信息差异是多文档文摘中的首要目的而要实现这个目的通常以为着要在句子层以下做工作如对句子进展压缩合并切分等。另外单文档的输出句子一般是按照句子在原文中出现的顺序排列而在多文档摘要中大多采用时间顺序排列句子怎样准确的得到每个句子的时间信息也是多文档摘要需要解决的一个问

7、题。3.10语音识别SpeechRecognition语言识别指的是将不同语言的文本区分出来。其利用语言的统计以及语法属性来执行此任务。语言识别可以以被认为是文本分类的特殊情况4、自然语言处理根本点4.1语料库Corpus语料库中存放的是在语言的实际使用中真实出现过的语言材料语料库是以电子计算机为载体承载语言知识的根底资源真实语料需要经过加工分析以及处理才能成为有用的资源。4.21中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的标准重新组合成词序列的经过。2现有的分词方法可分为三大类基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于深度

8、学习的中文分词。3比拟流行的中文分词工具jieba、StanfordNLP、HanLP、SnowNLP、THULAC、NLPIR4.31词性标注是指为给定句子中的每个词赋予正确的词法标记给定一个切好词的句子词性标注的目的是为每一个词赋予一个类别这个类别称为词性标记part-of-speechtag比方名词noun、动词verb、形容词adjective等。2词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型然后是判别式的最大熵模型、支持向量机模型目前学术界通常采用的构造是感悟器模型以及条件随机场模型。近年度来随着深度学习技术的开展研究者们也提出了很多有效的基于深层神经网

9、络的词性标注方法。4.4句法分析Parsing1基于规那么的句法构造分析2基于统计的语法构造分析4.5词干提取Stemming词干提取是将词语去除变化或者衍生形式转换为词干或者原型形式的经过。词干提取的目的是将相关词语复原为同样的词干。4.6词形复原Lemmatization词形复原是将一组词语复原为词源或者词典的词目形式的经过。4.7停用词过滤停用词过滤是指在文本中频繁出现且对文本信息的内容或者分类类别奉献不大甚至无奉献的词语如常见的介词、冠词、助词、情态动词、代词和连词等。4.8词向量化WordVector词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用因为电脑无法处理自

10、然语言。词向量化可以捕捉到自然语言以及实数间的本质关系。通过词向量化一个词语或一段短语可以用一个定维的向量表示。word2vecfromgensim.modelsimportWord2Vec4.9命名实体消歧NamedEntityDisambiguation命名实体消岐是对句子中的提到的实体识别的经过。例如对句子“Appleearnedarevenueof200BillionUSDin2016命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来讲命名实体要求有一个实体知识库可以将句子中提到的实体以及知识库联络起来。4.10命名实体识别namedentityrecogniti

11、on命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名机构名日期地名时间等类别的任务。三种主流算法CRF字典法以及混合方法5、特征处理5.1特征提取FeatureExtraction特征提取是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的经过。举例文本分类特征提取步骤1对训练数据集的每篇文章我们进展词语的统计以形成一个词典向量。词典向量里包含了训练数据里的所有词语假设停用词已去除且每个词语代表词典向量中的一个元素。2在经过第一步的处理后每篇文章都可以用词典向量来表示。这样一来每篇文章都可以被看作是元素一样且长度一样的向量不同的文章具有不同的向量值。这也就是表示文本的词袋

12、模型bagofwords。3针对于特定的文章怎样给表示它的向量的每一个元素赋值呢最简单直接的方法就是0-1法了。简单来讲对于每一篇文章我们扫描它的词语集合假如某一个词语出如今了词典中那么该词语在词典向量中对应的元素置为1否那么为0。5.2特征选择FeatureSelection当数据预处理完成后我们需要选择有意义的特征输入机器学习的算法以及模型进展训练。特征选择是指去掉无关特征保存相关特征的经过可以以认为是从所有的特征中选择一个最好的特征子集。特征选择本质上可以认为是降维的经过。fromsklearn.feature_extraction.textimportTfidfVectorizer5.

13、3降维DimensionReduction6、模型选择6.1马尔可夫模型、隐马尔可夫模型、层次化隐马尔可夫模型、马尔可夫网络1应用词类标注、语音识别、部分句法剖析、语块分析、命名实体识别、信息抽取等。应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。2马尔可夫链在随机经过中每个语言符号的出现概率不互相独立每个随机试验的当前状态依赖于此前状态这种链就是马尔可夫链。3多元马尔科夫链考虑前一个语言符号对后一个语言符号出现概率的影响这样得出的语言成分的链叫做一重马尔可夫链也是二元语法。二重马尔可夫链也是三元语法三重马尔可夫链也是四元语法6.2条件随机场CRF1条件随机场用于序列标注中文

14、分词、中文人名识别以及歧义消解等自然语言处理中表现出很好的效果。原理是对给定的观察序列以及标注序列建立条件概率模型。条件随机场可用于不同预测问题其学习方法通常是极大似然估计。2条件随机场模型也需要解决三个根本问题特征的选择、参数训练以及解码。6.3贝叶斯网络贝叶斯网络又称为信度网络或者信念网络beliefnetworks,是一种基于概率推理的数学模型其理论根底是贝叶斯公式。6.4最大熵模型7、NLP常用工具1AnacondaAnaconda是一个用于科学计算的Python开发平台支持LinuxMac以及Windows系统提供了包管理与环境管理的功能可以很方便地解决多版本Python并存、切换和

15、各种第三方包安装问题。Anaconda利用conda命令来进展package以及environment的管理并且已经包含了Python以及相关的配套工具。Anaconda集成了大量的机器学习库和数据处理必不可少的第三方库比方NumPySciPyScikit-Learn和TensorFlow等。2Scikit-learnScikit-learn是广受欢送的入门级机器学习库包含大量的机器学习算法以及特征提取实现使用非常简便。Scikit-learn实现的是浅层学习算法神经网络仅实现了多层感悟机。3TensorFlowTensorFlow是谷歌基于DistBelief进展研发的第二代人工智能学习系统

16、,可被用于语音识别或者图像识别等多项机器学习以及深度学习领域。4KerasKeras是一个高级别的Python神经网络框架能在TensorFlow或Theano上运行。Keras的、谷歌AI研究员FrancoisChollet宣布了一条冲动人心的消息Keras将会成为第一个被添加到TensorFlow核心中的高级别框架这将会让Keras变成Tensorflow的默认API。5GensimGensim是一款开源的第三方Python工具包用于从原始的非构造化的文本中无监视地学习到文本隐层的主题向量表达。它支持包括TF-IDFLSALDA以及word2vec在内的多种主题模型算法支持流式训练并提供了

17、诸如相似度计算信息检索等一些常用任务的API接口。6NLTK在NLP领域中NLTK是最常使用的一个Python库。7JiebaJieba结巴分词是最受欢送的中文分词工具。8、NLP语言模型1词的独热表示one-hotrepresentation2BagofWords3Bi-gram以及N-gram4词的分布式表示distributedrepresentation5共现矩阵Cocurrencemartrix6神经网络语言模型NeuralNetworLanguagemodelNNLM7word2vec连续词袋模型ContinuousBagofWordsCBOWSkip-Gram模型9、快速入门NLP方法1认真看完一本NLP相关的书坚持看完一部视频。2看这两年度相关方向的综述论文然后看一些经典的论文以及最新论文。3独立实现一个小型的自然语言处理工程。4可以在Github上找到很多相关的开源代码选一个自己感兴趣的方向进展研究。10、自然语言处理学习资料大爷赏个脸

展开阅读全文