文本特征提取技术03.ppt-得力文库

资源描述

《文本特征提取技术03.ppt》由会员分享，可在线阅读，更多相关《文本特征提取技术03.ppt（57页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、文本特征提取,2019/7/10,五校联合大数据分析硕士培养,非结构化数据分析,主要内容,2019/7/10,非结构化数据分析,文本表示特征提取特征权重,文本表示,第一讲：文本挖掘简介,2019/7/10,非结构化数据分析,文本表示及文本预处理,2019/7/10,非结构化数据分析,去掉html一些tag标记停用词(stop words)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、词频统计(TFIDF)数据清洗：去掉噪声文档或文档内垃圾数据,向量空间模型G.Salton,1971,2019/7/10,非结构化数据分析,向量空间模型(Vector Space Model

2、)自然语言处理常用模型基本概念文档（Document）：句子、段落、整篇文章特征项（Term/Feature）：词根/词/短语/其他项的权重（Weight）：每个特征项在文档中的重要程度。, 1 = 1 ( 11 , 12 , 1 ) 2 = 1 ( 21 , 22 , 2 ),VSM示意图数据结构化一般思路,2019/7/10,非结构化数据分析,VSM示意图,相似度比较内积计算Cosine计算,2019/7/10,非结构化数据分析, 1 , 2 = =1 1 , 2, 1 , 2 =cos= =1 1 , 2 =1 1 2 =1 2 2,文本表示注解,2019/7/10,非结构化数据分析,文

3、本表示注解,2019/7/10,非结构化数据分析,用单个汉字（对应英语语系中的字符串）做特征，不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分；直观明了，且操作简单，尤其对于英文文本或其他西语文本的划分非常容易，计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下，使用词做特征成为一种更好的选择。词是中文语义的最小信息单位，词可以更好的反映句子中的信息，但是分析难度也提升了。以中文文本为例，词与词之间没有明确的分隔标记，计算机无法自动识别词语的边界，因此正确分词是这种表示方法的关键。该方法比较常用。,文本表示注解,2019/7/10,非

4、结构化数据分析,词性（Part Of Speech，POS）作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性，然后利用词性进行词义分析。如：什么样的名词经常和什么样的动词同时出现，这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块（Phrase Chunking）的界定与实体及关系（Entities and Relationship）的识别打下了良好的基础，有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量，使得向量更稀疏。近年来，词性标注（POS-tagging）、词组组块（Phrase Chunking）、实体及关系(En

5、tities and Relationship )相关的研究也开展了很多，取得了很多可喜的成果，有兴趣的读者可以参考后面所附的文献进行深入学习。,特征权重,2019/7/10,非结构化数据分析,特征权重,2019/7/10,非结构化数据分析,衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息：词频,常用的权重计算方法,2019/7/10,非结构化数据分析,布尔权重 = 1,0 绝对词频 TF = 倒排文档频度（IDF） = TF-IDF = TF-IWF = ( =1 ) 2 : 训练集中出现特征的文档数 :特征在训练语料中出现的次数,TF-I

6、DF 例子（ Salton et al.,1983 ）,2019/7/10,非结构化数据分析,假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章，其中有一篇文章，共有100个词，其中“粒子”“和”“应用”三个词分别出现了 5次、35次和15次，我们想将该文档进行归类，看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为，“粒子”、“应用”两个词应该对文章分类的作用较大，而“和”对于文章的分析意义不大。更进一步的，如果目标是进行文档的归类，有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。,TF-IDF 应用举例,2019

7、/7/10,非结构化数据分析,但是如果只关注词频，“应用”一词的权重更高。这时候，可以利用IDF的计算公式进行权重的处理，计算三个词的文档频率和文档逆频率，假设50篇文章中出现了“粒子”一词，450篇文章中出现了“应用”一词，900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下：,特征权重注解,2019/7/10,非结构化数据分析,特征加权方法最初用于信息检索，特征加权主要有三个层次，局部加权、全局加权和标准化(Chisholm et al.,1999)。一般化的特征加权表示式如下：是词语w在文档d中的局部权重。是词语w在文档集合中的全局权重，是文档d的标准

8、化因子。局部加权仅使用词语在文档中出现的统计量，而全局加权则使用整个数据集中的统计量进行计算。,特征提取,2019/7/10,非结构化数据分析,特征提取的意义,2019/7/10,非结构化数据分析,文本集合包含的特征太多10,000 1,000,000 unique words and more特征减少后，某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比，或更糟使预测模型更快、更小能提升总体性能Eliminates noise featuresAvoids overfitting,特征提取思路,2019/7/10,非结构化

9、数据分析,特征选择(Feature Selection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析,文档频率（Document Frequency,DF）,2019/7/10,非结构化数据分析,文档频率（DF）指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序，将文档频率小于某一阈值的词删除，从而降低特征空间的维数。,文档频率,2019/7/10,非结构化数据分析,基于DF的启发式要点太频繁的词项没有区分度, DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大在训练集

10、中，某些文档如果有某个稀有词项，它们通常也会有一些常见词项（对那一类）和通常信息获取观念有些抵触：稀有的更有代表性（这是一种ad hoc方法，不依据什么理论）最容易实现，可扩展性好,文档频率,2019/7/10,非结构化数据分析,Baeza-Yates and Ribeiro-Neto（1990）研究表明，若一个特征在语料集80%的文档中都出现了，它对于分类来说是无意义的。这样的词语主要是指停用词等，通过对这部分词语的压缩，可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语，考虑到增加一个变量对于现实带来的成本，一般不利用这样的词语，而是尽可能少的选取其他词条。Yang an

11、d Pedersen（1997）试验表明：在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的，约减为1/100所带来的损失很小。,熵,2019/7/10,非结构化数据分析,对分类系统来说，文档类别C的可能取值是每一个类别出现的概率是为类别的总数，熵定义为：,熵/ 平均熵,2019/7/10,非结构化数据分析,在观察到特征项以后，文档落入某个文档类的概率就应该是条件概率此时系统的熵为：该特征项的熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，特征项可能出现在较少的类别中,信息增益(Information Gain, IG),2019/

12、7/10,非结构化数据分析,该term为整个分类所能提供的信息量特征项出现与否导致的熵的变化考虑和不考虑特征的熵的差值,信息增益,2019/7/10,非结构化数据分析,信息增益,2019/7/10,非结构化数据分析,信息量与变量可能的变化有关，跟变量具体的取值没有任何关系，只和变量所取的种类多少以及发生概率有关），种类和发生概率决定了信息量的大小。 Quinlan提到了这一点，信息增益的方法总是倾向于选择有多种属性的特征。只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“局部”的特征选择（每个类别有

13、自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。,2 统计量,2019/7/10,非结构化数据分析,基本思想通过观察实际值与理论值的偏差来确定理论的正确与否。假设两个变量确实是独立的，然后观察实际值与理论值的偏差程度。如果偏差足够小，认为误差是很自然的样本误差，两者确实独立；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，认为两者相关。,2019/7/10,非结构化数据分析,那么偏差为：,2 统计量,2019/7/10,非结构化数据分析,2 统计量,2019/7/10,非结构化数据分析,卡方度量两者(term和类别)独立性的缺乏程度2 越大

14、，独立性越小，相关性越大若ADBC,则类和词独立, N=A+B+C+D,低频词缺陷,2019/7/10,非结构化数据分析,只统计文档中是否出现词条T，却忽略了词条T在文档中出现频率的信息，使得卡方检验对低频词有所偏袒，这就夸大了低频词的作用。如果某一特征只在一类文档中频繁出现，通过卡方法计算出来的卡方统计量很低，在特征选择时这种特征词就会被排除掉，但是这种在少量文档中频繁出现的特征词很有可能对分类的贡献很大，比如专指概念。,互信息法(Mutual Information, MI),2019/7/10,非结构化数据分析,MI越大,特征项t和c共现程度越大(N=A+B+C+D),互信息特点,201

15、9/7/10,非结构化数据分析,MI(t,C)的值越大，t对于C的区分能力越强对同一个类，不同的词项，在同样P(t|C)情况下，相对稀有的t 会得到较大的值，即MI受到词条边际概率的影响，从下面的公式中可得：,潜在语义分析 (Latent Semantic Analysis，LSA),2019/7/10,非结构化数据分析,特征重构方法SVD分解是LSA的数学基础特征值与特征向量实对称矩阵的正交化SVD矩阵分解低阶近似,特征值/特征向量,设A是n阶方阵，如果数和n维非零列向量，使：成立，则称数为方阵A的一个特征值，非零列向量称为A的对应于特征值的特征向量（或称为A的属于特征值的特征

16、向量）。,具体步骤为,利用正交矩阵将实对称矩阵对角化,这样共可得到m个两两正交的单位特征向量,有,5. 以为列向量构成正交矩阵,实对称矩阵正交化,由,可得,其中Q的列为矩阵A的单位正交特征向量, 仍表示对角矩阵,其中对角线上的值为A的特征值，按从大到小排列。最后，QT=Q-1，因为正交矩阵的逆等于其转置。,实对称矩阵对角化,已知矩阵A，寻找行空间的一组标准正交基记为V，通过A作用到行空间的这组标准正交基上AV ，得到列空间的一组基向量，记为B，把B标准化后得U，这里就可以得到用分量的形式表示：,奇异值分解SVD,对于，方程两边同乘，可以得到 , 由于V是标准正交基构成的矩阵，有，因

17、此可得：,U，V求解？由，可以得到：而为对称非负定矩阵，为对角矩阵，可以得到为的特征向量构成的矩阵。,低阶近似和F-范数,2019/7/10,非结构化数据分析,令表示一个阶的原始数据矩阵, 矩阵的秩为为了不失一般性，我们假定的均值为0，SVD奇异值分解可以表示成下面的过程：根据著名Eckart and Young(1936)年的结果,对于任意的有：在Frobenius范数下，SVD的前r 个元素给出了矩阵的秩为r 的一个最优估计。,，,，,潜在语义分析(Latent Semantic Analysis, LSA，1990，Deerwester et.al）,2019/

18、7/10,非结构化数据分析,LSA是文本分析中一种常用的降维技术。该方法以文档词频矩阵为基础进行分析，得到了向量空间模型中文档的高维表示，并通过投影形成文档在潜在语义空间中的低维表示。理论依据是我们认为有一种潜在的语义结构隐含在文档中词语的上下文使用模式中，而文档词频共现矩阵在一定程度上可以反映出词和不同主题之间的关系。潜在语义分析方法很好的解决了同义词和一词多义等现象给文本分析造成的困难。LSA被提出后，被广泛用于文本检索和聚、分类技术中。,LSA 理解,2019/7/10,非结构化数据分析,X表示一个文档和词语的共现频率矩阵 , X的每一行均代表一个文档向量，每一列代表词语向量。LSA将每

19、个文本视为以词语（特征）为维度的空间中的一个点，认为一个包含语义的文本出现在这种空间中，它的分布不是随机的，而是应该服从某种语义结构。同样地，也将每个词语视为以文档为维度的空间中的一个点。文档是由词语组成的，而词语又要放到文本中去理解，体现了一种“词语-文档”之间的双重概率关系。,LSA 示意图,2019/7/10,非结构化数据分析,2019/7/10,非结构化数据分析,性质,2019/7/10,非结构化数据分析,从数据压缩的角度看，“近似矩阵”是秩为 K的前提下矩阵X 的最小二乘意义下的最佳近似。LSA不同于向量空间模型中文本和词语的高维表示，它将文本和词语的高维表示投影在低维的潜在语义空间

20、中，缩小了问题的规模，得到词语和文本的相对不那么稀疏的低维表示，同时这种低维表示揭示出了“文档-语义-词语” 之间的联系。,K值的选择,2019/7/10,非结构化数据分析,k值过大则会使运算量增大，一般选特征值个数时，对于，可令满足贡献率不等式：（可取40%，50%）,潜语义分析缺点,2019/7/10,非结构化数据分析,但是可以注意到，分解的两个向量元素，可以为正值，也可以为负值，这些性质导致和总是很难解释。潜在语义分析过程中奇异值分解的物理意义不够明确，较难控制词义聚类的效果；此外该算法涉及高维且复杂的矩阵运算，这使得其在计算机上的实现也存在一定的困难。,LSI应用例子

21、,2019/7/10,非结构化数据分析,处理稀疏词汇后文本矩阵,2019/7/10,非结构化数据分析,利用VSM得到相似度,2019/7/10,非结构化数据分析,上述实例文本字数较少，我们采用余弦公式计算相似度。在VSM中是把每一行作为对应词汇的词汇向量的，则通过计算“数据”和“分析”的相似度为0.700，“数据”和“挖掘”的相似度为0.674，“分析”和“挖掘”的相似度为0，可见在VSM中，“分析”和“挖掘”没有任何关系的，但是，事实究竟是怎样的呢？。我们都知道，“分析”和“挖掘”都是对数据进行的处理，而且如今大数据技术的兴起，更是拉近了两者间的关系。我们当然希望在检索“分析”时，那些关于“

22、挖掘”的文本也都出现在检索结果中。大家知道，LSI可以比较有效的解决同义词和多义词的问题，因为LSI是把词汇和文本通过数学方法投影到相同的潜在语义空间中，在此空间中，可以实现语义近的词汇或文本距离更相近，反之亦然。比如：同义词虽然“形态”不同，但是在此空间距离会很近。,特征值向量,2019/7/10,非结构化数据分析,近似矩阵,2019/7/10,非结构化数据分析,近似矩阵,2019/7/10,非结构化数据分析,利用LSI得到相似度,2019/7/10,非结构化数据分析,在k=2时，通过计算“数据”和“分析”的相似度为0.731，“数据”和“挖掘”的相似度为0.708，“分析”和“挖掘”的相似度为0.035，可见经过LSI降秩后，含义相近的词汇的相似度得到了很大的加强。这样，在加入LSI的系统中，我们就可以实现输入“分析”时，包含“挖掘”的文本也同样检索出来。,R实现,2019/7/10,非结构化数据分析,特征提取操作,

展开阅读全文