基于共现潜在语义向量空间模型的语义核构建-牛奉高.pdf

上传人:1890****070 文档编号:110220 上传时间:2018-05-13 格式:PDF 页数:9 大小:827KB
返回 下载 相关 举报
基于共现潜在语义向量空间模型的语义核构建-牛奉高.pdf_第1页
第1页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于共现潜在语义向量空间模型的语义核构建-牛奉高.pdf》由会员分享,可在线阅读,更多相关《基于共现潜在语义向量空间模型的语义核构建-牛奉高.pdf(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、情报学报 2017年8月 第36卷 第8期 Journal of the China Society for Scientific and Technical Information, Aug. 2017, 36(8): 834-842 收稿日期: 2016-09-23;修回日期: 2017-05-16 基金项目:国家自然科学基金“共现潜在语义向量空间模型及其语义核的构建与应用研究”(71503151),山西省高等学校创新人才支持计划“基于潜在语义的文本信息主题深度聚类研究”(2016052006)。 作者简介:牛奉高,男,1980年生,博士,副教授,硕士生导师,研究方向为信息计量与科学评价、

2、应用统计,E-mail: ;张亚宇,女,1993年生,硕士研究生,研究方向为应用统计、文本挖掘,E-mail: 。 基于共现潜在语义向量空间模型的语义核构建 牛奉高1,2,张亚宇1(1. 山西大学数学科学学院,太原 030006;2. 山西大学管理与决策研究所,太原 030006) 摘 要 实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共

3、现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。 关键词 共现潜在语义向量空间模型;语义核;共现潜在语义向量空间模型语义核;文本聚类 Semantic Kernel Study Bas

4、ed on Co-occurrence Latent Semantic Vector Space Model Niu Fenggao and Zhang Yayu (1. School of Mathematical Sciences, Shanxi University, Taiyuan 030006; 2. Institute of Management and Decision, Shanxi University, Taiyuan 030006) Abstract: The effective representation of knowledge is the key technol

5、ogy to realize the knowledge discovery of digital library resource aggregation. As a classic text representation model, vector space model (VSM) and its deriva-tives play an important role in the field of information retrieval and knowledge discovery, but there are also many problems in applying the

6、m. Co-occurrence latent semantic VSM (CLSVSM) is used as a new model in the vector representation of text information, which significantly improves the accuracy of text clustering compared with VSM. However, the dimension of the co-occurrence matrix is often higher when faced with the large text dat

7、a, which leads to the complexity of the model. This paper constructed a semantic kernel (CLSVSM_K) base on CLSVSM, which uses the idea of latent semantic analysis. CLSVSM_K not only reduces the dimensions of the co-occurrence matrix, but also realizes the merging of synonymous information of text fe

8、ature words. In this paper, the semantic kernel model is used in the topic clustering of the literature. Experimental results show that the proposed method can effec-tively reduce the dimensions of the feature word space and the complexity of computation, and improve the per-formance of the clusteri

9、ng algorithm. Moreover, the model improves the accuracy of topic clustering of the literature. The application of the proposed model to digital library information resources will promote the development of knowledge organization, discovery, and optimization. Key words: co-occurrence latent semantic

10、VSM (CLSVSM); semantic kernel; CLSVSM_K; text clustering 万方数据第8期 牛奉高等:基于共现潜在语义向量空间模型的语义核构建 835 1 引 言 数字图书馆资源是文本资源储存的主要形式,实现对数字化馆藏资源的有序组织和知识发现将推进数字图书馆信息检索和知识服务的水平。然而,随着计算机设备及网络技术的蓬勃发展和快速普及,信息的产生和传递效率加速提升,进而产生了信息爆炸的现象,人类至此进入了大数据时代。在大数据时代下,传统信息检索的方式无法有效的地帮助使用者分析和了解大量的文本数据,而这些文本中却隐藏着许多宝贵的知识。因此,知识的有序组织和知

11、识发现作为挖掘和发现数字图书馆资源之间及其内在语义关联的重要途径面临着新的挑战。在当前,实现数字图书馆资源知识发现的主要研究包括知识发现的任务描述、知识评价和知识表示。其中对知识的合理表示有利于挖掘资源内部和资源间的语义关联,是实现数字资源知识挖掘过程中不可忽视的重要过程。 在知识发现领域,文本表示的经典模型是向量空间模型1(vector space model,VSM),它将每篇文档映射成文本空间中的一个高维稀疏的向量,因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中向量的计算,即:通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。向量空间模型的具体表示形式

12、如下所示: ()T12,Diii imdaa a R,1in ;其中,id表示第i篇文档的信息(设含有n篇文档),ija为第j个特征词(设含有m个特征词)在第i篇文档中的权重,在向量空间模型中,ija的取值范围是一个连续的实数区间0,1。特别地,当取布尔权重时,ija的取值范围是0,1。 然而,VSM忽视了词与词之间的语义关系,例如,将一词多义词放在同一个维度下,认为它们具有语义语法上的相关关系;相反将近义词放置在不同的维度下,认为他们不具有相关关系;所以导致文本相似性的计算不准确。基于此,1985年Wong等2分析了VSM中关于词向量正交的问题,提出了广义向量空间模型(Generalized

13、 Vector Space Model,GVSM)。GVSM将文档表示在一个非正交的空间中,用, 1,2, ,iD di n表示含n篇文献和m个特征词的文献集,设“篇词”矩阵为A,记TGAA,称G为特征词与特征词之间关联矩阵。文档的相似度计算公式如下: TTT(, )ijijii j jdGdSim d ddGd d Gd 在改进的GVSM中指出当G取词向量(A的列向量)的协方差阵时性能表现最好,即: Tcov011GQHQn-其中,Q为A列向量的抽样,T01HI en-,0n为样本量,e为全1的列向量。不难看出,covG其实是一种加权的共现矩阵。广义向量空间模型(GVSM)及其改进模型的提出

14、挖掘了词与词之间的共现信息,提高了文本相似度计算的准确性,但是仍不能改变文本表示向量中语义信息提取不充分的问题。 因此,此后的研究主要是基于VSM或GVSM模型,通过本体或语料库等背景知识来构建语义向量空间模型3(SVSM)实现文献相似性的计算。共现潜在语义向量空间模型4(CLSVSM)的提出(详细介绍于第2.1节给出),不仅挖掘和利用了关键词之间的潜在语义信息实现了文本表示向量的语义平滑,而且摆脱了以往研究中在抽取特征词空间语义信息时对背景知识的过度依赖,同时较VSM来说提高了聚类的精度。然而,新的问题是模型的维度依旧很高且有较高的计算复杂度。出于对以上问题的思考,我们对CLSVSM进行了语

15、义核函数构建,使其在降低维数的同时提高聚类算法的性能。 核函数方法早在1964年已被Ajzerman等5引入到机器学习的领域;1992年,Boser等6利用该技术成功地将线性的支持向量机(SVM)推广为非线性的SVM。此后,核函数在文本分类中得到了成功的应用7-10,也有研究将核函数的方法与聚类算法相结合11-14。核方法将低维空间非线性可分的问题映射到高维空间,使其在高维空间变得线性可分,利用高维特征空间中的内积来对低维特征空间中的问题进行分类。核函数的引入避免了“维数灾难”,大大减少了计算量,而输入空间的维数对核函数矩阵并无影响。因此,核函数方法可以有效处理高维矩阵运算。 语义核作为核函数

16、的一种其概念最早由Siolas15提出,并将其作为支持向量机方法中的基础核用于文本分类。用于文本分类或聚类时,语义核本质上万方数据836 情 报 学 报 第36卷 是文本之间语义关系的一种度量,起到了平滑文本表示向量所含语义信息的作用16-18。语义核函数的选择标准一直是语义信息向量之间的内积,一直以来语义核函数的研究主要分为两类:一类是基于知识的系统,主要是将WordNet和HowNet等大型的本体或Wikipedia等外部知识源作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建,例如,2013年Nasir等19基于GVSM提出了语义平滑VSM模型并实现了其语义核构建;Blo

17、-ehdorn等20基于WordNet构建了语义语法树核(SSTK);文献21基于WordNet构建了语义核并应用于自动评价系统;文献22基于HowNet建立了语义核。但是,通用本体作为知识背景的缺陷是构建成本较高且其往往因缺乏领域知识导致抽取的语义在准确性和专业性上出现误差。另一类研究则是基于统计学方法,通过挖掘特征词之间的潜在概念来构建语义核,典型的研究是基于潜在语义分析(LSA)23的思想,LSA在抽取语义信息时避免了尚不完善且建设成本过高的本体知识;2002年Cristianini等24在LSA的基础上构造了潜在语义核(LSK),对GVSM的向量表示模型进行了降维处理;2005年Mav

18、roeidis等25在共现分析的基础上建立了广义向量空间核(GVSM Kernel);2015年Jadidinejad等26同样基于LSA的思想构建了语义核函数并将其应用于波斯文的文本分类;Altnel等分别通过加入类别的权重27和意义度量28两种方法计算特征词之间的语义信息构建语义核。 本文受以上语义核研究的启发,提出了一种新的用于数字图书馆资源知识发现领域的文本表示语义核模型,其有助于挖掘数字文献资源之间和资源内部的语义关联。该模型借助潜在语义分析(LSA)的思想,基于共现潜在语义向量空间模型(CLS-VSM)构建而成。具体的方法则是对CLSVSM得到的新的“篇词”矩阵的转置进行奇异值分解

19、,然后将文档转变为k维的特征空间实现对文档的降维处理,最后通过对特征词空间的共现分析实现语义核函数的构建。基于CLSVSM的语义核函数构建减少了“篇词”矩阵中的噪音,弥补了CLSVSM模型维数依旧较高计算复杂度仍旧很大的不足,并且进一步挖掘和利用了特征词之间的共现信息实现了特征词之间同义词的合并。本文将该语义核模型应用于对数字文献资源的主题聚类研究,实验结果证明,该方法提高了文献资源主题聚类的精度,增强了聚类算法的性能,而且该语义核函数的构建在很大程度上压缩了特征词空间的维数。 2 相关研究工作 2.1 共现潜在语义向量空间模型 共现潜在语义向量空间模型4(CLSVSM)通过分析文本特征词之间

20、的共词矩阵求得特征词之间的共现强度矩阵,然后利用特证词之间的最大共现强度对传统的高维稀疏的赋予0和1权重的文本表示模型(向量空间模型)进行语义补充,即对模型中权重为0的值赋予新的介于0和1之间的权重。该模型不仅保留了文档的原有特征词,而且还在不包含特征词的维度上增加了通过共现语义分析所提取的信息,实现了文档表示模型的语义平滑。因此,CLSVSM是基于VSM构建而得的,其构建思想 如下。 首先建构文本表示的向量空间模型(这里取布尔权重): ()T12, ,1,Diii imdaa a Ri n (1) 若记VSM得到的文档的“篇词”矩阵为A,则特征词之间的共现矩阵为TCAA,相应的共现强度矩阵为

21、: T11 2211 22( ) diag(1/ ,1/ ,.,1/ )Adiag(1/ ,1/ ,.,1/ )ij m m mmmmBb c c c Acc c 在构建CLSVSM时作者引入新的指标集1iI |1,ijja则当0ija 时,用1max ijttIb来量化特征词之间的共现信息或者说是特征词之间的相似度信息,进而实现对布尔模型的补充得到CLSVSM: ()T12() , , ,DiiiiimddqqqR:其中: 111, 1max , 0, max 00, others.iiijij jt ij jttI tIaqba b (2) 2.2 核函数 核方法因在支持向量机(SVM)中

22、的应用而被广泛关注,核函数通过隐式的映射使得线性的SVM很容易映射到非线性的情景,高维特征空间的矩阵运算被转变为低维空间核函数的运算,避免了高维特征空间中复杂的内积计算,大大地减少了计算的万方数据第8期 牛奉高等:基于共现潜在语义向量空间模型的语义核构建 837 复杂度。核函数在文本挖掘中的定义如下。 对于文本表示向量式(1),通过隐式映射将n维文本空间中的文档id和jd映射到高维的特征空间(内积空间,m维)得到()()Tijdd,其中mn,则核函数为: T(,) (),() () ()ij i j i jkdddddd (3)从式(3)可以看出,核函数将m维高维空间的内积运算转变为n维低维输

23、入空间的核函数计算,从而巧妙地解决了高维特征空间计算的“维数灾难”问题,为高维空间解决复杂的分类和回归问题奠定了理论基础。相对应的核矩阵为=( ( , ) )ijijnKkdd。 基于不同的应用可构建不同的核函数,常见的核函数有: (1)线性核:()T,ij ijkd d dd (2)多项式核:()()T,dij ijkd d dd(齐次) 或T(, ) ( )dij ijkd d d d C(非齐次) (3)径向基核:()22| |,exp2ijijddkd d-(4)Sigmoid核:() ()T,tanh()ij ijkd d dd v (5)Fourier核: ()()221,21 2

24、 cos( )ijijqkd dqddq-, 01q 2.3 语义核语义核也是核函数的一种,在应用于文本分类和聚类时,语义核的构建加入了文本中特征词之间的语义信息。2005年Mavroeidis等25给出了语义核函数的正式定义,对于文本表示向量空间模型式(1),在构建语义核函数时可以先对其进行简单的线性映射:()iidSd , 1in ,其中S称为相似性矩阵,表示文档中特征词的信息,S可以选择为任何恰当形式的矩阵,得到相应的语义核函数: ()TT T,ij i j i jkd d dSSd dPd P为对称矩阵,即其元素满足ij jipp,ijP表示特征词i和j间的语义关系。因此,语义核函数认

25、为是对特征词空间语义关系的一种度量,给定不同的相似矩阵S可以构造不同的语义核函数。在相关研究中或者基于本体抽取词与词之间的显在语义关系寻找相似矩阵S,或者基于统计学的方法通过分析文本 语料库中特征词间的关联关系挖掘词与词之间的潜在语义关系来寻找相似矩阵S。由于本体的建设成本较高,且只有少量的学科本体可用,所以,本文构建的CLSVSM_K语义核也是基于统计学的方法。在基于统计学的方法实现语义核构建时,典型的是借助共现分析的思想。下面分别介绍一些基于共现分析构建的语义核。 (1)基于GVSM构建的语义核 对于文本表示的“篇词”矩阵A,GVSM核定义为: ( )TT,ij i jkd d dAAd

26、在GVSM语义核中,相似矩阵S被选择为“篇词”矩阵A,矩阵TA A是词与词之间的共现关系矩阵,当且仅当第i个词和第j个词在同一篇文档中出现时,矩阵TA A的ij元不为0,在这里两个词在一篇文章中出现被认为是相关的。所以说GVSM核利用词与词之间的共现关系计算文档中词的潜在语义关系。 (2)语义扩散核 语义扩散核29于2004年被提出,2014年被进一步研究,该核函数通过对给定的词与词之间的关系矩阵进行指数变换而获得: ( ) ()00expkk k 其中,T0kAA,是衰减因子。相关研究一致证明了与核函数( )k 相一致的相似矩阵S为exp2G,且其可被表示为如下形式: 221exp 22 2

27、 2! 0!GGSGIG其中,TGAA是语料库中词与词之间的共现矩阵,展示了文档中词与词之间最初的语义关系,而通过共现矩阵定义的相似矩阵S则反映了词与词之间 更高阶的共现关系。相比于GVSM语义核,语义扩散核在更大程度上挖掘了文档中特征词的潜在语义关系。 (3)迭代的高阶秩语义核(IHOSK) 2014年Altnel等30通过迭代算法充分挖掘了文档特征词间更高阶的路径实现了语义核的构建。在语义核构建时,两个相似性度量矩阵词的相似性度量矩阵(SC)和文档的相似性度量矩阵(SR)分别通过迭代的算法给出,公式如下: 万方数据838 情 报 学 报 第36卷 T1ttSR ASC A NR-,其中1i

28、jijNRdd T1ttSC A SR A NC-,其中1ijijNCtt其中,矩阵A同上表示“篇词”矩阵,id和jd分别表示文档id和jd中特征词的个数,it和jt表示词在文档集中出现的频数。通过两次迭代计算求得词的相似度矩阵tSC,构建的相应的语义核如下式所示: ()TT12,IHOSK i t t jk d d d SC SC d 该语义核被应用于文本分类技术,实验结果显示其有效地提高了文本分类的精度。 以上提到的都是基于共词分析的语义核构建,此外,还有研究通过生成词与类别的相似矩阵来构建语义核,即:相似矩阵S为“词类别”的矩阵,并应用于文本分类。本文基于CLSVSM构建的语义核也是通过

29、挖掘词与词之间的共现潜在语义来实现的。 2.4 文本降维运算 文本降维算法是文本挖掘的研究热点之一。自然语言的文本信息中包含大量的词汇,甚至各种语言的词汇组合。如果简单的把这些词汇都作为特征词那么将是计算的灾难,因此需要对文本信息进行降维处理,提取出主要成分。文本挖掘领域的降维方法主要有因子分析法(FA),主成分分析法(PCA),潜在语义分析法(LSA)等。 因子分析法31(FA)是通过将原有变量内部的相互依赖关系进行数据化,把大量复杂关系归为少量的几个综合因子的统计方法。它的基本思想是通过分析各变量之间的方差贡献效果,将相关性高的、联系比较紧密的分在同一个类别中,而分在不同类的变量则相关性比

30、较低,其中一个类别描述了一种独立结构,在因子分析中将其称为公共因子。研究目的是尝试使用少数几个不可测的公共因子进行组合来描述每一个变量以及各变量之间的关系。 主成分分析法32(PCA)是一种矩阵变化的数学方法,它把一组相关的数据进行线性的变化,最终变成一组不相关的数据组合,并对这些新的数据根据其特征值进行依次递减排列。运算过程中,变量的总方差是不变的,结果使第一个变量具有最大的方差值,可以称为第一主成分;第二个变量具有第二大的方差值,且与第一个不相关,并称之为第二主成分,依次类推。主成分分析和因子分析的区别在于,因子分析中所采用的是协方差矩阵的对角,而不是主成分中使用的方差,且和变量对应的是共

31、同度,区别于主成分。 潜在语义分析(LSA)最早由Deerwester等23于1990年提出,他们认为如果两个词多次出现在同一文档中,则这两个词在语义上就具有相似性。LSA的核心技术是对“词篇”矩阵进行奇异值分解(SVD),然后将原先高维的特征空间投影到前k个较大的特征值对应的k个特征向量张成的子空间实现同义词的合并和降维,潜在语义分析的关键是参数值k的选择,在潜在语义分析中作者认为k可以根据具体“词篇”矩阵中特征词的维数进行人为选取,将有效地降低特征词的维度。 本文旨在应用LSA的方法对CLSVSM进行降维处理(具体的降维方式将在第3节给出),降维之后又对模型实现了语义核构建。 3 基于 C

32、LSVSM 构建语义核函数 对于式(2)中文本表示的共现潜在语义向量空间模型(CLSVSM): TD12()( , , , ) , 1, ,iiiiimddqqqRi n : 其对应的新的“篇词”矩阵为: ()()()()T111 12 1, 1 1,T21 22 2, 1 2, 2T1,1 1,2 1, 1 1,1T,1 ,2 , 1 ,mmmmn n nm nmnn n nm nmndqq q qqq q q dQqq q qdqq q qd- - 寻找相似度矩阵S是语义核函数构造的关键。受潜在语义分析思想的启发,我们做了如下思考:如果对“篇词”矩阵Q的转置TQ(下文称其为“词篇”矩阵)进

33、行奇异值分解TTQUV,得到奇异矩阵U和V(其中U和V都是正交矩阵,分别为m维和n维)和矩阵000mn(矩阵对角线上的元素为所求得的非零奇异值,且按从大到小的顺序进行排列)。因此,特征词与特征词之间的相关性矩阵TQQ可做如下变形:TTTQQ U VV U TT TUUUU 。所以,奇异矩阵U同时又等于TQQ的正交单位特征向量组成的矩阵,矩阵T是矩阵U所对应的特征值组成的矩阵,所以U的行 万方数据第8期 牛奉高等:基于共现潜在语义向量空间模型的语义核构建 839 向量反映了“词篇”矩阵TQ中相应的特征词中的信息,它们的权重就是相应的特征值。同理,奇异矩阵V又等于文档和文档之间的相关性矩阵TQQ的

34、正交单位特征向量构成的矩阵,则它所对应的行向量就反映了“词篇”矩阵TQ中相对应的文本信息。如果我们选取前k个最大的奇异值(也即相当于选取了前k个最大的特征值),并且将他们与对应的U和V矩阵中的向量相乘,就能得到一个TQ矩阵的k阶近似,即TTkkkkXUV。通过对特征词矩阵的共现分析,可知矩阵TkkUU是经过特征压缩后的特征词之间的共现矩阵,其在降低特征词空间维数的同时实现了同义词的合并。因此我们给定相似性矩阵TTkkSU IU,其中kI为只有前k个对角线元素为1而其他值都为0的矩阵,即我们抽取了U的前k列,使得抽取的信息既能最大程度的解释特征词的信息,又能实现特征词空间的降维。所以,基于CLS

35、VSM构建的语义核函数为: ( ) ( )TTT T T(, ) ( ()( ( )ij k i k j i kk jkd d U d U d d UU d 以上语义核函数基于CLSVSM构建,所以我们简称其为CLSVSM_K。该语义核函数得到相一致的核矩阵为: TTkkKQUUQ 该核矩阵也可认为是文本与文本之间语义关系的相似性矩阵。 基于CLSVSM的语义核函数构建的关键是参数k的选取,选取不同的k值意味着对特征词信息不同程度的提取,聚类的结果也将会不同。本文在选取k值时,分别保证前k个特征值的和为所有特征值总和的90%、95%和98%。基于CLSVSM的语义核构建不仅能够压缩文本特征空间

36、的维度避免了高维空间矩阵的运算,而且进一步挖掘了特征词之间的语义信息,具体的实验过程和几种不同方法之间在文献数据聚类结果中的比较将在下文给出。 4 实验设计 4.1 实验数据 本实验所用的第一个数据集延用CLSVSM实验,该数据采集于CNKI分类中信息科学下的三个学科“出版”、“图书情报与数字图书馆”和“档案及博物馆”,每个类别按被引频次降序排列收集2013年间发表的文献各300篇,经过简单的预处理(除 去没有关键词的文献4篇),最终获得的文献总数为896篇,其中包含“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,同时获取文献关键词2509个,关键词总频数为396

37、5,以上数据的具体采集方法参见文献4。相对于一般文本的向量表示,文献的向量表示具有更严重的稀疏性,CLSVSM模型的提出很好地解决了这一问题,且实验在该数据集上的结果表明该方法有良好的聚类效果,本文提及的核方法是基于CLSVSM构建的,所以本文在初次实验时也选取该数据集来进行,实验结果的好坏更能说明所提及的方法的好坏。 为了检验算法在更大的数据集上的稳定性,我们又收集了2014年到2016年间CNKI分类中信息科学下的三个学科“出版”、“图书情报与数字图书馆”和“档案及博物馆”的文献各600篇(按被引频次降序排列进行检索),获得文献总数1800篇,获得关键词3920个,关键词总频数为7934。

38、 4.2 评价指标 使用聚类算法进行聚类后,一般的文献常用熵值(entropy)、纯度(purity)、准确率(precision)、召回率(recall)和F值(F-measure)等指标来验证聚类效果的好坏。而F值可认为是准确率和召回率的复合函数,所以本文以熵值、纯度和F值作为聚类的评价指标。 本文称文献原有的标签为类,记为jL(1jk),称通过聚类算法获得新的划分的标签为簇rC(1rk)。假设实验所含文献总数为n篇,文献数据的原始标签有k个类别,则实验后将同样得到k个簇。如果类jL和簇rC分别含有jn和rn篇文献,其中共有jrn篇相同的文献。则相应的纯度和熵值分别为: 1111purit

39、y max maxkkj krj jkrjrrnnnn 111entropy loglogkkrj rjrrrnnnnknn-文献i的准确率和召回率分别为: iiPi文 所在簇中分 正确的文 篇文 所在簇中的献类献数献 文献总数iiRi文 所在簇中分 正确的文 篇文所在中献类献数献 类 的文献总数1in 一个聚类结果总的准确率和召回率采用每篇文献的准确率和召回率的平均值表示,分别为:万方数据840 情 报 学 报 第36卷 11niiP Pn,11niiRRn。F值则为准确率和召回率的调和平均: 2211P RFP RPR实验中熵值、纯度和F值三个指标的取值都介于0和1之间,在结果分析中我们希

40、望数据原始的类别和和聚类后的类别完全一致,所以纯度和F值越大表示聚类的效果越好;相反,熵值越小越好;而纯度和F值的最优值则是1,熵值的最优值为0。 4.3 实验过程 在实验时,我们首先将所得的文献数据用CLSVSM进行表示求得新的“篇词”矩阵;然后,对“篇词”矩阵的转置进行奇异值分解;最后,用我们提及的方法对CLSVSM进行语义核构建,得到CLSVSM_K和相一致的核矩阵,得到的文本模型采用K-means聚类方法进行聚类。 在原始数据集上进行实验时,构建的CLSVSM_ K分别保证前k个特征值的和占特征值总和的90%、95%和98%,构建的语义核下表中分别简称为90% CLSVSM_K、95%

41、 CLSVSM_K和98% CLSVSM_K。该语义核是基于CLSVSM构建的,而又线性核是一切核函数构建基础,所以我们把CLSVSM和线性核进行聚类所求得的结果看做是实验的基线用来比较我们所提及方法的好坏,此外我们又与两种常见的文本表示模型(向量空间模型和广义向量空间模型)和一种常用的核(径向基核)进行了实验比较,每一种模型我们都进行了50次的实验,通过多次实验求得的熵值、纯度和F值三个指标的均值来对聚类的结果进行评价,分析比较结果如表1所示。 表 1 在原始数据集上不同模型的聚类结果比较 熵值 纯度 F值 特征词空间的维数 VSM 0.7820.079 0.6030.077 0.6120.

42、085 2509 GVSM 0.7150.080 0.6570.074 0.6740.080 2509 CLSVSM 0.5960.039 0.7680.037 0.7760.034 2509 径向基核 0.8740.001 0.4500.001 0.5730.003 2509 线性核 0.5710.016 0.7910.014 0.7950.009 2509 90% CLSVSM_K 0.5990.017 0.7850.006 0.7850.006 24795% CLSVSM_K 0.5710.043 0.8010.0040.7980.004 356 98% CLSVSM_K 0.5650.

43、0030.7970.001 0.7980.001468 表1中的表示实验结果越小越好;相反,则表示实验结果越大越好。表1中我们将实验的最优结果用标出。由表1可以看出,当前k个特征值为特征值总和的95%和98%时,特征词空间有了明显的压缩,这是因为在进行潜在语义分析时有效地抽取了特征词空间的主要成分;并且,聚类评价的各个指标显示的结果均优于其他算法。在比较分别提取95%和98%特征词信息而得的语义核函数的聚类结果时,将会发现提取98%的语义信息所得的核函数的纯度却小于提取语义信息为95%的,这是因为我们通过核函数对特征词的语义信息进行合并只是一种近似合并,因此出现这种误差也就不足为奇了。核函数的

44、引入在加入共现信息的同时又避免了高维空间矩阵的运算,降低了聚类算法在时间和空间上的复杂度提高了算法的性能。 之后,我们又在新的数据集上进行了多组实验,更进一步地检验算法的稳定性。实验时,我们分别构建了95% CLSVSM_K和98% CLSVSM_K,并与上一实验中结果较好的模型(GVSM、CLSVSM和线性核)进行比较,每种模型进行了50次实验,并求得熵值、纯度和F值三个指标多次实验结果的均值和标准差,实验结果如表2所示。 表2中的各个符号含义同表1。通过实验比较可发现,CLSVSM_K在更大的数据集上降维效果依旧比较明显,且聚类效果仍旧不差,通过比较各个实验结果的标准差可以发现CLSVSM

45、_K在更大的数据集上的聚类结果更加稳定。 5 总 结 大数据时代,海量资源降低了信息检索的效率且增加了检索成本。通过对数字图书馆资源的主题聚合为精确检索和知识服务提供了重要支持。知识 万方数据第8期 牛奉高等:基于共现潜在语义向量空间模型的语义核构建 841 表 2 在新增数据集上不同模型的聚类结果比较 模型 熵值 纯度 F值 特征词空间维数 GVSM 0.5770.023 0.7910.015 0.7960.013 3920 CLSVSM 0.5350.043 0.8170.004 0.8190.004 3920 线性核 0.5330.003 0.8160.002 0.8190.001 39

46、20 95% CLSVSM_K 0.5380.003 0.8140.002 0.8150.002 53398% CLSVSM_K 0.5320.0010.81700.8190748 的表示作为知识组织和知识发现必不可少的过程,可以充分挖掘资源之间及其内在的语义关联,语义关系揭示的越丰富,资源聚合和知识发现的效果就越好。因此,对数字图书馆资源知识表示的研究具有重要的意义,使其在体现语义信息的同时又占据较少的储存空间。本文以优化CLSVSM为出发点,提出了一种新的文本表示语义核模型(CLSVSM_K)。具体针对CLSVSM维度较高、计算复杂度较大等诸多问题,构建了CLSVSM的语义核。其构建原理是

47、基于潜在语义分析的思想,对特征词中的同义词进行了合并的同时又对共现矩阵进行了降维处理,大大降低了算法的复杂度,在数字文献资源上的实验结果表明该方法还具有良好的聚类效果,提高了文献资源主题聚合的精度。该语义核可作为一种新的模型应用于数字图书馆资源的主题聚合,该模型的应用将推进数字图书馆资源知识聚合,知识发现和知识优化的发展。此外,该模型也可以进一步推广应用到数字文献资源的检索和分类的领域。在今后的研究中我们将基于CLSVSM构建更优的核函数,使其能适用于多样化文本的聚类要求。 参 考 文 献 1 Salton G. A vector space model for automatic index

48、ingM. San Francisco: Morgan Kaufmann Publishers, 1997. 2 Wong S K M, Ziarko W, Wong P C N. Generalized vector spaces model in information retrievalC/ Proceedings of the 8th Annual International ACM SIGIR Conference on Research and Develop-ment in Information Retrieval. New York: ACM Press, 1985: 18- 25. 3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com