基于多核相关性挖掘的跨媒体检索研究-张文平.pdf-得力文库

资源描述

《基于多核相关性挖掘的跨媒体检索研究-张文平.pdf》由会员分享，可在线阅读，更多相关《基于多核相关性挖掘的跨媒体检索研究-张文平.pdf（49页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、!lllJllllIltflll JJIIllllf1lJIllflffllJI JllllIfY321 9308分类号工盟!14学校代码1 0 4 8 8学号型!j：坚!蝰!密级烈蓬弄峰拨夫哮硕士学位论文基于多核；：嗣关性挖掘的跨媒体检索研究学位申请人：张文平学科专业：一墼件王整一一指孕教师：张鸿答辩日期：一20170514万方数据A Dissertation Submitted in Partial Fulfillment of the Requirementsfor the Degree of Master in EngineeringResearch on Multiple

2、Kernel CorrelationMining for Cross-Media RetrievalMaster Candidate： WenPing ZhangMajor： -Supervisor：Software EngineeringProfZhangWuhan University of Science and TechnologyWuhan，Hubei 430081，PRChinaMay,2017万方数据蔑汉辩授大攀研究生学僦论文创凝性声明零大郑羹声骥：所璺交熬攀位论文楚本久在器缚攒簿下，独立进行磷究掰取褥的成祭群除了文牵既经渡鲷弓鼹羽内容壤褥会裕婿究蘩圊蹇威豹互俺努，本论文苓链禽链

3、何其德个入藏集体愁缀发囊壤撰黪过的佟赫畿爨。对本文的研究徽魄爨簧烫献酶个人翔缀锩，均跫巍文巾以鹱确方式搽稠尊申请学位论文岛潦辩蔫有不安之缝，本入承担一协翱美责任。疆究璧学位论文版粳使鼹授权声暖本谂文的研宠残暴归武汉科技大学所有，其研究蠹容不褥竣其它攀德的名义发滏。本人宠垒了解武汉科技犬攀露哭僳辫、使爝攀链谂文豹规定，溺慈学校僚蘩势翔寮荚部门按照藏波科技大学关予研究爱攀傻论文收添工作鼹藏定执簿)送交论文憋复印糌鞠激予敝本，兔资论文羧浚阂窝徽阕，鬻意渗校将零谂文韵垒部躐潞分国容壤入攀校歆诳豹疆家棚荚数掭摩避符羧索秘瓣终服务。论文襻纛螯名：攒簿毅耀蓊镐：万方数据摘要在互联网+时代，网络已成为人们日常

4、生活的常用信息获取渠道，网络上的多媒体数据呈现出爆炸式的增长，人们对信息的检索需求也日益增加，传统单一模式的多媒体检索己不能满足人们的需求。跨媒体检索正是在这种技术环境和数据需求的情况下被提出，并迅速成为计算机视觉和信息检索领域的研究热点。跨媒体检索来源于基于内容的多媒体检索研究。基于内容的多媒体检索大都是针对单一类型的多媒体数据，不支持多种类型数据间的跨越，而跨媒体检索的目标是综合处理多种类型的多媒体数据，形成对多媒体语义的整体理解，实现不同类型数据的综合检索。如何挖掘不同类型数据之间的内在联系，进而计算跨媒体数据间的相似度，是跨媒体检索要解决的关键问题。本文以典型相关性分析为基础，在保留不

5、同类型数据间的相关性的同时，将异构的特征映射至同构子空间中，使得异构特征具有了可比性。在此基础上，针对典型相关性分析对线性关系的依赖以及单核方法的缺点，提出基于多核相关性挖掘的跨媒体检索方法。在实验结果的分析中，采用查准率和查全率作为评价指标，验证了基于多核相关性挖掘的跨媒体检索方法的有效性和优越性，其跨媒体检索结果的准确率高于对比实验中传统的跨媒体检索方法。关键词：跨媒体检索；典型相关性分析；核函数；多核方法万方数据AbstractIn the era of Intemet plus，the network has become a common source ofinformation f

6、or peopleS daily lifeThe multidedia data on the network shows anexplosive growth，and peopleS demand for information is also increasingHowever,the traditional single mode of multimedia retrieval has been unable to meet the needsof peopleCrossmedia retrieval has been proposed in the context of this te

7、chnicalenvironment and data requirements，and has rapidly become a research hotspot in thefield of computer vision and information retrievalCrossmedia retrieval is based on the contentbased multimedia retrievalHoweveL the contentbased multimedia retrieval is mostly for single type ofmultimedia data，d

8、oes not support the mutual retrieval between a varity of types ofmultimedia dataBut the goal of crossmedia retrieval is to deal with various types ofmultimedia data，to form a comprehensive understanding of multimedia semantics，andto smoothly retrieval differents types of multimedia dataA key issue t

9、o be solved incrossmedia retrieval is that how to explore the internal relationship between differenttypes of data，and then to calculate the similarity between cross-media dataIn thispaper,based on Canonical Correlation Analysis，the underlying heterogeneity featuresare mapped to the new isomorphic s

10、ubspace，while the correlation between differenttypes of multimedia data is been maximumly reservedSimilarity of different types ofmultimedia data are comparable in this subspaceOn the basis of this，we proposes amethod of canonical correlation analysis based on multi kernel function to solve theprobl

11、em of the dependence of canonical correlation analysis on data linearity and thedifficulty of choosing kemel functionIn the evaluation of the experimental results，we use precision and recall as theevaluating indicatorExperimental results show that this method can not only achievegood performance，but

12、 also the accuracy is higher than other traditional cross-mediaretrieval algorithmsKeywords：crossmedia retrieval；canonical correlation analysis；kernel function；multi kernel functionII万方数据目录摘要一IABSTRACTII第1章绪论l11研究背景与意义112国内外研究现状213本文的主要工作314本文的结构安排421基于内容的多媒体检索522跨媒体检索7221跨媒体检索的定义7222跨媒体检索特性723跨媒体

13、检索相关研究8231跨媒体检索研究的挑战8232跨媒体检索研究的方法824本章小结9第3章异构特征间的典型相关性学习1031视听觉特征的提取与预处理10311图像特征的提取lO312音频特征的提取13313特征归一化15314 PCA降维一1632不同特征间的相关性分析17321典型相关性分析17322图像特征和音频特征之间的典型相关性分析18323子空间相似度计算一19324本方法的优缺点分析20111万方数据33本章小结20第4章基于多核相关性挖掘的跨媒体检索2l41核函数2l411核函数的定义21412核函数的分类2l42基于核函数的典型相关性分析2243多核学习方法一2444基于多核

14、相关性挖掘的跨媒体检索一2545本章小结27第5章实验结果和对比分析2851整体框架和流程2852跨媒体数据库2853实验结果对比与分析29531性能评价标准29532跨媒体检索结果对比分析3054本章小结一33第6章总结与展望3561总结3562展望36致谢37参考文献38附录1攻读硕士学位期间发表的论文41附录2攻读硕士学位期间参加的科研项目42IV万方数据武汉科技大学硕士学位论文11研究背景与意义第1章绪论在互联网+时代，计算机和互联网得到了极大的普及，网络已经成为人们日常生活中获取信息最主要的渠道，网络上的信息资源不仅数量上呈现出爆炸式的增加趋势，而且承载这些信息的载体形式也呈现出多样

15、化的趋势，如文本、图形图像、音视频和多维模型等，正在变得丰富多样化。多媒体信息已经从单一的文本表达发展为文本、图像和音视频等更加多样化的表达，这些不同形式的信息载体可以从不同角度对同一种多媒体语义进行描述。多媒体数据数量增长的海量化和信息载体形式的多样化，使得人们不仅对信息的检索需求日益增加，还对检索结果类型的多样化也有所需求。同时，科学研究表明，同时接收视觉、听觉等不同感觉器官提供的信息会让大脑更加活跃，更好地理解外部事物。所以，跨媒体检索在现实生活中有着很高的理论研究意义和实际应用意义，并且自提出以来已经迅速成为多媒体检索领域中的一个研究热点。基于文本的多媒体检索技术【11，是先对多媒体资

16、源建立关键词等文本描述信息，然后通过关键词匹配检索出人们所需资源的一种技术。然而随着多媒体资源的急速增多和多样化，这种方式已经越来越不能适应网络信息检索的要求了，不仅费时费力，而且人工标注的关键字信息的过程带有很强的主观性，难以完全准确地反应多媒体所要表达的信息内容，最终导致差强人意的检索结果。二十世纪六十年代，在图像检索领域，研究学者首先提出了基于内容检索的技术【2J，并由此衍生出基于内容的文本、音频、视频等检索技术f3】【41。基于内容的多媒体检索技术克服了费时费力和带有主观性的缺点，在确定了特征提取算法后，它可以在无人工干预的情况下由计算机直接对多媒体的内容进行分析，提取所需特征，这些内

17、容特征可以用来度量多媒体之间的相似度。利用内容特征计算多媒体之间的相似性，并以相似性为依据进行检索，大大提高了海量数据库的检索速度，并且在人工标注的情况下检索结果也具有很强的客观性。常用的特征有，图像的颜色、纹理和形状等；视频的镜头、场景和镜头的运动等；声音中的音调，响度，音色等。虽然基于内容的多媒体检索技术取得了很大的进步，但是也有其不足之处，它主要针对的是单模态检索，是对类型单一的多媒体数据库进行检索。然而，互联网上信息的载体形式越来越多样化，这些不同类型多媒体数据更加紧密混合在一起，共同描述着某种语义，如何实现这些不同数据间的相互检索已经成为一个前沿的研究课题。万方数据武汉科技大学硕士学

18、位论文一祷媒体检索，是用某一种或多种多媒体类型为检索实例，检索出具有相同语义而信息载体形式不同的多媒体文件的一种新兴技术，它使多媒体检索技术从只能在单一媒体类型中进行检索的检索形式，变成了能在各种媒体类型中进行相互检索的新形式。12国内外研究现状互联网多媒体数据数量增长的海量化和信息载体形式的多样化，以及人们对检索结果的多样化需求，促进了跨媒体检索的研究的提出和发展，跨媒体检索是一个比较新的研究方向。跨媒体检索在提出后，迅速吸引了很多国内外学者的关注和研究，也有不少的研究成果在国内外得到了发表。国内最早于2005年提出跨媒体检索，是复旦大学薛向阳的论文【5J，该文简要分析了跨媒体检索与传统检索

19、之间的关系与区别，提出了跨媒体检索的基本概念。随后，国内的研究机构和学者，以及相关的研究成果逐年递增。文献6】就图片和文本之间的跨媒体检索展开了研究，提出了基于潜语义主题加强的跨媒体检索算法(LSTR)，先是利用LDA模型构造文本语义空间和以词袋模型来描述图像；然后对图像和文本进行分类，用得到的的后验概率表示文本和图像的潜语义主题；最后利用文本潜语义主题去正则化图像的潜语义主题，加强图像的潜语义的同时最大化文本和图像之间的语义关联；文献7就地理标注图片和文本之间的跨媒体问题进行了研究，提出的面向地理标注图片和文本的跨媒体表示模型。此外，国家自然科学基金发布的“视听觉信息的认知计算”研究计划项目

20、指南中也关注了跨媒体检索这一研究问题，而且越来越多的以“跨媒体相关研究”作为课题的国家自然科学基金项目获得了立项，其中浙江大学和中科院自动化研究所获得了最多的立项项目，它们也都是国内比较早开始关注跨媒体检索的机构。跨媒体检索研究课题在国外同样吸引了不少研究者进行研究。2004年，Lux、Granitzer和Kienreich(8】在首个关于跨媒体检索技术的论文中详细阐述了相关的概念。随后，在计算机、互联网和多媒体等权威国际会议上，越来越多跨媒体检索的相关研究成果得到了发表，也吸引了越来越多学者的目光。文献【9提出了一种可以自动学习潜在的语义词汇、以数据为驱动的跨媒体检索方法，自动从多媒体收藏中

21、发现词汇概念及其注释，而不需要人工标注；文献10】提出了一种应用于个人媒体的跨媒体检索方法，它主要是基于Ontology的。传媒一体化与合作化是未来信息发展的趋势和方向，跨媒体传播正是这种趋势和方向的外部表象。许多传媒行业的巨头，如国外的BBC、新闻集团(NewsCorporation)、时代华纳(Time Warner Inc)矛n国内的上海广播电视(SMG)等，它们是跨媒体传播最早的实践者和受益者。上海广播电视经过几年的网络化和数字化改2万方数据武汉科技大学硕士学位论文造，已经建成了广播媒资系统、信息管理系统、图书图片管理系统等一系列管理系统。经过几年的使用，人们发现不同的内容要通过不同的

22、系统进行查找，比较繁琐。于是，SMG又进行建设，为所有系统提供了统一的检索入口。这样不仅整合了资源，提高了检索效率，也方便了内容和信息的查询【111。本文以典型相关性分析为基础，在分析了典型相关性分析算法和核典型相关性分析算法的缺点后提出了基于多核相关性挖掘的跨媒体检索研究算法，不仅克服了典型相关性对数据的线性关系有依赖的缺点，还进一步对核典型相关性分析作了优化，解决了核函数和核函数参数选择困难的问题，消除了单核方法导致的局限性，适用性不是很强的缺点。本文算法整体表现更优，适用性更广，更灵活，检索结果的准确度也更高。13本文的主要工作本文主要就如何在异构的图像视觉特征和音频听觉特征之间实现跨媒

23、体检索展开了研究，通过分析图像和音频媒体之间的潜在关联，度量它们之间的相关性，实现图像和音频之间的相互检索。针对跨媒体检索中的不同类型多媒体之间特征异构性问题，本文以典型相关性分析为基础，对异构的两种特征进行了分析与相关性挖掘，以最大程度保留视觉和听觉特征空间之间的相关性为准则，将异构的特征映射到同构的特征子空间，最后对子空间的复数进行极值坐标化后使难以直接进行相似度计算的异构特征之间在同一子空间中可以方便地计算相似度了。为了消除典型相关性分析算法是基于假定线性空间的这一缺点，引入了核函数，进一步分析了基于单核函数的典型相关性分析，最终提出了本文算法：基于多核相关性挖掘的跨媒体检索算法。主要的

24、内容归纳为如下几个方面：(1)多媒体的预处理对图像和音频数据进行特征提取分析，并对提取到的特征进行统一降维和归一化处理，避免了不同特征之间采用不同量纲而带来的特征数值差异，同时也解决了不同时长音频提取的特征维度不一致的问题；(2)异构特征间相似性分析与挖掘以典型相关性分析为基础，对图像和音频特征进行了分析与相关性挖掘，以最大程度保留原特征之间的相关性为准则，将异构的特征映射到同构的特征子空间，最后对子空间的复数进行极值坐标化后使难以直接进行相似度计算的异构特征之间在同一子空间中可以方便地计算相似度了；(3)核函数的引入及多核优化为了消除典型相关性分析算法是基于假定线性空间的这一缺点，引入了核函

25、气万方数据武汉科技大学硕士学位论文数。然后进一步分析基于单核函数的典型相关性分析算法的优缺点，提出了多核优化的基于多核的典型相关性分析算法；(4)系统的构建及实验结果分析在实践上，通过MATLAB以及一些开源的工具箱或者函数库实现基本算法，并进行实验结果分析。14本文的结构安排本文分为六个章节，文章的整体组织结构以及每章节的具体安排如下：第一章：绪论。本章主要介绍了跨媒体检索的研究背景和意义，国内外跨媒体检索的研究现状，同时介绍了本文的主要研究内容。第二章：在分析了基于内容的多媒体检索技术的优缺点之后，提出了跨媒体检索的出现意义、相关概念和研究目标；随后阐明跨媒体检索的研究难度，总结了现有的跨

26、媒体检索的相关工作，并分析了这些方法的特点及局限性。第三章：介绍了图像和音频内容特征的提取和及两种特征的预处理方法，分析了它们在底层内容特征上相关性计算的问题。以典型相关性分析为基础，研究了视觉特征和听觉特征在统计上的潜在相关性，将异构特征映射到同构子空间的同时最大程度保留了它们之间的相关关系，在同构子空间中可以方便地使用距离度量函数来计算跨媒体之间的相似度。第四章：分析了典型相关性分析的不足，介绍了核函数的概念、作用以及常用的一些核函数，从而提出了改进的基于核函数的典型相关性分析。在此基础上，进一步分析了单核方法的不足，介绍了多核方法，提出了基于多核相关性挖掘的跨媒体检索研究。第五章：系统实

27、现和系统的实验结果分析。本章首先介绍了关性挖掘的跨媒体检索的系统框架和流程，然后对本文提出的算法在数据集上进行了实验验证，并与其它一些跨媒体检索方法进行了对比，分析了不同算法的查全率和查准率。第六章：总结和展望。本章对基于多核相关性挖掘的跨媒体检索研究工作进行了总结，分析了研究的进步意义和不足之处，并对未来的工作进行了展望。4万方数据武汉科技大学硕士学位论文第2章跨媒体检索相关研究概述21基于内容的多媒体检索20世纪70年代开始，对多媒体的检索主要通过人工对多媒体进行关键字信息的文字标注，然后利用关键字的文本检索实现查找。然而随着多媒体资源的急速增多和多样化，这种方式已经越来越不能满足人们检索

28、的要求了，不仅费时费力，而且人工标注过程往往带有标注着自己的理解，标注着的主观性理解难以完全准确地反应多媒体所要表达的信息内容，最终导致检索可能出现较大误差，甚至不是人们所期待的结果。到了90年代，随着大规模多媒体数据集不断出现，有学者提出了基于内容的检索(Content Based Retrieval，CBR)技术。基于内容的检索技术是根据多媒体对象的内容特征进行检索的一种技术。其研究目标，是在没有人工标注的情况下，实现多媒体的理解、识别和检索。多媒体的内容特征有很多，如图像中的颜色、纹理、形状12】和SIFT、SURF等，音频中的短时平均能量、过零率、熵特征【13】，视频中的镜头、场景和镜

29、头的运动【14】等。基于内容的多媒体检索技克服了人工标注带有主观性的缺点，它可以直接对多媒体的内容进行分析，提取可以用来度量多媒体之间相似性的内容特征，利用这些内容特征建立索引并进行检索，大大提高了海量数据的检索速度和难度。与传统多媒体的检索方法相比，基于内容的检索技术有如下几种特点【l副：(1)直接对多媒体内容中进行分析基于内容的检索技术克服了于基于文本检索技术的缺点和局限，它可直接对图像和音视频等多媒体对象的内容进行分析，从中提取用来相似度计算的特征，利用这些特征来实现多媒体多媒体相似性的度量和检索。整个检索过程中很少受到人们主观意念的影响，多媒体数据的特征提取是由计算机自动完成，避免了人

30、工标注过程中，标注者自己主观性和不准确的理解所可能造成的检索不确定性。(2)基于内容的检索是一种相似性检索基于文本的检索是采用关键字的精确匹配来进行检索的不同，而基于内容的检索使用的近似匹配技术，得到的检索结果往往是不确定的。但是相同的多媒体对象有不同的表现形式，而且内容丰富，相关性比较强，采用近似匹配的方法来获得查询和检索结果，可以避免因采用基于文本检索的缺点所带来的不确定性。(3)采用示例查询方式若是某个多媒体对象所表达的内容很难使用文字对其进行描述时，基于文本的检索技术就派不上用场了。而使用基于内容的检索技术则可以直接使用某一具5万方数据武汉科技大学硕士学位论文体实例进行检索，还可以根据

31、检索结果不断修改实例最终查到理想目标。(4)大型数据库的快速检索采用基于内容的检索技术来对拥有海量数据的大型数据库进行检索时，省去了人工标注的工作，在工作量和检索速度方面都要远远优于基于文本的检索技术。(5)能满足多层次的检索要求多媒体信息本身具有的层次性要求基于内容的检索能满足多层次的检索要求，这是区别于基于本文检索的最重要的特性。基于内容的检索系统中包含三个库：媒体库用来存放多媒体文件；特征库用来存放对多媒体文件提取的特征以及用户检索所需要输入的特征；知识库用来存放专门的优于加速和优化检索过程的综合性知识。三个库共同作用可以满足这种多层次的检索要求。如图21，是一个典型的基于内容的检索技术

32、的体系结构，整个体系结构可以划分为特征提取和查询两个子系统【l副。在特征提取子系统中，采用某种特征提取算法对多媒体文件进行分析和提取特征，提取后的特征也可以进行归一化和降维等预处理，处理好的特征整合构成特征库，用于查询时度量多媒体文件之间的相似性。在查询子系统中，用户提交多媒体文件的特征信息，然后和特征信息库中的特征进行相似性匹配，根据相似性的大小返回最终的查找结果。一一一。一一一一一一一l。”“”+。知识辅助I一|匮圈虱圃i一一一一一一一：一一一一一一，一一一i特征提取子系统查询子系统图21 CBR的体系结构6万方数据武汉科技大学硕士学位论文22跨媒体检索221跨媒体检索的定义在当今社会，

33、网络的普及率已经达到了空前的规模，网络已经完全深入融合到了人们的日常生活，成为了人们获取信息最主要的渠道。互联网多媒体信息不仅在数量上急速增加，而且信息载体的形式也在变得多样化，己由当初的文本扩展为现在的文本、图像、音视频和高维模型等。人们的信息检索需求在不断增加的同时对信息检索结果形式的多样性也开始有所需求，单一形式的传播媒介已经越来越不能满足人们对信息的需求。但是，现如今普遍使用的多媒体检索技术无法满足人们对信息检索的新需求，在这种条件背景下，一种新的多媒体检索技术被提出，即，跨媒体检索(CrossMedia Retrieval)17】【18】【19】。跨媒体检索是用户以某一种或者多种类型

34、的多媒体对象去检索其他语义相同，但是类型不同的多媒体对象，在检索过程中能够不局限于同一类型的多媒体数据，它使多媒体检索技术从只能在单一媒体类型中进行检索的检索形式，变成了能在各种媒体类型中进行相互检索的新形式。222跨媒体检索特性当前，多媒体信息数据的表达形式不断丰富多样化，网络上的信息以文本、图像图片、音视频等多种形式来承载，这些从不同类型的多媒体数据紧密地结合在一起，以一种新的形式，更加生动形象地表示综合性知识，这一种新的媒体表现形式成为“跨媒体(CrossMedia)”。跨媒体表现出如下几个基本特性：(1)类型各异的多媒体数据混合并存。网页信息的表达趋向于更加多样化的媒体形式，一般同时使

35、用了多种不同类型的多媒体表现形式，例如：图像、文字、音频和视频等；(2)不同类型的多媒体可以从不同方面描述同一种语义。例如，文本可以对大象的体型、大小、叫声等进行描写，图像可以更直观地给出大象的视觉特征，音频也可以很直观感受大象的叫声；(3)丰富的表达和呈现能力。与人脑通过不同感觉器官来获取对外界的认知一样，通过跨媒体形式，能更加自然、形象地了解客观世界及其包含的知识。人的大脑同样也具有跨媒体特性。人类对外界的认知是通过多种不同的感觉器官综合作用来形成的，本质上，人脑可以理解成一个跨媒体系统，人脑需要处理的不同感觉器官获取的各种信息，这些不同的信息就具有跨媒体特性。现代认知科学和神经系统科学的

36、相关研究表明，人脑的认知过程是具有跨媒体特性的。“麦格克效应”(McGurk effect)20】表明人类在感知过程中听觉和视觉是相互作用的，视觉能影响听觉造成“误听现象。人脑对外界事物形成认知，需要综合处7万方数据武汉科技大学硕士学位论文理视觉、听觉、味觉和触觉等多种感觉器官提供的信息，任何感觉器官信息的缺乏或不准确都将会导致对外界事物的认知产生偏差。后续的相关研究也表明，人脑的生理组织结构决定了其跨媒体特性，同时提供视觉和听觉等多种感知信息会让大脑产生更明显的物理反应，从而帮人更好地理解外部事物。人脑进行联想的过程也可以看成是一个跨媒体检索的过程。当人们看到狗的图片时，会联想到狗的叫声；听

37、到狗的叫声，就会联想到狗的样子；看到梅子时，就会想到酸味。跨媒体研究是符合人类大脑感知过程的，不但可以提供更加灵活高效、更加符合人脑认知特性的网络信息检索服务，更是计算机向人脑功能的一种延伸。23跨媒体检索相关研究231跨媒体检索研究的挑战基于内容的多媒体检索大都是针对单一类型的多媒体数据库，只需要对一种类型的多媒体进行特征提取，相似度的计算也只限于一种类型的特征。然而，跨媒体检索是针对多种不同类型的数据库，不仅需要对所有类型的多媒体提取特征，还需要对不同种类多媒体的数据特征计算相似度，复杂性更高。不同类型的多媒体数据特征通常是异构的，不但维数不同，而且具有不同属性，例如，一个600维的猴子图

38、像特征向量和一个650维的猴子叫声音频特征向量，两者都表达了“猴子”这个语义概念。这种异构性使得难以直接对原始的多媒体特征进行相关度的计算。232跨媒体检索研究的方法目前，实现跨媒体检索的主要方法有如下几种：(1) 辅助空间法通常是将异构的特征空间映射到一个同构的特征空间，同构的特征空间中特征之间的相似性可以看作是多媒体对象之间的相关性，其中具有代表性的方法就是典型相关性分析21】【22】，把异构特征向量映射到同构子空间中的同时还能保留原始特征之间的相关关系。核典型相关性分析是一种对典型相关性进行了核函数优化的方法，它克服了典型相关性分析在非高斯分布或者不是近似椭球对称分布数据上不能正确描述数

39、据之间的空间分布关系的缺点；(2) 知识库法知识库法需要像基于文本的检索那样对多媒体对象的语义信息进行人工标注，然后结合“词袋”或者其他模型【23】为多媒体对象的语义信息建立知识库，检索时需要借助知识库的桥梁作用来实现多媒体类型的跨越。文献24】分析了数字R万方数据武汉科技大学硕士学位论文图书馆中的多媒体对象，为不同类型的多媒体分别建立语义信息索引，通过语义信息索引来达到跨媒体检索的目的。这种方法可以看成是一种变相的基于文本的检索，同样拥有费时费力以及缺乏客观性的缺点和局限性；(3) 基于机器学习、神经网络法神经网络一直是人工智能领域的研究热点，随着深度神经网络概念的提出和应用，更是让神经网络

40、方法在模式识别和多媒体检索等许多领域取得了很大的进展，有些学者开始将神经网络方法引入到跨媒体检索中，并做了很多相关研究(25】。此类方法的缺点是计算量较大，尤其是使用深度神经网络时，一般的计算机难以支撑其计算量，而且实现过程比较复杂；(4) 基于Ontology方法Ontology是从哲学领域演变到计算机领域的，在人工智能中被赋予了新的含义。Ontology26】的目的是捕获和组织知识，通过描述概念和概念间的关系来描述概念的语义。在多媒体检索过程中，将多媒体对象的特征与Ontology存储的语义信息进行综合处理，可以达到跨媒体检索的目的。24本章小结本章内容主要是对跨媒体检索研究的概述。首先对

41、基于内容的多媒体检索技术作了介绍，分析了其发展起源，详细介绍了其和传统的检索方法相比不同的几大特点和构成其检索系统两种子系统：特征提取子系统和查询子系统。然后分析了基于内容的多媒体检索技术的不足，介绍了跨媒体检索技术提出背景和研究意义，并对跨媒体检索的基本概念、基本思想和特性进行了介绍，阐述了人脑的跨媒体特性和跨媒体检索的挑战及相关研究，同时归纳了跨媒体检索技术常用的几种方法，并对这几种方法的优缺点和适用情况作了简单分析。9万方数据武汉科技大学硕士学位论文第3章异构特征间的典型相关性学习31视听觉特征的提取与预处理特征的提取是基于内容的多媒体检索的核心，也是跨媒体检索的基础，好的特征能提高检索

42、的正确性，特征的好坏决定了检索效果的优劣。因此，选择合适的特征是实现精确检索的前提。本小节将会就图片和音频的特征提取作介绍。311图像特征的提取图像特征作为图像内容的描述，从不同的描述角度出发可以提取不同的特征，图像的特征有很多种。每一幅图像都有区别于其他类图像的自身特征，这是图像检索的依据，不同的图像特征也从不同的角度描述图像的内容。其中，最基础和使用的最多的图像视觉特征包括颜色、形状和纹理等几种，下面将简要介绍颜色特征、形状特征和纹理特征。(1) 颜色特征颜色是一种全局特征，用于比较两幅图像的全局差，不能很好地体现图像的局部特征。同时颜色也是可以直观感受到的视觉特征，广泛应用于基于内容的图

43、像检索中。颜色特征的提取无需复杂的计算，而且颜色具有很好的直观性，这使得颜色特征成为一个较好的特征。颜色直方图(color histogram)27】是被广泛应用的颜色特征，描述了图像中颜色的组成分布。颜色直方图是图像中颜色的统计结果，并不关注像素点的空间位置。对于给定的图像，kyl，它的颜色直方图可以由下式给出：萎群篡聊 I：二办(m)=业(3一1)其中，兄y分别为图像的宽度和高度。颜色直方图不受图像的评议、旋转和缩放等物理变化的影响。(2) 形状特征形状是人类进行物体识别时所需要的关键信息之一，也是对图像中感兴趣目标的描述。不同种类的两个物体，可能颜色是相同的而形状是不同的，这个时候10万

44、方数据武汉科技大学硕士学位论文使用颜色来检索就会出现错误，所以基于形状的多媒体检索技术也是不可或缺的。图像形状特征提取的基础是目标或区域的分割。形状特征的提取一般有两种方法，一种是基于区域的对图像分割，得到的每个区域都可以看成是一个或一种物体；另一种方法是基于轮廓的，利用形状的外部边缘提取边缘点，连接这些边缘点得到的曲线就是所提取的形状。前者提取的特征关系到整个感兴趣的目标区域，而后者提取的特征是目标区域的外边界。图像中物体的形状有如下特点：其尺寸大小不是统一的；其方向不是一致的；在图像中的相对位置不是己知的。因此，合适的特征参数的值应满足不收变换、旋转和缩放这三个因素的影响，这样才能在检索中进行较好的匹配。事实上，只要不受其中某一个因素的影响就可以选作为特征参数。常用的基于空间域的描述子有链码、周长、斜率和曲率等；基于变换域的描述中有傅里叶描述子和小波轮廓描述子。(3)纹理特征纹理特征也是图像的全局特征。纹理是灰度在空间中规律变换产生的图案，具有一定的周期性，纹理特征描述像素的邻域灰度空间分布规律。很多学者都对纹理特征有过研究，纹理特征的提取方法也多

展开阅读全文