天津大学本科生毕业设计方案(专业论文)标准规定模板.doc-得力文库

资源描述

《天津大学本科生毕业设计方案(专业论文)标准规定模板.doc》由会员分享，可在线阅读，更多相关《天津大学本科生毕业设计方案(专业论文)标准规定模板.doc（63页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、,毕业设计（论文）说明书学院专业年级姓名指导教师年月日毕业设计（论文）任务书题目：图像检索系统的设计与实现学生姓名王超学院名称软件学院专业软件工程学号 3007218015 指导教师于永新职称讲师 1、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）随着互联网的飞速发展，网络上的图片信息呈爆炸式增长，这使得人们在网上找到所需的图片越来越困难，图片检索技术成为当今非常热门的研究话题。图像检索一直是信息检索领域的一个主流问题，涉及到图像处理、图像分割、模式识别及机器学习等多个方面。检索的智能化和自动化是图像检索的目标。目前主流的

2、图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收集和加工图像资源，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值的记录作为结果，按照相似度降序的方式输出。而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。网络爬虫程序就是用来搜集网页和图片的程序。本文的研究重点在于使用网络爬虫框架Heritrix进行

3、扩展，从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。完成上述工作后，再将图片的目录位置和提取的信息存入数据库。并建立一个图片检索系统的Web工程，实现检索功能。开发语言为Java, 开发工具为MyEclipse和MySQL及Tomcat.2、参考文献1 Ritendra Datta, Dhiraj Joshi, Jia Li et al. Image Retrieval: Ideas, Influences, and Trends of the New AgeJ.ACM Comput. Surv. 40, 2, Article 5 .April 2008

4、.2 李晓明，闫宏飞，王继民. 搜索引擎-原理,技术与系统M.北京：科学出版社,2004.3 马自萍.形状和颜色特征的混合图像检索D.银川：北方民族大学,2010.7.4 陈剑雄，张蓓简析图像检索中的CBIR技术J.情报探索（第7期）,2010.7.5 Rafael C.Gonzalez and Richard E.WoodsDigital Image Processing Second Edition MPrentice Hall, 2003-36 沈兰荪，张箐，李晓光。图像检索与压缩域处理技术的研究M.北京：人名邮电出版社,2008.12.7 周明全，耿国华，韦娜.基于内容图像检索技术M.

5、北京：清华大学出版社，2007.7.8 李向阳, 庄越挺, 潘云鹤. 基于内容的图像检索技术与系统J. 计算机研究与发展 2001年第3期. 9 安志勇.基于内容的图像检索关键技术的研究D.西安：西安电子科技大学，2008.10 李伟，黄颖。基于HTMLParser的网页信息提取J .兵工自动化(第7期)，2007，7. 3、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）1. 系统学习 Java 编程语言，熟练掌握Java语言的基本思想和相关的编程技术。2. 学习并掌握机器学习、数据库常用技术，JSP，图像处理等相关技术。3. 学习并掌握

6、项目开发用到的相关工具及软件的使用。4. 了解图像检索的原理，发展，意义及用途，及图像检索系统的设计思路。5. 了解网络爬虫的原理及工作流程，充分阅读Heritrix的开放源代码，会利用Heritrix从网上爬图片存入数据库。6. 掌握正则表达式及HTMLParser等网页分析方法，了解网页信息提取策略、7. 完成图像检索系统的设计和代码开发8. 对该系统进行充分的测试，并完善开发9. 总结开发过程中所遇到的问题和心得体会指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称图像检索系统的设计与实现学院名称软件学院专业名称软件工程学生姓名王超指

7、导教师于永新1、课题的来源及意义随着互联网的飞速发展，图像信息应用越来越广泛,人们对图形、图像等多媒体数据的需求也越来越强烈。网络上的图片信息呈爆炸式增长，这使得人们在网上找到所需的图片越来越困难，图片检索技术成为当今非常热门的研究话题。2、国内外发展状况从20世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像检索技术（Text-based Image Retrieval，简称TBIR），利用文本描述的方式描述图像的特征，如绘画作品的作者、年代、流派、尺寸等。到90年代以后，出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像

8、检索(Content-based Image Retrieval，简称CBIR）技术。基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找，以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息，因此，基于内容的图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统，如由IBM公司开发的最早商业化QBIC系统，以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的

9、特征嵌入在具有文本内容的Web文档中，出现了三个不同的研究着眼点。立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不

10、过，基于内容的图像检索建立在多媒体信息的内容语义上，能够更为客观地反映媒体本质的特征。结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在Web文档的特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。下一代搜索技术：20072009年:具有联想技术和分析功能的搜索服务逐渐兴起。在这一时期，语义搜索还没有广泛普及，带有分析功能的搜索服务开始崭露头角，尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛

11、关注。通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析，可以为企业的市场运营提供更多有益的参考。20102012年:语义搜索和感性搜索技术将逐渐兴起。将语义搜索用于特定领域或对象时，可以达到高度适合率和再现率，这一结论已经得到实际验证。由于有生物学验证这一技术作基础，对于感性搜索来说，提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。2013年以后:阶梯式搜索方法将投入使用。帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。技术趋势:在互联网时代，包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长，搜索技术显得越

12、来越重要。以往，搜索服务都是依据输入的关键字，列出符合关键字的信息。未来，全新的搜索服务模式将出现。3、研究目标，内容研究目标：1. 了解图像检索，网络爬虫等相关技术及发展潮流。2. 综合运用机器学习，JSP，数据库，图像处理，网络爬虫等相关技术完成一个BS架构的的图像检索系统的实现。研究的内容主要有：1. 利用网络爬虫Heritrix进行网页图片爬取，2. 利用正则表达式和HTMLParser进行网页分析和信息提取3. 运用JSP,数据库，strust2，Hibernate等技术实现图像检索系统。4、研究方法，手段1. 基础知识和开发工具的学习：掌握Java,JSP，数据库，图像处理

13、等相关知识。掌握MyEclipse和MySQL的使用.2. 理解开源爬虫Heritrix的架构和运行机制，学会扩展和定制自己的Heritrix.3. 掌握HTMLParser和正则表达式等网页信息提取方法4. 运用开发工具完成界面设计和系统的架构设计，并实现具体的框架结构代码。5. 对系统进行测试并改进完善。5、实验方案的可行性分析和已具备的实验条件随着图像检索技术的发展，目前已有不少应用于实践环境的图像检索系统。在实践上具有参考性。Heritrix网络爬虫框架在经过多年的丰富更新后更加稳定和有效。网页分析和信息提取技术也是热门的研究话题，为实验原理提供基础为算法的编写提供可行性证明。掌握相

14、关技术知识后运用MyEclipse和MySQL工具即可进行开发。开发平台稳定且功能强大，工具的开发与设计均是可行的。6、进度安排 2011年1月20日-2011年2月10日阅读图像检索相关资料，初步了解图像检索的原理意义和用途； 2011年2月11日-2011年3月5 日完成开题报告，并深入学习实现一个图像检索系统的知识； 2011年3月 6日-2011年4月20日完成网页的爬取及信息提取和检索系统的初步开发； 2011年4月21日-2011年5月25日完善该系统并测设改进，完成毕业设计论文初稿； 2011年5月26日-2011年6月15日跟据导师意见认真修改，校对论文初

15、稿，最后完成论文； 2011年6月16日-2011年6月21日准备毕业论文答辩； 7、参考文献1 Ritendra Datta, Dhiraj Joshi, Jia Li et al. Image Retrieval: Ideas, Influences, and Trends of the New AgeJ.ACM Comput. Surv. 40, 2, Article 5 .April 2008.2 李晓明，闫宏飞，王继民. 搜索引擎-原理,技术与系统M.北京：科学出版社,2004.3 马自萍.形状和颜色特征的混合图像检索D.银川：北方民族大学,2010.7.4 陈剑雄，张蓓简析图像

16、检索中的CBIR技术J.情报探索（第7期）,2010.7.5 邱哲，符滔滔，王学松开发自己的搜索引擎Lucene + HeritrixM.北京：人民邮电出版社,2010-016 李刚.轻量级J2EE企业应用实战M.北京：电子工业出版社,2008.11.7 周明全，耿国华，韦娜.基于内容图像检索技术M.北京：清华大学出版社，2007.7.8 沈兰荪，张箐，李晓光。图像检索与压缩域处理技术的研究M.北京：人名邮电出版社,2008.12.9 李向阳, 庄越挺, 潘云鹤. 基于内容的图像检索技术与系统J. 计算机研究与发展 2001年第3期. 10 安志勇.基于内容的图像检索关键技术的研究D.西安：

17、西安电子科技大学，2008.11 李伟，黄颖。基于HTMLParser的网页信息提取J .兵工自动化(第7期)，2007，7.选题是否合适：是否课题能否实现：能不能指导教师（签字）年月日选题是否合适：是否课题能否实现：能不能审题小组组长（签字）年月日摘要随着互联网的飞速发展，网络上的图片信息呈爆炸式增长，这使得人们在网上找到所需的图片越来越困难，图片检索技术成为当今非常热门的研究话题。而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。网络爬虫程序就是用来搜集网页和图片的程序。本文的研究重点在于使用网络爬虫框架Heritrix进行扩展，从网络上下载所需网页及

18、图片并利用HTMLParser进行网页分析和图片相关信息提取。完成上述工作后，再将图片的目录位置和提取的信息存入数据库。并建立一个图片检索系统的Web工程，实现检索功能。开发语言为Java, 开发工具为MyEclipse和MySQL及Tomcat.关键词：图像检索，网络爬虫，Heritrix, HTMLParser, 网页信息提取ABSTRACTWith the rapid development of network information on the explosive growth of images, which makes it on the Internet more and m

19、ore difficult to find the images, image search technology become a very hot research topic. The collection of images and indexing for image retrieval is a very important aspect. Web crawler is used to collect Web pages and pictures of the program.This study focuses on using the Heritrix Web crawler

20、framework to extend, from the Internet and download web pages and images for web use HTMLParser information extraction and image analysis. After completion of the work, then the image directory location and the extracted information into a database. And a picture retrieval system for Web projects, t

21、o achieve search function. Development language for Java, and MySQL development tools for the MyEclipse and Tomcat.Keywords: image retrieval, web crawler, Heritrix, HTMLParser, Web information extraction目录第1章文献综述1 1.1 图像检索的研究意义1 1.2 图像检索的国内外发展状况1 1.3 网络爬虫技术在搜索引擎中的应用3 1.4 网页分析和信息提取技术4 1.5 本文的研究重点，系统

22、结构和内容 5 第2章 Heritrix应用开发扩展7 2.1 Heritrix简介7 2.1 Heritrix抓取策略及改进 9 2.3 Heritrix抓取过程 102.3 网页爬结果 13 第三章HTMLParser图片相关信息提取14 3.1 HTMLParser简介14 3.2 图片信息提取策略 14 3.3 图片信息提取的实现方法15 3.4 实验提取结果 17 第四章图像检索系统的搭建18 4.1 数据库的建立 18 4.2 系统的实现框架和结构21 4.3 检索结果展示 23 第五章总结和展望 25 参考文献 26 附录 27外文资料中文译文致谢,第1章文献综述1.1 图

23、像检索的研究意义为了解决上述问题，定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。图像检索一直是信息检索领域的一个主流问题，涉及到图像处理、图像分割、模式识别及机器学习等多个方面。检索的智能化和自动化是图像检索的目标。目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方面：一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收集和加工图像资源

24、，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值的记录作为结果，按照相似度降序的方式输出。 1.2 图像检索的国内外发展状况从20世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像检索技术（Text-based Image Retrieval，简称TBIR），利用文本描述的方式描述图像的特征，如绘画作品的作者、年代、流派、尺寸等。到90年代以后，出现了对图像的内容语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图像检索(Content-based Image R

25、etrieval，简称CBIR）技术。基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找，以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息，因此，基于内容的图像检索在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统，如由IBM公司开发的最早商业化QBIC系统，以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而言，尤其结合网络环境下图像的特征嵌入在具有文本内容的Web文档中，出现了三个不

26、同的研究着眼点。立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上，因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对网络上日新月异的各类图像。立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒体信息的内容语义上

27、，能够更为客观地反映媒体本质的特征。结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现，尤其是网络环境下，结合图像所在Web文档的特征分析，推断图像的特征，同时结合对图像的内容分析，共同标引达到对图像的分析和检索。可以说，三个方向都是相互影响和促进的，任何一个方向的进展都会促进图像检索技术向前更进一步。下一代搜索技术：20072009年:具有联想技术和分析功能的搜索服务逐渐兴起。在这一时期，语义搜索还没有广泛普及，带有分析功能的搜索服务开始崭露头角，尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛关注。通过对博客及SNS等媒体公布的有关公司产品或

28、宣传活动的评测进行即时分析，可以为企业的市场运营提供更多有益的参考。20102012年:语义搜索和感性搜索技术将逐渐兴起。将语义搜索用于特定领域或对象时，可以达到高度适合率和再现率，这一结论已经得到实际验证。由于有生物学验证这一技术作基础，对于感性搜索来说，提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。2013年以后:阶梯式搜索方法将投入使用。帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。技术趋势:在互联网时代，包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长，搜索技术显得越来越重要。以往，搜索服务都是依据输入的关键字，列出

29、符合关键字的信息。未来，全新的搜索服务模式将出现。搜索技术的评测指标主要有两种：适合率和再现率。适合率指搜索结果中符合要求的数据比例，可以通过减少非适合数据提高这一比例。再现率指在所有应该列出的适合数据中，实际检索出的适合数据所占的比例，可以通过减少检索遗漏提高这一比例。未来，搜索技术将朝着三个方向发展：包括联想在内的语义搜索，检索图像、语音、动画内容的感性搜索，通过传感技术搜索现实世界对象的现实挖掘。2008年8 月，微软收购了一家语义搜索服务商Powerset。微软目前正式推出的新型搜索引擎Bing就整合了Powerset的语义搜索技术。CNNIC 2009年3月公布的调查报告显示，对搜索

30、结果不满意的网友比例为35%，40%的用户会在第一次键入关键词的基础上修正关键词，72%的用户认为搜索结果非常凌乱。用户如果想在互联网海量信息中快速、简便地寻找到自己想要的信息而不受干扰，需要搜索技术对检索者的想法进行臆测。目前，人们看到的搜索结果都是参考文献，而不是最终的答案。这是现有搜索技术最大的问题。但是，已经有一些产品能够对垃圾信息进行最初级的人为摒除，比如百度知道。当一个人提问之后，经过一个或多个人的回答，此人就可以找到自己所需要的信息。另外，各大厂商也在致力于实现真正的人机对话。以 PowerSet和WolframAlpha为代表的问答式精准搜索近来受到广泛关注。GazoPa是

31、一家成立于2008年的图像搜索引擎供应商。它提供的搜索图像服务的特色在于，可以提取图像中商品的形状、颜色等信息。以往的图像搜索采用的方法是，给图像数据赋予标签等文本数据，当输入的关键字与文本数据相匹配时，图像就会被检索出来。但是，用户使用GazoPa提供的服务，被搜索的图像不具备文本信息，也可能被搜索到。GazoPa使用的是基于图像内容的检索（Content-based Image Retrieval，CBIR）技术。这种技术能够对图像的颜色、纹理、布局进行分析并检索。CBIR是基于内容检索（CBR）的一种技术。CBR中包括了对动态视频、音频等其他形式多媒体信息的检索技术。如上所述，网站将成

32、为企业与客户沟通的重要渠道，而搜索服务的质量将成为关键因素。用户在选择服务提供商时，除了关注价格和功能指标外，或许会更加关注服务商能否长期提供本地化的服务。1.3 网络爬虫技术在搜索引擎中的应用随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包

33、含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。为了解决上述问题，定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。将目标定为抓取

34、与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。改进后的网络爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定

35、的分析、过滤，并建立索引，以便之后的查询和检索；对于网络爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。网络爬虫还需要解决三个主要问题： (1) 对抓取目标的描述或定义； (2) 对网页或数据的分析与过滤； (3) 对URL的搜索策略。抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有网络爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为

36、网站或网页。根据种子样本获取方式可分为：（1）预先给定的初始抓取种子样本；（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；（3）通过用户行为确定的抓取目标样例。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。 1.4 网页分析及信息提取技术网络爬虫获得的数据主要是HTML网页，里面包含了大量的格式信息和标记信息，在后续建立索引之前需要进行数据内容的抽取。这就需要用到网页分析及信息提取技术。互联网上有数以亿计的网页，网页的基本元素就是HTML语言文件。从结构上讲，HTML文件由元素组成。组成HTML文件的元素有多种，他们用于组织

37、文件的内容和控制文件的输出格式。绝大多数元素是以一个其实标记开始，一个结尾标记结束，其实标记和结尾标记之间的部分是元素体。每一个元素都有名称和一些可选的属性，这些都在起始标记内标明。HTML文件经过浏览器解析后，转换成可视化的Web页面。搜索引擎通过网络爬虫获取这些HTML文件后，通过程序分析其中的内容，就可以构造搜索了。在实际项目中，最常用的就是用正则表达式或HTMLParser来提取额网页的内容。使用HTMLParser从复杂的HTML页面中解析出来需要的文本信息，是其中很重要的内容。（1）正则表达式：正则表达实施功能强大的文本分析工具，在不同语言中都得到了体现。正则表达式是一种用来描述字

38、符串集合的方法，通常使用一系列特殊字符形成字符串模版。正则表达式通过自定义的正则模式去精确的提取文本信息，但需要写大量的正则表达式，编写和调试正则表达式是一个繁琐的过程。（2）HTMLParser:HTML是一个开源的Java库，提供借口、支持线性和嵌套的解析HTML文本。HTML提供了提取文本信息的API，是搜索引擎开发者拜托了繁琐的正则匹配过程，只需要通过这些API，就可以方便的提取额特定文本，打打提高工作效率。1.5 本文的研究重点，系统结构及内容本文要实现一个BS架构的图像检索系统，主要实现该检索系统的网络爬虫及网页信息提取部分，并建立一个简单的Web系统，整合下载的网页，图片及网页分

39、析得到的文本信息形成一个图像检索系统。综合运用java语言，图像检索，网络爬虫，网页分析及Web开发等相关技术。系统结构：图1-1 图像检索系统结构图本文共分为五章,其内容是这样安排的：第1章，文献综述：介绍图像检索的意义，国内外发展状况，以及简要介绍相关的网络爬虫级网页分析技术。第2章，Heritrix应用开发扩展：简要介绍Heritrix，以及本文何扩展Hertrix的方法，网页爬取的效果总结。第3章，HTMLParser应用开发：简要介绍HTMLParser,以及利用HTMLparser实现网页内容提取的具体策略方法，及结果展示。第4章，图像检索系统的搭建：如何建立图片信息数据库

40、，Web页面，Action及图片检索系统的实现和结果展示。第5章，未来和展望：图像检索是非常热门的一个研究话题。本章就图像检索的发展及本文待改进的地方做一个展望。第2章 Heritrix应用开发扩展2.1 Heritrix简介开源网络爬虫Heritrix是有互联网档案馆和北欧国家图书馆联合规范化编写于2003年初。第一次正式发布实在2004年1月。并不断的被互联网档案馆和其他感兴趣的第三方改进。Heritrix是一个有JAVA开发的web网络爬虫，用户可以使用它从网络上抓取自己想要的资源。Heritrix最大的特色在于它的可扩展性，开发者可以扩展它的各个组件，实现自己的专区逻辑。Heritr

41、ix 的工作是不断循环的，具体流程是：(1) 在线程池中，选择一个预定的URL中(2) 从选择的URL网址下载远程文件(3) 分析，归档下载到的内容，写入磁盘镜像目录(4) 从分析到的内容里面根据策略选择URL，加入预定队列(5) 标记已经处理过的URL(6) 从第一步继续进行，直到所有的URL处理结束，抓去工作结束Heritrix的操作模型：图2-1 Heritrix的模型操作图Heritrix结构分析：图2-2 Heritrix的组件结构图各个组件的作用：(1) CrawlControllerCrawlController(中央控制器)是抓取任务的核心组件，他控制着整个抓取的流程（2）C

42、rawlOrderCrawlOrder(抓取任务)是整个抓取工作的起点，它记录了任务的所有属性。即在创建任务是的一系列设置（3） FrontierFrontier(连接制造工厂)负责所有连接的处理，将已经爬过的URL做标记，并将未处理的连接放入等待队列（4） ToeThreadToeThread(处理线程)Heritrix使多线程的，每个UTL被一个线程处理，这个现成就叫做ToeThread,每个县城都会包括一条处理连。（5） ProcessorProcessor(处理器)代表着单个的处理器，所有的处理器都是他的子类2.2 Heritrix抓取策略及改进Heritrix是使用 Berkeley

43、 DB来构建一个链接队列。这些队列被置放于BdbMultipleWorkQueues中时，总是先给予一个Key,然后将那些Key值相同的链接放在一起，成为一个队列，也就是一个Queue.但是，这个Key值到底该如何计算呢？事实上，这里说的Key值，应该是作为一种标识符的形式存在。也就是说，他要与URL之间有一种内在的联系。在Heritrix中，为每个队列赋上值的策略，也就是它的queue-assignment-policy。在默认的情况下，Heritrix使用的HostnameQueueAssignmentPolict来解决Key值生成的问题。这种策略其实是以链接的Host名称为Key值来解决这个问题的。也就是说，相同Host名称的所有RL都会被放置于同一个队列中间。这种方式在很大程度上可以解决广域网中信息抓取是队列的键值问题。但是，他对于摸某个单独网站的网页抓取，就出现了很大的问题。以Sina的新闻网页为列，其中大部分的URL都来自于Sina网站的内部。因此，如果使用了HostnameQueueAssignmentPolicy,则会造成有一个队列的长度非常长的情况，在Heritrix中，一个现成从一个队列中取URL链接时，总是会先从队列的头部取出第一个链接，在这之后，这个被取出链接的队列会进入阻塞状态，

展开阅读全文