模板-郭倩的开题报告.doc-得力文库

资源描述

《模板-郭倩的开题报告.doc》由会员分享，可在线阅读，更多相关《模板-郭倩的开题报告.doc（14页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、表二南京航空航天大学攻读硕士学位研究生课题论证报告姓名郭倩学号 SQ 专业管理科学与工程研究方向管理信息系统指导教师马静教授 2010年11月2日表二课题名称：主题网站的自动发现与判定方法研究选题依据（包括课题的来源、研究目的、必要性和重要性、意义以及国内外研究的技术现状分析）一、课题来源本课题来自于导师国防技术基础项目。二、问题提出随着时代发展与科技进步，在众多公开情报来源(如报刊、图书、声像资料等)中，互联网已经成了进行公开情报收集的一个重要渠道。但是，互联网作为海量信息源，具有3个特点：(1)网上可利用的同类信息较多且结构形式多样；

2、(2)信息和服务具有动态性；(3)信息存在模糊性，甚至是带有错误的。互联网的这些特点导致人工收集情报的效率比较低。计算机技术的飞速发展使情报收集过程自动化成为可能。情报人员需要具备的一个重要技能就是从每日涌现在互联网上的海量信息中快速、准确地获取有用信息。他们工作的重要内容之一就是每日关注一些网站，这些网站可能是重要情报的来源，对于不同的领域的情报人员，其关注的信息的类别会有所不同，为了尽可能的全面的收集他所需要的信息，他们不得不逐个访问相关的门户网站、论坛和博客，这种人工收集工作是低效的。对于这些情报人员来说，他们急切需要一种可以搜集互联网上动态信息工具。面对这种需求，有关人员研制了动态信息

3、跟踪系统。用户只需将需要查看的网站添加到跟踪系统中，一旦这些网站有了更新的内容，系统就会自动将这些内容抓取回来并生成摘要，供情报人员查看，这个工具省去了情报人员逐个网站浏览的麻烦，提高情报人员工作的效率。但是网络世界瞬息万变，每天都有可能有新的网站建立起来，或者，情报人员以前没有发现的网站，如果情报人员不去发现这些与自身研究主题相关的新网站的话，可能会造成错失重要情报的后果。因此情报人员不能局限于固定跟踪的几个网站，他们需要不断发现新情报信息源并对其进行跟踪。如何才能发现新的信息源，如果仅靠人工发现的话，由于互联网的海量信息，会使得人工搜索的工作量巨大，且效率不高。因此我们想可以交给计算机来帮

4、助我们发现这些新的网站，当网页上出现有关某主题的信息较多时，就有必要将它列为跟踪网站，通过网络将其抓取回来，交给情报人员判断是否要对这个网站动态跟踪。如何找到一种通过计算机自动发现这些网站方法，并且判定这些网站是否与情报人员所关注的领域的主题是相关的，这是个值得探讨并需要得到解决的问题。二、研究目的本课题的主要目的是要实现主题网站的自动发现，主题网站的自动发现时通过面向主题的网页信息采集，并且对采集回来的网站进行相关性分析来完成的。当前，网络情报的获取主要依靠人工浏览或搜索引擎来获取网络信息。人工浏览方式针对性强，能获得准确有效的竞争情报，但其工作量巨大、浏览范围有限。搜索引擎能根据搜索任务自

5、动获得大量信息，给竞争情报的采集带来了便利。但当前的主流搜索引擎采用大众式服务模式，力争回答用户的所有查询，因此其核心指导思想是尽可能多地采集所有信息页面。这种不区分主题、覆盖一切的策略，给情报采集带来了一些负面效果，如降低了查准率和竞争情报的使用价值。面向主题的信息采集策略为解决这种难题提供了一种新的思路。面向主题的网络竞争情报采集系统仅访问Web页面中相关主题的页面，有利于提高情报采集的主题相关度，从而减少页面采集的范围，提高情报采集的速度和效率。在理论研究方面，本课题的目的是提出面向主题信息采集的一整套解决方案，以便实现主题网站的自动发现。在实际应用方面，本课题的目的是在理论研究的基础上

6、开发相关工具自动发现用户给定的主题网站下的最最相关的网站，提高情报人员检索信息的效率，提升情报人员捕获新的主题网站的能力，以便情报人员对这些网站进行跟踪。三、必要性、重要性和意义互联网是一个巨大的、分布全球的信息服务中心。在互联网海量的信息中，人工的方式获取信息变得非常耗时耗力，借助计算机自动的发现所需要的最重要的资源变得越来越重要。因此我们很有必要研究相关的理论与方法来利用计算机帮助我们自动地发现情报人员所可能关注的主题网站，以帮助情报人员发现新的信息源，获取最新的动态情报。同时互联网信息的时效性越来越强，资源的量也越来越大，并且逐步成为人们发布信息的首选平台，使得情报人员对于互联网信息的

7、依赖性也越来越强，充分利用好这些互联网的信息对于情报人员的工作有着重要的意义：第一，提高情报人员处理海量信息的水平。通过研究主题网站的自动发现方法，可以最大限度的减轻情报人员人工收集、整理和分析信息的工作量，在有限的工作时间内尽可能多的收集相关的信息。第二，提升情报人员新主题网站检测能力。主题网站的自动发现，只是获取到了信息源，通过对网站的动态跟踪可以帮助情报人员最快速地发现新情报、尽早地掌握重大、紧要事件，提高对于重大事件的预警能力，进一步促进信息处理工作的质量的提高。四、国内外研究的技术现状分析1 相似网站的发现国内外研究现状国外关于相似网站的发现起步较早，现在已经颇有成果在Google

8、搜索中输入网站的名字或者网址，然后在搜索结果找到目标网站的那一部分，仔细看一下，搜索结果网址后面还有有一个“类似结果”的链接，点击一下，就会出现相似网站搜索列表。或者你直接在Google搜索中输入“related:网站网址”，也可以直接得到上述搜索列表。顾名思义，类似网页就是一些主题相关的类似网站的网址集合。Google类似结果功能，到目前为止，Google并没有解释类似网页是怎么得到的。有很多人做了一定的研究发现，类似网页通常和链接及网站主题有关。如果点击类似网页的话，你会发现列出的所谓类似网页，有的时候没有很明显的规律。比如说大部分认为，类似网页是会列出你链接出去的其他网页，或者链接到你的

9、其他网页。但是有的时候，在类似网页当中所列出的网页或者网站，既没有链接到你的网站，你也没有链接到那个网站。两者之间没有直接的关系，也不属于同一个企业，有的时候甚至不是同一个行业。在一些极端的情况下，两个网站可能一点都不类似。那么，类似网页是根据什么条件或算法所得出的呢？进一步的观察会发现，类似网页当中所列出的这些网址，往往是和网站被第三者所共同引用的其他网站。举例来说，有一个网站是A，有一个第三方网站B，在网站B上提到了网站A，在同一个网页B上也提到了另一个网站C，那么对Google来说，网站A和网站C也构成了相关性。虽然A和C之间没有直接的联系。因此可以总结说，Google的类似结果算法是依

10、据链接关系得到的，但其主题的相关性效果并不十分理想。Google的类似网页里，有些内容的相关性相距甚远，对用户有一定帮助作用，但还不完善。美国网站SimilarSites（）的口号是“找到任何网站的替代品”。它目前收录的网站数量不算最多，但还是比较有效的，关键是它还收录了不少中文站点。在他的对话框中输入网址，点击“Find Similar Sites”按钮，就会出现相似网站的列表，并且，给出相应的相似度指数。该网站还邀请用户对网站的相似度进行评级，并且根据用户的反馈结果，修正相似度指数。利用互联网自动发现与某主题相关的信息在国内也有人开始研究。南京大学的朱炜等人设计NDDS（NanDa Dol

11、phin Searcher）系统1。该系统的目标是自动发现在用户确定的主题下的重要的资源。用户只需要反馈给系统一些主题下样本文档，系统将会自动确定主题，从而在该主题下智能的扩展资源，最后使用链接分析算法，按结果的重要性进行排序，最后得到主题下最重要的资源。系统使用空间向量模型（Vector Space Model，VSM）技术来自动地确定搜索主题。并采用智能Crawler技术有目标、有选择地发现新的相关资源。2 主题信息采集的国内外研究现状主题网站的自动发现的前提是面向主题的网页信息采集。下面分析有关信息采集的国内外研究现状。作为搜索引擎的基础和组成部分，Web信息采集正发挥着举足轻重的作用2

12、，并且随着应用的深化和技术的发展，它越来越多的应用于站点分析、页面有效性分析、Web图形化、内容安全检测、用户兴趣挖掘以及个性化信息获取等多种服务和研究中。传统的通用搜索引擎为了提高其Web页面的覆盖率，它的爬行策略基本采用图的遍历算法如广度优先或深度优先策略，它不必判断页面的相关性，也不必对链接指向的页面是否主题相关作出预测。3随着因特网技术的迅速发展和广泛应用，传统web信息采集正面临巨大的挑战456 目前，在传统的Web信息采集技术的基础上，又出现了许多轻型的各具特色的采集技术。根据国内外流行的看法，把Web信息采集的发展方向分为以下几种7，基于整个Web的信息采集(Scalable W

13、eb Crawling)8，增量式信息采集(Incremental Web Crawling)910，基于用户个性化的信息采集(Customized Web Crawling)，基于Agent的信息采集(Agent Based Web Crawling)11，迁移的信息采集(Relocatable Web Crawling)，基于元搜索的信息采集(Metasearch Web Crawling)，基于主题的信息采集(Focused Web Crawling)12。实际的系统往往是以上几个采集技术的结合。主题搜索引擎面对的是特定的专业人群，其采集的信息只限定于特定的主题和其相关领域，出于性能上的

14、考虑其不必也不可能对整个Web进行遍历13。目前主题搜索引擎大都处于研究和试验阶段，利用它搜索的结果再经过专业人士的加工而形成的面向某一学科、领域的网络垂直门户网站也已经出现14。主题Web信息采集，是通过预先设定的种子集(种子链接或者页面)，利用各种web协议访问并下载页面，在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接，预测链接指向主题相关页面的可能性，再以各种不同的搜索策略循环迭代地访问Web。目前，有关主题web信息采集的研究是一个热点，国外学者们提出了许多评价标准和模型。Fish15系统是最早的主题网络蜘蛛模型。它是一个基于客户端的实时信息检索系统，它假设相关页面在逻辑

15、上彼此接近，采用深度优先算法搜索相关页面，并用一组关键词和短语判断页面的相关性。Hersovici16对Fish系统进行了改进，它从一个特定点并始并跟踪相关文本的链接，使用向量空间模型来计算页面的相似度，根据链接周围文本价值和链接的“继承”价值决定优先级及爬行的深度。Chakrabarti等17，利用已分类的实例集训练分类器，来衡量页面与主题的相似度，并用于指导搜索顺序。McCallum和Rennie 18将巩固学习引入网络蜘蛛模型，其主要特点是利用巩固学习的方法预测和选择未来回报最大的链接进行搜索。Diligenti19从相关页面出发，构建“语境图”和分类器，并根据语境图的层次预测距离相关页

16、面的远近，较近的页面较早访问。Estert20采用“隧道”技术指导搜索，当搜索精度低于某一预先定义的阈值时，则将主题范围增大，搜索未来回报较大的链接。Menczef21评价了三种Web分析算法：Best fist Crawler(通过计算链接所在页面与主题的相似度来得到采集优先级)、PageRank和InfoSpiders(通过链接周围的文字，利用神经网络和遗传算法来得到采集优先级)。通过实验比较，发现Bestfirst方法最好，lnfoSpiders方法次之，PageRank算法较差。此后，基于链接结构的分析算法与基于内容的分析算法的结合逐渐成为主流。Aggarwal13将页面内容、页面的U

17、RL结构抽象为页面特征，并利用它们构建Web的概率模型，用于预测链接的价值。Altingovde等22人利用一个规则的主题分类系统去训练一个贝叶斯分类器，并用一个来源于主题链接模式之间的简单规则决定下一个访问的链接，提高了主题蜘蛛的收获率和查全率。Yuvarani等23人利用链接里的关键词和链接周围文本预测文档与主题的相关性，表现出较好召回率。我国的主题web信息采集技术研究也有了一定的研究，许多学者也对主题web信息采集技术的研究作出了贡献。李盛韬24在分析主题Web信息采集基本问题的基础上，提出了主题网络爬虫的难点以及相关解决方案，并在此基础上设计实现了“天达”主题Web信息采集系统。马亮

18、25设计的IRobot系统采用了对待收集URL进行相关度预测为主，对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中，深入考虑了Web主题信息结构和组织特性的多种因素，综合提高了系统的性能。傅向华等26人将web爬行看作执行序列动作的过程，结合改进的快速Q学习和半监督贝叶斯分类器，提出了一种新的具有在线增量自学习能力的聚焦爬行方法。李卫等27人以全信息理论为支撑，吸收传统向量空间模型的思想，采用基于概念的向量空问模型，从词的语义层次对文本进行主题相关性分析，研究并实现了一个基于主题的智能信息采集系统IFWC。其使用扩展元数据的语义相关性判定算法，对页面内的URL进行主题相关性

19、预测。黄建斌等28人提出了一个基于连续随机模型和巩固学习的主题采集方法，实验验证该方法有较好的性能。郑国良等29提出了基于本体的主题信息采集方法，本体反映的不再是简单的词条出现频率，而是强化了网页中词条间的语义关系，从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。并通过实验与基于关键词的信息采集方法做了比较，证明了基于本体的方法的可行性。拜战胜等30将本体技术引入了主题信息采集，在对领域本体技术和传统的基于主题的信息采集技术的基础上，设计了一个基于领域本体的信息采集模型，给出了模型的体系结构，提出了一种关键词加权的词性相关性计算方法以及利用领域本体及对应的词典判定主题相关度的

20、算法。尽管众多的网络蜘蛛模型设计各不相同，但归根结底是采用不同的链接价值评价标准。虽然现有主题web信息采集技术取得了令人鼓舞的进步，但从系统性能上看还难尽如人意，准确率还需要较大的提高。因此，未来主题网络爬虫的研究主要是围绕如何提高链接价值预测的准确性，降低计算的时空复杂度，以及增加主题网络蜘蛛自适应性这三个方面展开31。3 相似性计算研究现状对象之间的相似度计算是现代信息检索中基于语义的检索、基于语义的分类、Web服务的服务发现、数据挖掘中的聚类计算、推荐系统、数字图书馆和知识管理系统等的核心计算问题32。几种文档相似度计算方法比较：方法名称基本思想计算方法优点缺点基于向量空间模型（VSM

21、）文档dj表示为向量空间中的一点(tl，wj1)，(t2,wj2)，(tn，wjn)，其中wji为ti在dj中的权重，计算wij使用tf*idf算法33。文档dj和dk之间相似度sim(dj，dk)通过它们之间的夹角求得。直观易于理解；具有强相似特性这种方法要求特征元素之间的关系必须是正交的，不存在任何的语义关系。基于集合模型将对象看作一个元素的集合。文档dj被认为是一个关键词的集合。文档dj和dk之间相似度基于它们之间的交集直观易于理解有同义词问题；相似度的大小过分依赖于对象之间交集的大小。基于层次结构层次结构计算相似性。主要利用路径长度、最小共同祖先等计算结果计算节点之间的相似性3435。

22、depth(A)表示从T的根root到节点A的边的条数，即A的深度，depth(root)=0。定义T的2个节点di和dk的最近公共祖先为LCA(di，dk)，两个文档di、dk在分类树中的相似度是关于LCA(di，dk)以及depth(di)、depth(dk)的函数。基于结构计算相似度仅从树的层次角度来分析文档之间的语义相关性无法捕捉到文档之间的非层次关系引文图科学引文图以图G=(V,E)建模，顶点集V为信息对象集合(一个顶点表示一篇科学论文)。边集E表示顶点之间的关系(如果从p到q存在一条有向边，表示论文p引用了论文q)。这种分析方法试图用传统图论的方法来发现隐含在这种结构图之下的顶点之

23、间的关系。利用图的拓扑结构信息计算节点对象之间的相似度。SimRank36递归定义相似度，常数C(0，1)为阻尼因子(decay factor)，初始赋值：如果顶点：如果u=v: 基于结构计算相似度相似性计算在主题检测与追踪中的也有应用，且对本文研究的主题网站相似性计算有借鉴意义。主题检测与追踪的研究内容可以分为五个技术任务：将数据流分割成为多个故事(segment)；寻找属于特定事件主题的所有故事(tracking)；发现新事件主题的所有故事并进行线索化(detection)；发现新事件主题的第一个故事(first story detection)；确定两个故事涉及的内容是否属于同一个事件主

24、题(1inking)。第五个技术linking，即研究面向主题检测与追踪的事件主题相似性计算技术，linking相当于为其他四个技术任务提供了一个基础的关键技术。关于主题探测与追踪中的相似性计算，有学者做过相关研究：朱靖波37提出了一种事件主题相似性计算模型LDM(1inking detection moda1)，基本思想在于构造两篇文档(或故事)的主题特征概率分布矩阵，通过计算两个主题特征矩阵的相似性来判断文档内容所涉及到的事件主题相似性。这种方法是基于领域知识和主题特征的计算层面。就目前文献中来看，相似度计算的一个最常用的方法就是向量空间法，构造对象的特征向量，采用余弦夹角公式计算对象间的

25、相似性。本文将借鉴信息检索中文本相似度的计算方法，将其应用到网站相度的计算中，提出网站的相似度计算方法。表二课题研究方案(包括具体的研究目标、研究内容和拟解决的关键问题；拟采取的研究方法、技术路线、实验方案及可行性分析)一、研究目标1、理论上：(1) 设计主题网站的网站主题描述模型；(2) 设计面向主题的信息采集方法；(3) 研究网站与网站之间的相似度计算方法；(4) 形成以样本网站为原型，自动发现互联网站中与样本网站主题相关的网站的一套整体的方案。2、应用上：基于前述的理论研究成果，结合正在进行的导师国防基础项目研究，根据用户给定的样本网站，利用网站主题描述模型描述网站，

26、依据提取出的主题有采集与主题相关的网页，从而找到与主题相关的网站，将相关度计算方法应用到搜集到的网站与样本网站的相关度计算中，得到用户可能会关注的主题网站，最后开发出有效的、准确度高的相似网站发现的工具二、研究内容文章研究内容分为五大部分：第一部分：研究目前的本课题研究的背景、目的、意义以及相关主题网站自动发现的研究现状，分析常用的现有技术的原理，比较他们的优缺点。第二部分：根据给定的样本网站，对样本网站进行分析，包括对页面正文进行分词、取出停用词等，利用SEO技术探寻关键词提取的策略，利用统计分析的方法计算出每个词出现的频率，根据词语出现的位子分配不同的权重，最后计算出每个词的相应权重，最

27、终确定关键词。设计合理的主题描述模型对样本网站进行描述，以便发现的网站与样本网站进行相似度对比。第三部分：设计使用关键词描述主题信息的模型结合信息采集的一般方法和主题信息的特点，构建基于主题的网页采集模型框架，讨论面向主题的信息采集策略和采集流程第四部分：根据采集回来的网页，探寻源头找出其所属的站点，并将这个站点加入主题网站候选集。根据第二部分目标网页抽取出来的主题模型以及网站特点，设计合理的相似度算法，计算主题与网站的相似度，并选择合理的阈值，最终选出主题相关的网站，推荐给用户选择。第五部分：针对已有的系统开发方案，根据设计好的模型和算法，设计并开发试验系统，对实验数据进行分析。三、研究框

28、架第一章绪论1.1选题背景及意义1.2国内外研究现状1.3本文的研究方法和技术路线1.4本文的主要研究工作和结构安排第二章相关理论分析2.1 SEO相关理论2.2.1 SEO 关于网页关键词的策略2.2信息采集理论2.2.1网页信息采集概述2.2.2网页信息采集相关技术2.3相似性计算理论 2.3.1 相似性计算的应用范围2.3.2 相似性计算的常用方法第三章样本网站分析及主题描述模型3.3 样本网站页面分析3.3.1 关键词词频和密度统计3.3.2 关键词的权重计算3.2 确定网站关键词3.3 主题描述模型 3.3.1 主题相关词汇表3.3.2 构造主题描述实例第四章网站相似性计算模

29、型 4.1 网站相似性的概念4.2相似性分析算法介绍4.2.1空间向量模型4.2.2 集合模型4.2.3 层次结构模型4.2.4 引文图模型4.2.5 几种算法的比较4.3相似度处理算法4.4 阈值的选择第五章面向主题的网页采集5.1传统信息采集模型的分析5.2 面向主题的信息采集模型 5.2.1 体系结构 5.2.2 数据层 5.2.3 处理层 5.2.4 应用层5.3 处理层模型 5.3.1 信息采集器 5.3.3 信息分析器 5.3.3.1 页面分析 5.3.3.2主题相关性判断5.4 小结第六章系统验证6.1网站发现系统验证6.2实验结果与效果评测第七章总结与展望7.1 总结7.

30、2 展望参考文献致谢四、拟解决的关键问题1. 样本网站关键词的统计。2. 主题描述模型的设计。3. 面向主题信息采集时的主题相关度的算法问题4. 相似度计算的方法。5. 应用到导师项目开发的系统中，以验证主题网站自动发现的有效性和准确度五、拟采取的研究方法1. 大量阅读相关国内外文献，掌握相关理论和模型。2. 比较其他研究人员的研究成果，找出其中的优缺点。3. 进一步学习系统实现时所涉及计算机语言和开发平台以及相关技术.六、技术路线图1 技术路线图七、创新点和新颖性1. 理论创新(1) 主题描述模型的设计(2) 针对主题描述模型的主题网页的自动采集(3) 网站相似度的计算2. 应用创

31、新：结合导师现有开发的系统，利用上述理论设计并实现相关主题网站的自动发现功能，以验证这种自动发现以及相似度计算的有效性八、可行性分析1. 本课题针对理论与实际问题提出，具有较好的理论意义和实际意义。2. 网络信息越来越丰富为信息获取提供了很好的来源，也为信息源获取提供了基础。3. 国外已有相似网站的发现系统可供借鉴。4. 情报人员对于新的信息源自动发现的迫切需要。5. 研究资料来源丰富，学校图书馆拥有最新的期刊书籍可以翻阅，同时学校的电子图书馆上也可以下载到最新最前沿的学术论文，进行参考；6. 拥有做课题的硬件软件支持及自身技术、时间有所保障。研究基础(包括与本项目有关的研究工作积累和

32、已取得的研究工作成绩；课题研究现有的基础和已具备的实验条件，可能遇到的困难或问题和拟解决的途径和措施等)一、与本项目有关的研究工作积累和已取得的研究工作成绩：1. 阅读了大量与本课题相关的书籍和国内外论文。2. 在参与导师项目过程中积累了一定理论知识和实践经验。二、可能遇到的困难或问题和拟解决的途径和措施等1. 可能遇到的困难或问题1) 网站的关键词抽取时的不准确2) 主题描述模型的设计的合理性3) 网站相关性分析时相关性判断的依据以及相关性计算时的阈值的确定。2. 拟解决的途径1) 大量阅读文献，关注相关方面的最新研究成果。2) 充分利用已有的研究成果。研究计划和进度2010.1

33、02010.11 准备开题报告2010.112011.03 进一步搜集和消化资料2011.012011.05 进行课题的理论和实验研究2011.052011.09 完成论文初稿2011.092011.11 论文修改定稿2011.112012.01 论文定稿并准备答辩预期研究成果1. 建立快速互联网实时信息集成系统，为信息情报人员提供快速自动发现新的信息源的工具。2. 设计出有效的网页相似度计算方法研究经费预算与来源 (含支持本课题的项目编号)表二参考文献 (应有20篇以上)1 朱炜,李俊,王超,潘金贵.一个自动发现确定主题下资源的系统J. 计算机应用研究

34、, 2004,11:87-90.2 李悦. 搜索引擎技术的产生与发展综述J.福建电脑, 2010, 5: 34-35.3 杜欢.主题Web信息采集技术J.四川理工学院学报（自然科学版）,2007,20(5):10-134 胡红霞,王振兴,李申堂. 搜索引擎技术的现状及发展趋势J. 信息工程大学学报, 2001,2(4): 66-69.5 张焕武. 搜索引擎技术研究的现状与展望J. 科技情报开发与经济, 2009,3: 126-128 6 Bergman M KThe Deep web: Surfacing Hidden ValueJ. Journal of Electronic Publish

35、ing, 2001, 7(1):1174-1175. 7 李盛韬,余智华,程学旗,白硕. Web信息采集研究进展. 计算机科学, 2003,30(2): 151-157.8 Allan Heydon, Marc Najok. Mercator: A scalable, extensible Web crawler. Word Wide Web, 1999.2 219-229. 9 Edwards J, McCurley K, Tomlin J. An adaptive model for optimizing performance of an incremental web crawler

36、A. International World Wide Web ConferenceC, Proceedings of the 10th international conference on World Wide Web, 2001:106 - 11310 程菲,汪建海,罗键. 增量更新Crawler进行Web收集方法研究J. 计算机工程与科学, 2006,28(12): 28-30. 11 山岚,徐耀. 基于Agent的智能化专业信息采集系统J. 计算机工程与设计, 2005,26(11): 3028-3030.12 聂哲. 基于WEB的面向主题搜索引擎的设计与实现J. 计算机工程与设计,

37、 2003, 24(2): 60-62.13 Aggarwal C, Al-Garawi F, Yu S P. Intelligent crawling on the World Wide Web with arbitrary PredicatesA. The 10th International World Wide Web Conference, 2001. 14 邹海山,昊永,吴月珠等. 中文搜索引擎中的中文信息处理技术计算机应用研究J, 计算机应用研究, 2000, 17(12): 2l-24.15 Bra D P, Houben G, Kornatzky et a1. Proceed

38、ings of the 10th international conference on World Wide Web A. The 4th RIAO Conference, 1994:481-491.16 Hersovici M, Heydon A, Mitzenmacher M, Najork et al. The shark-search algorithmAn application: tailored Web site mapping J. Computer Networks and ISDN Systems, 1998. 30:102-118.17 Chakrabarti S, v

39、an den Berg M, Dom B. Focused crawling: a new approach to topic-specific Web resource discoveryJ. Computer Networks, 1999, 31(11-16): 1623-1640.18 Rennie J, McCallum A. Using reinforcement leaning to spider the Web efficientlyA. Proceedings of the Sixteenth International Conference on Machine Learni

40、ng, 1999: 335-343.19 Diligenti M, Coetzee F M, Lawrence S, Giles L, Gori M. Focused crawling using context graphsA. International Conference on Very Large Database, 2000: 527-534.20 Ester M, Grob M, Kriegel H. Focused Web crawling: a generic framework for Specifying the user interest and for adaptiv

41、e crawling strategiesA. In: Proc of the International Conference On Very Large Database, 2001: 527-534.21 Menczer F, Pant G, Srinivasan P. Topic Web crawlers: Evaluation adaptive algorithmsJ. ACM Trans On Internet Technologies, 2004, 4(4): 378-419.22 Ismail Sengor Altingovde, Ozgur Ulusoy. Exploitin

42、g Interclass Rules for Focused CrawlingJ. IEEE Intelligent Systems, 2004, 19: 66-73.23 M. Yuvarani, N.Ch.S.NIyengar, A.Kannan. LSCrawler: A Framework for an Enhanced Focused Web Crawler Based on Link SemanticsA. 2006 IEEEWlCACM International Conference on Web Intelligence, 2006, 794-800.24 李盛韬. 基于主题

43、的web信息采集技术研究D. 北京: 中国科学院计算机研究所, 2002, 1-26.25 马亮,陈群秀,王俊,徐国伟. 智能Web中文主题信息收集系统IRobot的设计J, 中文信息学报2002, 16(5): 23-29.26 傅向华,冯博琴,马爪丰等. 可在线增量自学习的聚焦爬行方法J.西安交通大学学报, 2004, 38(6): 599-602.27 李卫,刘建毅,何华灿等. 基于主题的智能web信息采集系统的研究与实现J. 计算机应用研究, 2006, 23(2): 163-166.28 Huang Jianbin, Ji Hongbing, Sun Heli. Probabilis

44、tic graphical model for efficient focused web crawlingJ. Computational Information Systems, 2007, 3(4): 1657-1664.29 郑国良,叶飞跃,林国俊,耿东. 基于领域本体的主题信息采集方法J.计算机应用, 2008, 28(12): 3274-3277.30 拜战胜,徐德智,彭佳红,陈光仪. 基于主题本体的信息采集模型的研究J. 计算机技术与发展, 2009, 19(10): 102-105.31 刘金红,陆余良. 主题网络爬虫研究综述J. 计算机应用研究, 2007,24(10):26

45、-29. 32宋玲,马军,连莉,张志军. 文档相似度综合计算研究J, 中文信息学报2006, 30: 160-163.33 Ricardo Baeza-Yates, Barthier Ribeiro-Neto. Mordern Information RetrievalM. 北京:机械工业出版社. 2004:24-38.34 Prasanna Ganesan, Hector Garcia-Molina, Jennifer Widom. Exploiting hierarchical domain structure to compute similarityJACM Transactions on Information Systems, 2003,21(1):64-93.35 Ana G Maguitman, Filippo Menczer, Heather Roinestad. Algorithmic Detection of Semantic Similarity, http:/www.informatics.indiana.edu/fil/Papers/emsim.pdf,2005.36 Glen Jeh. Jennifer Widom. SimRank: A Measure of Structural-Context Similarity. http:/www-

展开阅读全文