XML检索技术研究.ppt

上传人:豆**** 文档编号:26921519 上传时间:2022-07-20 格式:PPT 页数:33 大小:1.03MB
返回 下载 相关 举报
XML检索技术研究.ppt_第1页
第1页 / 共33页
XML检索技术研究.ppt_第2页
第2页 / 共33页
点击查看更多>>
资源描述

《XML检索技术研究.ppt》由会员分享,可在线阅读,更多相关《XML检索技术研究.ppt(33页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML的必要性的必要性lXML文档的产生lXML文档的结构lXML文档的特点lXML的应用现状XML文档的产生文档的产生l产生动因l将数据和显示分离开来l智能化Webl语义网l发展历史l源于学术界,成功于商业界l1960年,IBM提出GMLl1978年,GML标准化后SGMLl1989年,HTML诞生于欧洲粒子物理研究中心l1995年,HTML2.0l1996年,HTML4.0,W3C推荐标准l1998年,XML1.0,W3C互联网数据表示和交换标

2、准l2000年,XHTML1.0,W3C推荐标准XML文档的结构文档的结构l七个主要成分l序言码l处理指令l根元素l元素l属性lCDATA节l注释XML文档结构文档结构(示例示例)XML文档的特点文档的特点l简明性,易学、易用、易实现l可扩展,可定义自已的元素和属性l灵活性,数据显示和数据描述分离l跨平台,方便于数据交换和集成l跨语言,使用UNICODE字符集l智能化,能够描述数据,让计算机理解文档XML的应用现状的应用现状l基于XML数据的数据仓库l电子商务领域用于数据交换l异构系统的集成lWeb Service技术的基础,SOAP协议的基础l语义网的核心l数据描述,维基百科,各会议论文集描

3、述文档lAJAX技术的基础,网页异步显示l科研领域,XML文档检索、存储等XML应用现状应用现状(图例图例)OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果lXML文档查询技术l参考文献XML检索数据模型检索数据模型l标签树模型l将XML文档中的标签当成树节点l仅考虑单个文档l标签图模型l将XML文档中的标签当成图节点l考虑文档的外部连接OutlinelXML的必要性lXML检索模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果lXML文档查询技术l参考文献XML文档索引技术文档索引技术l普通倒排索引l路径索引

4、l基于节点的索引,如deweyID编码普通倒排索引普通倒排索引l索引结构l关键词字典l文档列表l特点l简单,与传统搜索没有区别l没有考虑XML文档的结构路径索引路径索引l基本结构l关键词词典l关键词路径列表l特点l充分考虑了树结构l索引文件有可能非常大l进行结构处理时很麻烦,时间开销大路径索引路径索引(示例示例)基于节点的索引基于节点的索引l基本结构l关键词词典l节点编码列表l特点l索引中包含了文章的结构信息l索引比较小l很方便的处理多关键词检索问题节点索引节点索引(示例示例)OutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型

5、lXML文档查询技术l参考文献XML文档权重计算模型文档权重计算模型l基于内容权重计算模型lTD*IDFl向量空间模型l基于结构权重计算模型l树结构l图结构l综合考虑内容和结构的模型TD*IDF模型模型,max()i ji jl Tl jfreqffreqlog()iiNidfnTF*IDF是信息检索领域最成功的模型之一,广泛应用于目前主流的搜索引擎中TF*IDF模型用来确定词与文档之间的相似度模型很方便扩展向量空间模型向量空间模型l通过空间向量夹角的余玄来计算文档和查询之间相似度的模型( , )cos(,)dqsimilarity d qdqdq树结构中权重计算树结构中权重计算l结果树中节点

6、个数越多,权重越低l关键词对应节点间路径越短,权重越高综合考虑内容和结构模型综合考虑内容和结构模型该模型综合考虑了内容和结构充分体现出了XML的特点( ,)(1()()sim Q Nancdes Ntsize NOutlinelXML的必要性lXML检索数据模型lXML文档索引技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML文档检索结果模型文档检索结果模型lLCAlXRANKlSLCAlMCT(GMCT, MGMCT)XML文档检索结果模型文档检索结果模型(示例示例)lQ = (A, B)OutlinelXML的必要性lXML检索数据模型lXML文档索引

7、技术lXML文档权重计算模型lXML文档检索结果模型lXML文档查询技术l参考文献XML文档查询技术文档查询技术l基于关键词的查询l基于路径的查询,如XPATHl基于正则表达式的查询l基于特定查询语言(如类SQL语言)的查询l查询树查询计数示例查询计数示例(示例示例)路径查询/论文集/论文id=001查询语言(XQL) file:/论文id=001|id=002查询树 A OR (B AND C) 参考文献参考文献l1 Lin Guo,Feng Shao,Chavdar Botev,Jayavel Shanmugasundaram.XRANK: Ranked Keyword Search ov

8、er XML Documents.Sigmod June 9-12, 2003.l2 陈金森,原福永,张园园。XML搜索引擎研究。Library and information service.Vo151,No.1,January,2007.l3 张晓临,谭跃生,丁红。面向对象的XML查询系统的设计与实现。计算机工程与设计,Vo128,No16,Aug.2007l4 Yu Xu,Yannis Papakonstantinou. Efficient Keyword Search for Smallest LCAs in XMLlDatabases.Sigmod June 14-16, 2005.l5 韩近强,杨冬青。关系数据库CoDB中XML全文检索的设计与实现。北京大学硕士学位论文,2004.5.l6 于晋,唐世渭,邓志鸿。XMLSearch: 一个XML文档检索系统的设计与实现。北京大学硕士学位论文,2007.6.THE END,THANK YOU!33结束语结束语

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com