基于特征词统计的网页结构化信息抽取

资源描述

《基于特征词统计的网页结构化信息抽取_陈志雄.pdf》由会员分享，可在线阅读，更多相关《基于特征词统计的网页结构化信息抽取_陈志雄.pdf（4页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第 29卷第 2期嘉应学院学报(自然科学)Vo.l 29 No.2 2011年 2月J OURNAL OF JI AYI NG UN I VERSI TY(NaturalScience)Feb.2011 基于特征词统计的网页结构化信息抽取陈志雄,朱向庆(嘉应学院电子信息工程学院,广东梅州 514015)收稿日期:2010-12-19基金项目:广东省自然科学基金项目(9251401501000002);梅州市科学技术局、嘉应学院联合自然科学研究项目(08K J08)作者简介:陈志雄(1980-),男,广东梅州人,实验师,硕士,主要研究方向:信息检索,数据挖掘;朱向庆(19

2、79-),男,广东梅州人,讲师,硕士,主要研究方向:计算机通信网.摘要:作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取/精细化 0、/条目化0的信息,存储在数据库中,通过对数据库的查询达到垂直搜索/精准0的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定 HTM L标记节点和单个信息块的问题,关键信息块的抽取平均准确率为 97%.关

3、键词:垂直搜索;信息抽取;结构化;特征词;统计中图分类号:TP181文献标识码:A文章编号:1006-642X(2011)02-0018-040 引言网页结构化信息抽取是垂直搜索引擎体系的一个研究方向,与通用搜索相比,垂直搜索对信息抽取提出了更高的要求.通用搜索引擎只需要抽取网页的正文信息,即使包含若干噪声,对最终的搜索结果影响也不会很大.而垂直搜索引擎要求对网页进行结构化信息抽取,使之精细化、条目化,存储在数据库中,通过对数据库的查询实现/精准 0搜索的目的.因此对网页的结构化信息抽取是垂直搜索的关键技术之一.随着互联网的发展和电子商务的广泛应用,越来越多的企业通过网页来发布商品信息.对于某

4、类商品,通常都会有一组与之相关的特征词(元数据)来描述该商品,如:汽车(生产厂商、所属品牌、排量、车体结构、油耗等);笔记本(品牌、型号、处理器、内存容量、硬盘容量、屏幕尺寸、重量等);图书(书名、作者、出版社、版次、出版时间、IS-BN等)等等.引用数据库概念,我们称这些特征词为/属性 0.如,/书名:JAVA编程思想0,属性=/书名 0,值=/JAVA编程思想 0.结构化信息抽取的目标就是抽取这样的/属性-值 0对.1 相关工作网页结构化信息抽取一般可分为基于规则的模型 1,2、基于隐马尔可夫的模型 3,4和基于词典的模型 5,6等.基于规则的模型只能应用于具有相同或相似模板的网页,网页结

5、构的细微变化都可能影响到信息抽取的准确性,因此适用性能较差;基于隐马尔可夫的模型需要学习大量的训练样本,对于拥有大量无关标记(Token)的 HTML文档训练效率不高;基于词典的模型适用于纯文本信息抽取,需要建立相应的词典.垂直搜索的范围被限定在一个相对狭小领域第 29卷第 2期陈志雄,朱向庆基于特征词统计的网页结构化信息抽取或相对固定的对象中,比如某类商品信息.这类商品信息的特征词数量有限且术语规范(或约定俗成),因此手工建立领域词典的工作量要比建立通用词典小得多,并且一次编辑可重复使用.另外,由于同义词的存在,建立同义词典对于意义相同表达不同的/属性-值 0对的准确抽取是必要的.文献 5

6、,6对使用特征词集定位关键信息块做了大量工作.文献 5通过统计标签中特征词的数量是否满足设定阈值来判断该节点是否包含关键信息块,对于不在标签中的有用信息将不能抽取.文献 6通过寻找包含特征词节点的公共父节点来定位关键信息块,未考虑到多个信息块的情形.对于多个信息块的情况,特别是信息块之间的距离较大时,这种方法可能包含大量的噪声.受文献 7 9启发,本文使用特征词典指导关键信息块的抽取和/属性-值0对的解析,提出一种新颖的基于特征词统计的网页结构化信息抽取技术,结合特征词词典和统计方法,能够解决上述存在问题.2 网页信息结构化抽取技术图 1为本文对网页进行结构化信息抽取的基本流程.首先把 H

7、TML文档解析成 DOM(DocumentObjectM odel)树.然后统计 DOM 树各节点的信息量(Information)和信息比率(Information Ratio),同时满足信息量阈值 A和信息比率阈值 B的节点为候选节点.再通过比较具有父子关系的候选节点的信息量和信息比率来确定关键信息块.最后通过特征词匹配的方法,从关键节点中抽取结构化数据.图 1 基本流程2.1基本定义信息量(Infor mation,简写为 Info)是指词典中的词与 DOM节点中所有不包含 HTML 标记的字符串(包括中、英文字符)匹配的数量.本文所说的匹配为正则表达式匹配.信息比率(Infor mat

8、ion Ratio,简写为 Info_ratio)是指该节点信息量(Info)与所有不包含 HTML标记的字符(包括中、英文字符)数量(Count)的比值.公式如下:Info_ratio=InfoCount.(1)为方便表述,本文还对父节点、子节点和兄弟节点进行了重新定义,和其它文献的表达略有不同.在 DOM 树中,若节点 Ni直接或间接嵌套节点Nj,iX j,则Ni为 Ni的父节点,Nj为 Ni的子节点;若Ni和 Nj有共同的父节点,在 Ni和 Nj互为兄弟节点.2.2关键技术使用特征词指导关键信息块的抽取,通过统计DOM 节点的信息量和信息比率来确定包含关键信息块的最小节点,算法如下:输

9、入:网页文件、特征词典、A和 B.输出:包含关键信息块的节点.(1)读/词典 0文件;(2)读取网页文件,建立 DOM 树;(3)for(以深度优先遍历 DOM 树);(4)解析 DOM节点除 HTML标记外的文本信息;(5)统计信息量 Info和信息比率 Info_ratio;(6)if(InfoE A且 Info_ratioE B)节点为候选节点;(7)if(候选节点中存在父子关系的节点)只保存 Info最大时,Info_ratio最大的节点;(8)return包含关键信息块的节点.其中,Info是用来衡量信息块包含信息是否全面的度量,Info越大说明该节点中包含的信息越全面,Info_r

10、atio是用来衡量信息块中噪音大小的度量,Info_ratio越大说明该节点包含的噪声越少.只要 A和 B阈值设置合理,所产生的候选节点都是包含有用信息块的节点.但是满足阈值的节点可能不止一个,它们中可能是有父子关系包含同一信息块19嘉应学院学报(自然科学)2011年 2月的节点,我们只保留信息量最大时,信息比率最大节点为关键节点.这个节点中包含的信息最全面,且噪声最小.通过比较候选节点的 Info和 Info_ratio总能选取出最佳的节点.若候选节点中不包含有父子关系的节点,即都是兄弟节点或只有一个节点时,则候选集作为结果返回.返回结果可能包含多个关键信息块.2.3网页信息结构化解析在得到

11、关键信息块后,抽取出文本信息,对照词典进行正则表达式匹配很容易就可以解析出结构化信息.这时对网页的结构化信息抽取转化成为对纯文本的结构化信息抽取.显然,词典中不包含的词,即使包含在关键信息块中也不能被抽取出来.为解决这个问题,得到尽可能全面的信息,我们通过统计正常匹配的数据项中的频繁符号,如冒号/:0,或者与数据项紧贴的 HTML标记,如/TD0,来抽取未知/属性-值 0对,解析未知特征词.未知特征词被保存在候补词典中,当积累到一定数量时进行人工编辑,最终确定特征词和同义词,以保证后继信息抽取的准确性和全面性.这种词典自举的方法可以大大减少词典编辑的工作量.3 实验结果与分析实验所用平台为 P

12、C(AMD Athlon(t m)64 X2Dual Core 4200+2.21GH z,内存 1GB),操作系统是W indows SP2.算法使用 JAVA语言编写(JVM1.5),使用了 HTML Parser2.0软件包对网页进行解析,建立 DOM 树.我们知道,只要关键信息块正确,通过词典中特征词的正则表达式匹配总能解析出相应的/值0.因此,网页/属性-值 0对抽取的准确率和召回率都与词典直接相关.只要词典够全面,/属性-值 0对抽取的准确率和召回率都应是 100%.引起/属性-值 0对的抽取错误的原因是信息块抽取.因此,我们的实验主要关注关键信息块抽取.实验对象为购书网页,网页来

13、自专业的购书网站和大型购物网站.参数设置 A=3,B=0.01,实验结果如表 1.从表 1可以看出,关键信息块抽取总的准确率为 97%.分析抽取失败的网页,原因主要有(1)关键信息块由脚本生成,不包含在下载的网页中;(2)B值过小,关键节点中还包含大量的文字信息,如内容介绍等.排除网页自身的因素,这种基于特征词统计的关键信息块抽取方法的准确率较高,包含的噪声较小,能够满足实际应用要求.表 1 购书网页关键信息块抽取网页来源网页数正确率/%http:/100100http:/www.w.l cn/100100http:/www.china- m/100100http:/www.taobao.co

14、 m/10092http:/www.eachnet.co m/10089http:/ 结论本文以垂直搜索引擎应用为背景,针对商品信息进行结构化信息抽取,提出一种基于特征词统计的网页结构化信息抽取技术,解决了信息抽取过程中对特定 HTML 标号的依赖和多个关键信息块时不能正确抽取的问题.关键信息块抽取的平均准确率达到 97%,能够满足实际应用的要求.参考文献:1 胡亮,袁芳,齐芸芸.农业垂直搜索引擎信息抽取的研究 J.计算机工程与设计,2009,30(5):1115-1118,1134.2 任仲晨,薛永生.基于页面标签的 W eb结构化数据抽取 J.计算机科学,2007,34(10):133

15、-136.20第 29卷第 2期陈志雄,朱向庆基于特征词统计的网页结构化信息抽取 3 胡宇舟,王雷,顾学道.基于多模板隐马尔可夫模型的文本信息抽取算法 J.计算机应用,2008,28(3):699-702.4 刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取 J.系统仿真学报,2004,16(3):507-510.5 邓健爽,郑启伦,彭宏,等.基于关键词聚类和节点距离的网页信息抽取 J.计算机科学,2007,34(4):213-216.6 李朝,彭宏,叶苏南,等.基于 DOM 树的可适应性 W eb信息抽取 J.计算机科学,2009,36(2):202-203,210.7 孙

16、承杰,关毅.基于统计的网页正文信息抽取方法的研究 J.中文信息学报,2004,18(5):12-22.8 周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究 J.中文信息学报,2009,23(5):80-85.9 王舒,朱敏,张明,等.一种基于特征符号的网页主题信息抽取方法 J.计算机应用研究,2009,26(12):4539-4541.责任编辑:陈先军Web Pages Structured Infor mation Extraction Based on FeatureWords StatisticsCHEN Zhi-xiong,ZHU Xiang-qing(Scho

17、ol of Electronic and Infor mation Engineering,Jiaying University,M eizhou 514015,China)Abstract:As one of the key technologies of vertical search,web pages structured infor mation extraction getsmoreand more attention.W eb pages structured information extraction breaks web pages,from which it extrac

18、ts the fine and the ite m of infor mation,to store in the database.Through queries on the database vertical searches a-chieves the precise purpose.Most existing methods are based on rulemodel or based on hiddenMarkov mode.lThose methods either relies on a specific page structure,the applicability is

19、 poor,or relies on a large number oftraining samples,the training is inefficien.t Combining vertical search specific areaswhich the characteristics of ali m ited number of feature words and a statisticalmethod,this paper presented the structured information extractiontechnology based on featurewords statistics to solve the problem that only specificHTML tags nodes or only the sin-gle block can be extracted.The average accuracy rate of key information block extraction is 97%.Key words:vertical search;infor m ation extraction;structured;feature words;statistics21

展开阅读全文