基于特征统计的网页隐秘信息检测.pdf

上传人:qwe****56 文档编号:74662865 上传时间:2023-02-27 格式:PDF 页数:58 大小:3.22MB
返回 下载 相关 举报
基于特征统计的网页隐秘信息检测.pdf_第1页
第1页 / 共58页
基于特征统计的网页隐秘信息检测.pdf_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《基于特征统计的网页隐秘信息检测.pdf》由会员分享,可在线阅读,更多相关《基于特征统计的网页隐秘信息检测.pdf(58页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、湖南大学硕士学位论文基于特征统计的网页隐秘信息检测姓名:黄俊伟申请学位级别:硕士专业:计算机软件与理论指导教师:孙星明20080513硕士学位论文 II摘 要 信息隐藏与隐秘信息检测的研究已成为全球互联网时代信息战的一项重要内容。信息隐藏技术虽然能使隐蔽通信更加安全,但信息隐藏技术的非法滥用对国家的安全、社会的稳定造成了严重的威胁,严重影响了经济的可持续性发展。因此,对隐秘信息检测的研究已迫在眉睫。网页隐秘信息检测技术是检测网页中是否含有隐秘信息的技术。网页是因特网信息发布的主要载体之一,它有着即时动态且数量众多等特点,再加上出现了许多易用和便利的网页信息隐藏工具,不法信息极易通过网页进行传递

2、。因此研究能监控非法信息传递的网页隐秘信息检测技术不仅具有广阔的应用前景,而且对维护国家安全和社会稳定,保证经济的可持续性发展具有十分重要的意义。本文以静态网页(简称网页)为研究对象,系统地研究了网页中的隐藏算法、隐秘信息检测算法和因特网中网页隐秘信息的搜索与检测技术。主要研究成果如下:(1)通过对网页信息隐藏算法的深入研究,发现网页中的许多隐藏信道有着共同的特征,在嵌入隐秘信息后这些特征也会相应的做出大幅度变化。因此本文提出一种基于特征统计的网页隐秘信息检测算法。该算法利用这些特征,设计了一个统计判别模型,通过此模型可以对正常的网页和含有隐藏信息的网页进行有效的区分。试验结果表明,算法虚警率

3、低,检测率高。此外这种算法实现简单,适用性强,能对多种隐藏信道进行检测。(2)对传统网络爬虫加以改进,实现了基于网络爬虫的隐秘网页主动搜索与检测系统WebDetector。系统集成了本文提出的网页隐秘信息检测算法,能长时间稳定的运行于网络中,主动搜索和检测网络中网页的隐秘信息。关键词:信息隐藏;隐秘信息检测;隐写术;隐写分析;网页;统计;网络爬虫 基于特征统计的网页隐秘信息检测 III Abstract In the Internet Age,the research on information hiding and detection of hidden information has b

4、ecome an important means in information warfare.Information hiding makes covert communication safer.However,the abuse of this technology may pose a serious threat to national security,social stability,and economic development sustainability.Consequently,it is an urgent task to study the information

5、hiding and detection of hidden information.The technology of detecting hidden information in webpage is point to detect webpage whether it contains hidden information or not.Webpages are the main carrier of information released on the Internet and they are dynamic and numerous.Illegal messages can b

6、e transmitted by hiding within webpages with the help of a multitude of easy and quick information hiding tools.Thus,studies on webpage information hiding and detection of hidden information to protect personal privacy,monitor illegal message transmission and prevent illegal messages from revealing

7、through webpages have broad prospects as well as important implications to protect national security,maintain social stability,and ensure sustainable economic development.This thesis is a systematic research on information hiding algorithms and detection of hidden information algorithms for static w

8、ebpage(webpage for short),and searching and detecting stego-webpages on the Internet.The main contributions are summarized as follows.(1)Through a thorough study of information hiding algorithms,it is found that covert channels in webpages have common features,and those features will be remarkably c

9、hanged after secret messages are embedded.Based on the statistics of the changes,a new detection algorithm is proposed to detect hidden information in webpages.The detection model is a statistical determination model based on the statistics of the changes,which can efficiently differentiate normal w

10、ebpages and stego-webpages.The experimental results show that this algorithm has a low false negative rate and a high detection rate.Besides,this algorithm is simple to carry out and capable to detect a variety of covert-channels.(2)Based on web crawler,an active search system“Web Detector”is develo

11、ped 硕士学位论文 IVto search and detect the stego-webpages on the Internet.The detection system integrates the detection algorithm presented in this thesis and it can run in the network stably for a long time to conduct active search and detection for stego-webpages.Key Words:Information Hiding;Detection

12、of hidden information;Steganography;Steganalysis;Webpage;Statistic;Web Crawler 基于特征统计的网页隐秘信息检测 VII 插图索引 图 1.1 论文结构图.5 图 2.1 信息隐藏模型.7 图 2.2 隐秘信息检测模型.7 图 2.3 检测器 ROC 平面.8 图 2.4 HTML 源代码格式说明.11 图 2.5 不可见字符信息隐藏.13 图 2.6 标记大小写信息隐藏.14 图 2.7 搜索策略.17 图 3.1 二进制串转化为“八进制串”.19 图 3.2 iG值与嵌入率的关系.21 图 3.3 标记字母转化为二

13、进制字符串的过程.23 图 4.1 隐秘图像载体与秘密图像.28 图 4.2 WebDetector 的系统结构.30 图 4.3 网络爬虫模块(Detector Crawler)结构图.31 图 4.4 键树的存储结构.37 图 4.5 WebDetector 系统演示图.38 图 4.6 WebDetector 的工作模式.39 图 4.7 WebDetector 的检测结果.39 硕士学位论文 VIII附表索引 表 2.1 因特网上的网页信息隐藏软件.15 表 2.2 现有网页信息隐藏技术的安全性分析.16 表 3.1 正常网页的虚警率.24 表 3.2 针对隐写工具(InfriHide

14、)的检测率.24 表 3.3 针对隐写工具(WbStego)的检测率.25 表 3.4 实验样本测试结果.25 表 3.5 针对单双引号替换的虚警率.25 表 3.6 针对单双引号替换的检测率.25 表 4.1 网页层数与数量对照表.31 表 4.2 WebDetector 的性能.40 I 湖 南 大 学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担

15、。作者签名:日期:年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1、保密?,在_年解密后适用本授权书。2、不保密?。(请在以上相应方框内打“?”)作者签名:日期:年 月 日 导师签名:日期:年 月 日 硕士学位论文 1第 1 章 绪 论 1.1 课题来源 本课题来源于国家自然科学基金项目文本数字水印及文本信息安全研究(编号:6

16、0373062)、国家自然科学基金重点项目文本内容安全研究(编号:60736016)、国家信息安全课题文本隐秘信息检测和图文隐秘信息分析的部分研究内容。1.2 研究背景 隐 秘 信 息 检 测(Detection of Hidden Information)是 信 息 隐 藏(Information Hiding)的对抗技术。信息隐藏14是利用数字媒体信号本身存在的冗余,将秘密信息隐藏在冗余信号中,在不影响载体的感观效果和使用价值的前提下,不被人的感知系统或计算机系统察觉到其中的秘密信息,以保证秘密信息的传输。而隐秘信息检测58是研究如何破解信息隐藏的技术,其目的是发现载体中的隐秘信息并过滤掉

17、这些信息。两者是辩证统一的关系,两者相互对立又相互依存,互相促进与发展。早期加密技术能在一定程度上保证信息本身的安全,但是加密后的信息往往是混乱无序的,在信息传输过程中更容易引起攻击者的注意。信息隐藏技术就是在此情况下发展而来的。相对于传统的加密技术,信息隐藏技术可以达到隐藏“重要信息正在传输”的事实,以迷惑攻击者。信息隐藏技术的最早应用可追溯到古希腊的历史学家希罗多德(约公元前485年公元前425年)记载的有关“野兔”和“奴隶的光头”的两个故事。此外,我国古代的藏头诗其实也是运用了此技术。第一次世界大战和第二次世界大战也有此技术应用的痕迹,如显微点技术、隐形墨水等2。信息隐藏技术主要包括数字

18、水印(Digital Watermarking)914和隐蔽通信(Covert Communication)两方面的研 究。前 者 用 于 保 护 数 字 媒 体 知 识 产 权 和 认 证。后 者 也 叫 做 隐 写 术(Steganography)8,13,14,用于保密通信。隐写术以图像、视频、音频、文本等数字媒体作为载体,把要传输的秘密信息嵌入到普通载体的冗余信号中,以不引起第三方注意的方式通过公共信道,特别是互联网进行传递,从而实现隐蔽通信。自1992年国际上正式提出信息隐形性研究以来,信息隐藏技术便成为信息安全技术领域的一大研究热点118。1996年在英国剑桥牛顿研究所召开的第一届

19、国际信息隐藏学术研讨会(International Workshop on Information Hiding,IH)是信息基于特征统计的网页隐秘信息检测 2隐藏自此作为一门新学科而诞生的标志。信息隐藏学术研讨会是研究信息隐藏技术最重要的国际会议,至今已在英、美、德等西方发达国家举办了九届。其它有影响力的国际顶级会议如多媒体安全会议(ACM MM&Sec)、数字水印国际学术会议(IWDW)、SPIE水印和多媒体安全会议、智能信息隐藏与多媒体信号处理会议(IIHMSP)、IEEE图像处理国际会议(IEEE ICIP)、IEEE声学与信号处理国际会议(IEEE ICASSP)、ACM计算机与通信

20、安全会议(ACM CCS)等也对信息隐藏技术进行了探讨。一些国际权威学术期刊(IEEE Signal Processing,Communications of the ACM等)都相继出版了有关信息隐藏技术的专题。当前国外对信息隐藏技术进行研究的机构既有政府部门,也有著名大学和知名企业,对信息隐藏方面的应用也非常广泛。我国在信息隐藏技术方面的研究起步较晚,但比较活跃8,1218。1999年5月,国家自然科学基金委员会政策局会同信息科学部、管理科学部、数理科学部和综合计划局,在北京九华山庄组织召开了“网络计算和信息安全论坛”。与会专家一致认为,开展网络计算和信息安全研究具有重大的科学意义和重要的

21、战略意义,会中强调了研究信息隐藏的重要性。1999年12月何德全、周仲义、蔡吉人三位院士与有关应用研究单位联合发起召开了我国第一届信息隐藏学术研讨会(CIHW)。目前CIHW已成为国内最具代表性的信息隐藏学术交流会议,第八届全国信息隐藏暨多媒体信息安全学术大会(CIHW2009)也将于2009年3月在长沙召开。2000年1月,国家863计划智能计算机专家组会同中科院自动化所模式识别国家重点实验室和北京邮电大学信息安全中心在北京西郊宾馆主持召开了“数字水印学术研讨会”。这次数字水印研讨会在我国属于首次,研讨会引起了国家自然科学基金委员会、信息产业部、国家信息安全测评认证中心、国家图书馆及中国社会

22、科学院等多家单位的高度重视。这次会议对于促进数字水印技术的前瞻性理论研究与实际应用具有十分重要的作用,对于加强我国科技人员进行信息安全方面的学术交流也有不可低估的作用。以上会议的召开,有利的推动了信息隐藏技术在我国的发展,并取得了一定的成果,近几年国内学术期刊上有关信息隐藏的文章也大大增加。信息隐藏技术的迅速发展,为网络的信息安全提供了一个重要的技术支持。但任何技术都有其两面性。信息隐藏技术就很容易被恶意的个人或团体用于各种非法目的,如用于非法信息的传输。美国很有影响力的报纸今日美国早在震惊世界的“9.11”事件发生半年多以前就曾刊登文章,指出本拉登及其同伙可能利用某些网站上的大量数字图像秘密

23、传递与恐怖活动有关的信息,如指令、地图、攻击目标等19。当时还有报道指出,一些著名的网站如eBay和Amazon等已成为传播隐秘信息的隐蔽渠道20。据信首先将欧美科学家在隐秘信息检测研究中取得的早期成果用于实践的就有基地和哈马斯等国际恐怖组织。另外,一些国家的警方也曾在恐怖组织的计算机内查获大量可疑图像和视频文件,据分析可能藏有硕士学位论文 3与恐怖活动有关的信息。法轮功邪教组织的网站也有信息隐藏工具Blindside和CameraShy的介绍,邪教分子利用这些工具进行非法信息的传播,极大程度的影响了社会的稳定。因此,检测网络中的非法信息传输已成为人们亟待解决的问题。出于对国家安全、经济发展和

24、社会稳定的考虑,各国政府、情报部门、军队和研究机构已加大对隐秘信息检测研究的投入,有力的促进了隐秘信息检测的迅速发展。1.3 研究现状 隐秘信息检测技术是信息隐藏技术的伴随技术,是研究如何破解信息隐藏的技术,目的是发现含有隐秘信息的载体并截获这些信息,阻止不法分子通过这种方式进行非法信息的传输。信息隐藏与隐秘信息检测技术的载体类型通常可以分为图像、音频、视频、文本(通常指 DOC,TXT,PDF,PS 等格式文件)、网页等等。目前,对图像、音频、视频、文本等载体的信息隐藏和隐秘信息检测的研究较多,取得了较大的研究成果。但对网页中的信息隐藏尤其是隐秘信息检测的研究报道不多,相关的理论还不完善,实

25、用技术还欠成熟。可近几年来由于恐怖活动猖獗,隐秘信息检测受到了较多的关注,在一定程度上得到了发展。目前,对Web上可疑信息载体的搜索研究才刚刚起步。国外学者Niels Provos等人在2002年提出在因特网上运用网络爬虫来搜索Web页面上所有的JPEG图像,并用自动检测工具Stegdetect来检测隐秘信息21的思想。不过Niels Provos在获得博士学位后就转入了其它研究领域。随后Jeffrey A Bloom等人提出用网络爬虫和网络流量分析器来搜索可疑隐秘图像载体的思想22。严格说来,他们的方法都是针对Web页面上的图像载体,他们并没有考虑网页作为隐秘信息载体的可能性,因此他们的思想

26、应该归类于图像隐秘信息检测技术中去,但他们提出的用网络爬虫来搜索和检测的思想值得我们关注和借鉴。国内学者主要关注于网页信息隐藏技术,部分学者在2001年第三届全国信息隐藏研讨会上研究了基于超文本(HTML)信息隐藏的技术,从而使得利用Web页面进行隐秘信息的传递成为可能,但关于网页隐秘信息检测技术的报导却非常少。目前我国只有研究人员针对法轮功邪教组织网站介绍的信息隐藏工具Blindside和CameraShy展开一些研究20,以及本研究室针对部分网页信息隐藏算法提出相应的检测算法23,24。1.4 研究目的与意义 自 20 世纪 90 年代以来,随着社会、科技、文化和经济的发展,人们对开发和使

27、用信息资源越来越重视,这些强烈地刺激着因特网(Internet)的发展。因为因特网有共享性、交互性、全球性等特点,因此无论是政府、企业还是个人都可以基于特征统计的网页隐秘信息检测 4方便的将各种信息通过因特网迅速地传播到世界各地,网络通信也日益频繁。然而正是在这种频繁的通信下,隐藏着许多非法的活动。不法分子使用信息隐藏技术,利用网络中的多媒体数字载体进行秘密通信,进行非法活动。当前各种各样的基于信息隐藏技术的产品在网络上广为流传,已经商品化的网页信息隐藏工具如 WbStego 和 Invisible Secrets Pro 等可以将信息隐藏在 Web页面中,恐怖分子可以很方便地利用这些工具将不

28、法信息隐藏在网页中通过因特网进行传递。此外虽然学术上对以网页为载体的信息隐藏技术的关注逐渐增多,但有关网页隐秘信息检测技术的文章却很少见报。本研究室前期针对部分网页信息隐藏算法提出了一些检测算法,但算法的适用性比较差,与通常的检测算法一样,只能针对特定的隐藏算法进行检测。因此研究出一种适用性强、准确率高的网页隐秘信息检测算法,不但能促进网页信息隐藏技术的发展,更能对不法分子的非法行为进行有效的监控和震慑。在当今全球化信息战的背景下,网页信息隐藏与隐秘信息检测的研究已成为互联网时代信息战的一项重要内容,网页隐秘信息检测技术的提高有利于防止网页隐写工具的非法应用,可以起到防止机密资料流失、揭示非法

29、信息、打击恐怖主义、预防灾难发生的作用。对网页隐秘信息检测技术的研究不仅具有重要的应用价值,更具有重要的学术意义。网页隐秘信息检测技术的研究可以揭示当前网页信息隐藏技术的缺陷,对网页信息隐藏算法的安全性进行测试与评价。可以看出,对因特网中隐秘网页的搜索与检测的研究不仅具有广阔的应用前景,而且对维护国家安全和社会稳定,保证经济的可持续性发展也具有十分重要的意义。1.5 主要研究内容及章节安排 本文旨在研究一种有效的适用性强的能检测网页隐秘信息的检测算法,并实现能在因特网上主动搜索和检测网页中隐秘信息的系统。本文的主要工作体现在下面两个方面:首先,由于目前还没有关于网页中的隐秘信息检测的报道,而网

30、页源代码也是一种文本,因此通过借鉴文本信息隐藏与检测的算法,并深入研究当前主流的网页隐秘信息嵌入工具以及网页中的信息隐藏算法,将网页中的隐藏信道进行分析、整理和归类,针对多种隐藏信道设计了一种准确率高、适用性强的检测算法。不同于只能针对特定的隐藏信道或隐藏方法的传统检测算法,该算法适合于网页中多种隐藏信道的检测。其次,实现了基于网络爬虫的隐秘网页主动搜索和检测系统:WebDetector。该系统在传统的网络爬虫的基础上进行改进,并嵌入了本文第3章的网页隐秘信息检测算法。系统能对本地网页以及因特网上网页中的隐秘信息进行自动搜索和检测,能长时间稳定的运行于网络中。硕士学位论文 5本文共分为四章,具

31、体章节安排如下:第一章:概述了本文的课题来源、研究背景、研究现状、研究目的及意义、主要工作及组织结构。第二章:介绍网页隐秘信息检测相关的技术知识,包括:信息隐藏与隐秘信息检测概念与模型、文本信息隐藏与隐秘信息检测算法、网页信息隐藏与隐秘信息检测算法,最后介绍网络爬虫技术。第三章:提出一种基于特征统计的网页隐秘信息检测算法,并对该算法进行理论证明和相关实验。第四章:介绍基于网络爬虫的隐秘网页主动搜索和检测技术。最后是论文的结论部分,对论文的主要工作进行总结,并指出今后进一步研究工作的展望和设想。论文的结构如图1.1所示 图 1.1 论文结构图 第 2 章 相关知识与技术介绍第 3 章 基于特征统

32、计的网页隐秘信息检测算法 第 4 章 隐秘网页主动搜索与检测系统 总结与展望 第 1 章 绪论 基于特征统计的网页隐秘信息检测 6第 2 章 相关知识与技术介绍 信息隐藏技术和隐秘信息检测技术就像古代的武器“盾”和“矛”,一个致力于守,一个致力于攻。守方需要尽可能地将隐秘信息隐藏在普通物件中通过公开方式进行传输,而不让对方发现任何破绽;攻方则需要尽可能地发现在公开消息中是否有秘密信息并阻止其进行传输。一个新的信息隐藏技术的出现会促使人们探索对它的破解以研究其安全性,而隐秘信息检测的成果将会进一步推动信息隐藏方法的深入研究。两者辩证统一,相互对立又相互依存,相互促进和发展。在信息隐藏技术研究方面

33、,已提出很多实用有效的隐藏方法,但隐秘信息检测的研究起步较晚,尤其是网页中的隐秘信息检测,可以说仍处于初级阶段,缺乏完整的理论体系。因此对信息隐藏算法的了解有助于隐秘信息检测算法的研究。本章主要介绍因特网上隐秘网页主动搜索和检测技术的相关知识与技术:信息隐藏与隐秘信息检测技术,以文本和网页为载体的信息隐藏与隐秘信息检测技术、网络爬虫技术。本章的安排如下:第1节给出信息隐藏和隐秘信息检测的概念与模型;第2节简要地介绍文本中常用的信息隐藏方法和隐秘信息检测方法;第3节对网页信息隐藏和隐秘信息检测做了详细的研究;第4节简要介绍网络爬虫技术;最后是小结。2.1 信息隐藏与隐秘信息检测 本节主要介绍信息

34、隐藏与隐秘信息检测的概念与模型,以及评价隐秘信息检测算法性能优劣的参数。2.1.1 信息隐藏的概念与模型 信息隐藏是利用数字媒体信号本身存在的冗余,将秘密信息隐藏在冗余信号中,在不影响载体的感观效果和使用价值的前提下,不被人的感知系统察觉到其中的秘密信息。目前,信息隐藏的研究和应用的主要领域有数字水印和隐写术。前者关心隐藏的信息是否被盗版者移去或篡改。后者则强调如何将秘密信息隐藏在数字媒体信息中而不被他人发现,不仅隐藏秘密信息的内容,同时也隐藏秘密信息的存在。信息隐藏的模型可以用图2.1来描述。秘密信息M一般先用密钥K进行原始数据的加密,然后通过隐藏算法mE 藏到原始载体 I(Cover-ob

35、ject)中,形成含有隐秘信息的隐秘载体I(Stego-object),I 与 I 应非常相似,不会引起他人的怀疑。一般情况下,I 在无噪公开信道中传输。在一些特殊应用场合也会考虑噪声N对 硕士学位论文 7 图 2.1 信息隐藏模型 载体的干扰,即I 变为 I。对 I,应用提取算法xE,再用密钥 K 进行解密,就能正确提取出秘密信息。信息隐藏算法有三个主要评估因素7,25:隐蔽性(Imperceptibility)、隐藏容量(Embedded Data)和鲁棒性(Robustness)。隐蔽性主要包括生物感官器官的不可感知性和计算机系统的不可感知性。隐藏容量是指一个载体中可以隐藏的隐密信息容量

36、(数字媒体中一般用比特流表示)。鲁棒性是指抵御攻击、正确提取隐藏信息的能力。隐蔽性、隐藏容量和鲁棒性三者相互制约,相互矛盾。在设计方案和算法时总是根据实际应用的不同要求,尽可能在三者之间取得某种平衡或折衷。实际应用中往往只能兼顾其中的一两个方面。数字水印主要侧重于鲁棒性,而对隐藏容量和隐蔽性一般不做要求。相反,隐写术首要考虑的是隐蔽性和隐藏容量。一个合格隐蔽通信系统不但要能抗正常通信信道中的干扰,保证隐蔽信息安全隐蔽的传输,而且也要尽可能在不影响载体的情况下,保证隐藏信息的容量大小。2.1.2 隐秘信息检测的概念与模型 隐秘信息检测是信息隐藏的逆过程,是研究如何破解信息隐藏的方法,其目的是发现

37、载体中的隐秘信息并过滤掉这些信息。隐秘信息的检测、提取和攻击都属于隐写分析(Steganalysis)的研究范畴,其中又以隐秘信息的检测为当前主要研究方向。因为隐秘信息的检测是提取和攻击的基础,只有确定载体中是否隐藏秘密信息,隐秘信息的提取和攻击才有目的性。图2.2是通用的隐秘信息检测模型。嵌入秘密消息后的载体被称为隐秘载体。将隐秘载体输入后用检测算法eD 进行判别,一般基于正常载体的规则或者特征是否有变化来判别被检测载体中是否含有隐秘信息。图 2.2 隐秘信息检测模型 基于特征统计的网页隐秘信息检测 82.1.3 隐秘信息检测的评价参数 当隐秘信息的检测算法被设计好后,需要对其性能的优劣进行

38、客观的评价。文献8给出了4个用于评价隐秘信息检测算法性能优劣的指标:准确性、适用性、实用性和复杂度。其中最重要的一个评价指标是检测的准确性。检测的准确性包含两层意思:其一是否能准确检测出含有隐秘信息的载体,其二是否能准确判断出不含隐秘信息的载体。国内外一般采用虚警率(False Positive,也称误报率)和检 测 率(Detection Rate)表 示。文 献 8用 图 2.3所 示 的 检 测 器 接 收 操 作 特 性(Detectors Receiver Operating Characteristic,ROC)二维平面来表示两个概率的关系。图 2.3 检测器 ROC 平面 虚警率

39、是指把不含隐秘消息的载体误判为含有隐秘消息的载体的概率,表示为)|(NDP=,其中N表示载体不含有隐秘消息,D表示检测时载体判别为含有隐秘消息。检测率是把含有隐秘消息的载体正确判为含有隐秘消息的载体的概率,表示为)|(SDP=,其中S表示为载体含有隐秘消息。此外还需要考虑漏报率(False Negative),即把含有隐秘信息的载体错误判别为不含隐秘信息的载体的概率,表示为)|(1SDP=。D表示检测时载体判别为不含有隐秘消息。隐秘信息检测要求在尽量减少虚警率和漏报率的条件下取得最佳检测率。在虚警率和漏报率无法同时减少的情况下,要根据具体的应用场合牺牲某一参数。比如在隐秘载体数量较少的情况下要

40、着重减少漏报率。但面对因特网上数以千亿的网页和图像载体进行检测时,则着重要减小虚警率。全面衡量隐秘信息检测准确性的一个量是全局检测率erPP=1,其中eP为平均错误概率:)()()1(NPSPPe+=)()(NPSP+=。当=即点),(落在图2.3的45对角线上时,全局检测率为50%,属于随机猜测,也即瞎猜,此时隐秘信息检测器无效。当全局检测率达到85%或以上,可以认为检测器性能良好。适用性是指检测算法对不同的信息隐藏算法检测时的有效性,可由检测算法能够有效检测出多少种、多少类信息隐藏算法和隐藏信道来衡量。实用性是指检 随机猜测 检 测 率 45 虚警率 硕士学位论文 9测算法可实际应用的程度

41、,可由现实条件允许与否、检测结果稳定与否、自动化程度和实时性等来衡量。复杂度是针对检测算法本身而言的,可由检测算法实现所需要的资源开销、软硬件条件等来衡量。到目前为止,还没有确切的针对适用性、实用性和复杂度的定量度量,只能通过比较不同检测算法之间的实现情况和检测效果得出一个相对的结论。2.2 文本信息隐藏与隐秘信息检测 信息隐藏按照载体分类可以分为:图像信息隐藏技术、视频信息隐藏技术、音频信息隐藏技术、文本信息隐藏技术、软件信息隐藏技术、数据库信息隐藏技术和XML、网页信息隐藏技术等。目前,对图像、音频中隐秘信息检测的研究很多,对文本方面的研究目前也日益增多,且取得一定的进展。但其它方面的研究

42、成果相对比较少,对网页中的隐秘信息检测更未见研究报道。由于网页源码也是一种非格式化文本,因此,本节主要介绍文本信息隐藏方法和隐秘信息检测方法,以便能对网页隐秘信息检测起到一定的借鉴作用。文本信息隐藏中的文本通常是指TXT、DOC、PDF、PS这四类文档。文本信息隐藏技术从1993年开始就有人进行研究,其中以Brassil和Low等人提出的位移编码、行移编码和特征编码等基于格式化文的方法为主要代表26,27。随后许多研究人员在他们提出的算法的基础上进行改进,相继提出多种文本信息隐藏算法2540。目前,文本信息隐藏算法及信息隐藏工具层出不穷,大体上可分为4类:(1)基于不可见字符的文本信息隐藏 不

43、可见字符如Space键、Tab键可以被加载在句末或行末等位置而不会显著改变文本的外观,最早用于非格式化文本的信息隐藏方法就是行末加Space键或Tab键的方法。如现在流行的Snow软件和Wbstego软件可以在TXT文档中隐藏信息。(2)基于形近字符和字符特征的文本信息隐藏 通过使用形近字符的替换可以在文本中隐藏信息,如双字节标点与单字节标点中就有很多是形近字符,拉丁字符与希腊字符中很多是形近字符,中文字体中的宋体和新宋体字形等都可以作为载体隐藏信息。通过修改字符特征的方法来隐藏信息的方法有,修改字体颜色、字体大小等方法28,29。(3)基于格式的文本信息隐藏 在格式文本中,少量改变字、行等文

44、本元素的格式信息也不会显著改变文本的外观,而且相对于前两种方法,这种方法的隐蔽性更好、隐藏信息容量更大,所以这种方法比较常用3035。如基于位移、行移的文本信息隐藏方法和基于文字特征的文本信息隐藏方法等。(4)基于语法或语义的文本信息隐藏 通过对文本进行语法或语义的分析,采用同义词替换、语法变换、构建TMR基于特征统计的网页隐秘信息检测 10树等方法在文本中隐藏信息3640。这种方法相对于前面的方法具有更好的鲁棒性和隐蔽性,但是需要语法或语义分析技术的支持。此外,XML(eXtensible Markup Language)的信息隐藏技术也值得关注和借鉴。XML规范是一组由World Wide

45、 Web Consortium(W3C,万维网联盟)定义的规则,用于以普通的文本的方式来描述结构化的数据,跟HTML一样,是一种标记语言。XML的信息隐藏技术主要有基于逻辑结构和基于内容的两方面。熟悉关于XML逻辑结构的信息隐藏方法对网页隐秘信息检测也有指导作用。这些方法41有:1)空白元素;2)标记中的空白;3)改变元素的顺序;4)改变属性的顺序;5)元素间嵌套。在文本隐秘信息检测方面,北京邮电大学杨义先教授等人利用概念图提出一种句子之间的相关性测度,用于检测基于语义的文本信息隐藏,对NiceText等软件产生的隐秘文本进行小规模手工测试,达到较高的检测率42。美国Purdue大学Edwar

46、d教授等人针对基于词汇的自然语言信息隐藏算法提出基于语言模型和决策向量机的通用检测算法43。实验结果表明,该算法区别隐秘文本的精确度达到84.9%。新加坡管理大学Cheng等人提出一系列利用二值文本图像中相同字符或符号的相似性检测隐藏的信息,且能够估计隐藏信息的长度4446。眭新光等人对基于空白47和基于词典48统计的文本信息隐藏方法提出相应的检测算法。针对文本信息隐藏工具Stego,金士尧等人提出相应的检测算法49。本研究室对文本隐秘信息检测也展开了相关研究50,51,文献50提出基本文本噪声的文本信息隐藏检测算法,该算法具有较高的检测率和较低的虚警率。文献51利用向量机对基于字体格式的文本

47、信息隐藏算法进行检测。上述文本检测算法,有些如基于语义和二值文本图像等方法在网页隐秘信息检测中用不上,有些针对性比较强,只适合于单个的隐藏算法或隐藏信道,这些算法基本不适合用于网页中的隐秘信息检测,但给本文的研究提供了一些思路。2.3 网页信息隐藏与隐秘信息检测 网 页(Webpage)是 随 因 特 网 发 展 而 出 现 的。HTML(Hypertext Markup Language)是用于制作网页或电子邮件(Email)等在网上传递信息的一种超文本链接标记语言。由于HTML可实现相关文字和数据的链接及文件与文件之间的超级链接,与其它文本文件相比,具有更丰富的多媒体内容和效果。一个网页文

48、件通常只占用非常小的空间,这一点对于早期互联网上信息的传递是十分重要的。由于这些突出的特点,使得这种文件在因特网上及E-mail上广泛使用,但相应的信息安全问题也同时出现。在本节中,首先简要介绍网页文件的基本结构,然后介绍当前网页信息隐藏的算法,最后介绍目前对网页信息隐藏安全性的研究进展。硕士学位论文 112.3.1 网页文件的基本格式 网页是使用超文本标记语言HTML编写的一种文件52。该格式文件主要用于Web服务中的网页文件传输。HTML文件是标准的ASCII文件,它看起来像加入许多被称为链接标记(Tag)的特殊字符串的普通文本文件。从结构上讲,HTML文件由元素(Element)组成。组

49、成HTML文件的元素有许多种,用于组织文件的内容和指导文件的输出格式。绝大多数元素有起始标记和结尾标记。元素的起始标记叫做起始链接标记(Start Tag),元素结束标记叫做结尾链接标记(End Tag),在起始链接标记和结尾链接标记中间的部分是元素体。每一个元素都有名称和可选择的属性以及属性值,元素的名称和属性都在起始链接标记内标明。超文本标记语言HTML的标记很多,概括来讲,可以分为以下几类:总类,结构性定义,与外观相关的标记,连接与图形,分隔,列举,背景和颜色,特殊字元,表单,表格,框架以及杂项。其中总类是所有的超文本文件都有的,包括以下几个部分:文件类型-(放在文件的开头和结尾);文件

50、头-(描述性资料,如显示格式的设定,软件的版本等);文件标题-(必须放在文件头区块内);文件主体-(包括文字的语法,表格,图像,动画,声音,背景,网页的超级链接等)。而其它类是可选的,有的超文本文件有,而有的超文本文件没有。图2.4是一份HTML源代码文件格式的基本结构。图 2.4 HTML 源代码格式说明 网页的标题 网页的内容,标记作用于此 基于特征统计的网页隐秘信息检测 122.3.2 网页信息隐藏 网页信息隐藏技术是以网页作为载体的信息隐藏技术。网页信息隐藏技术将数字信息隐藏到网页源代码中,隐藏的信息能与网页源代码紧密结合,但隐藏的信息不会破坏原始文件的结构及质量,隐藏信息后的网页也不

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com