大数据和大数据技术分析,信息管理论文.docx

上传人:安*** 文档编号:73322167 上传时间:2023-02-17 格式:DOCX 页数:12 大小:22.55KB
返回 下载 相关 举报
大数据和大数据技术分析,信息管理论文.docx_第1页
第1页 / 共12页
大数据和大数据技术分析,信息管理论文.docx_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《大数据和大数据技术分析,信息管理论文.docx》由会员分享,可在线阅读,更多相关《大数据和大数据技术分析,信息管理论文.docx(12页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、大数据和大数据技术分析,信息管理论文本篇论文目录导航:【题目】【第一章】【第二章】 大数据和大数据技术分析【第三章】【第四章】【第五章】【总结/以下为参考文献】 第 2 章 大数据和大数据技术分析 由于信息技术和网络的飞速发展,我们身边所有有的事物都开场与数据有关。打 、发短信、网络购物、网络办公 我们的生活和工作实实在在被大量的数据影响着,数据开场成为了重要的资源,大数据就这样被提出。 怎样真确理解大数据,怎样解决大数据问题,是我们将要分析的。 2.1 大数据简介 1大数据的定义 对于大数据的定义,到当前为止仍就没有统一的标准,常用的定义有下面几点: 百度百科的定义:大数据又称为巨量资料,它

2、们无法在有效时间内通过传统手段或主流工具使数据得到采集,也无法进行处理和管理,进而得出有效信息帮助企业进行经营决策4. 维基百科的定义:大数据指那些数量过于宏大,因此无法通过人工等手段,在一定时间内将其截取、处理、管理并整理成简单且易于人们理解的信息的数据。因而,大数据可以称为巨量数据或海量数据5. 权威研究机构 Gartner 的定义:大数据是是一种新的信息资产,其主要特点是高增长率和海量。大数据的主要目的是为了使企业在全新处理形式下的决策能力和洞察发现能力的加强和流程的优化。对于大数据问题,是不限于一个维度上,远远高出传统信息技术处理数据能力的极端信息管理和信息处理问题6. 互联网周刊的定

3、义为:通常所指的大数据就是指大量的数据TB 级或更大及处理大量数据的相关技术,其特点能够用通用的 4V 来概括。然而,真正的大数据远远不止这些,它涵盖了所有在小数据基础上无法解决的事情,也就是讲,我们所讲的大数据,是一种以新的方式方式方法,对海量数据进行采集分析,进而获取数据中的价值,提供服务,是一种史无前例的,给社会带来宏大变革的方式。7麦肯锡的定义:大数据是一个数据集合,其集合中的数据无法通过传统的数据处理工具在有效时间内得到采集、存储和管理等处理7. 无论从哪一种定义上来看,大数据都并非一种全新的技术或者一种全新的产品,大数据只是信息数字化时代高速发展所面临的一些问题的概括,一种普遍面临

4、的现象罢了,这一点和本世纪之初就早已出现的 海量数据 有某些一样之处。那么海量数据与大数据的有什么区别呢?大数据除了包括海量数据中的构造化和半构造化数据之外还包括非构造化和交互数据。 从上世纪 60 年代至 80 年代中期,随着信息技术的进步。数据处理的方式也在不断演进。由最开场的应用程序直接管理数据的文件存储方式到具有面向性、集成性、飞易失性、时变性等特点的数据库存储方式,然后伴随着Web2.0 的兴起,人们开场广泛应用基于 Web2.0 的非关系型数据库等数据存储技术。到当前,由于社交网络的快速发展和移动终端的普及,数据关系到人们生活的方方面面,数据量呈指数形态爆发式增长,面对这样海量的且

5、纷繁复杂的数据,传统的数据处理方式已经逐步无法适应,对于怎样去发现数据中所存在的价值和了解数据之间存在的规则和关系,以往的方式方法都都无法很好解决。然而大数据技术很好的解决了这个难题。 故而我们以为,所谓大数据,就是一种利用分布式计算构架,依托云计算的分布式处理、分布式数据库、云存储和虚拟化等相关技术,通过数据挖掘与分析,从大量化、多类别的数据中提取价值的 IT 领域的一种新的技术构架。 2大数据的基本特征 大数据的特点能够概括为 4V+1C,即数量Volume、速度Velocity和种类Variety、价值性Value、复杂complexity5. Volume 指的是数据宏大的数据量以及其

6、规模的完好性。大数据聚合在一起的数据量是特别庞大的,根据 IDC 的定义至少要有超过 100T 的可供分析的数据,更多的也以为大数据至少应到达 PB 的规模。大的数据量,是大数据的基本属性。 Velocity 所指的有两个层面,其一是数据的获取速度快,其二是在数据量庞大的情况下,数据的分析和处理速度的快速,即数据的实时分析。 Variety 指数据的类别繁多,由于数据来源的多样化,数据的种类和格式也日渐丰富,除了构造化数据,非构造化和半构造数据大量存在,例如地理位置信息、视频信息、图片信息等。 Value 能够从两个方面来讲,即数据的低价值密度和高价值性。就是通过整合分析大量数据才能得出有重要

7、实际应用价值的信息。 由于大数据 4V 特性的存在,使得针对大数据的处理和分析变得愈加困难,传统的关系型数据库系统已经无法处理,需要根据不同的业务场景和业务需要,使用不同的分析处理方式方法,这样一来,其复杂度便大大增加了。 2.2 大数据处理技术 2.2.1 海量数据的存储 正如前面所描绘叙述的,大数据时代的首要特点就是海量的数据,由于互联网的发展,不同应用特性的用户规模、数据存储规模也不尽一样,大数据时代的互联网应用的中海量数据我们能够归纳出下面特性: 1用户群体大,增长速度快。eBay 的页面点击率在过去 10 年之内的平均增长率到达了日均 10 亿次,固然页面的点击次数并不能同客户人数划

8、等号,但是页面点击率同增长率可以以从一定程度上反响用户的增长规模6. 2数据总量大,增长速度快。这华而不实包括静态数据处理的图片和视频分享,大量信息互动服务的 SNS,数据的存储总量已到达 TB 级别甚至 PB 级别。随着互联网技术的迅速发展,使得这些数据量变得越来越大6. 3数据类型多样化。面对 Web2.0 时代,我们需要处理的不仅有大量用户共享的数据图片、视屏、日志等,同时还需要处理大量交互型数据邮件、消息、点击事件等。这些数据大小不一,数据类型更是多种多样。这对于海量数据存储、管理提出了严峻的考验6. 基于以上特性,对于海量数据的处理和存储就有了很多的挑战,概括如下: 1为了知足海量的

9、数据需求,数据存储系统将会更大,往往到达 TB或者 PB 级别。 2系统的良好扩展性能,能够使系统在正常运行的情况下能够适应不断增长和变换的用户群体及数据。 3存储系统的吞吐量高且具有低延时性。 4面对构造化、半构造化、非构造化等数据、都有相应的存储类型。 5对于分布式环境下的数据分布和容错等问题使用并行编程模型灵敏处理,使海量数据处理简单化。 面对着大规模的数据分析需求,由于数据访问速度越来越快等因素,面向构造化的传统数据存储方式已经无法适应。最常见的三种解决数据存储的方式是直连式存储DAS、连接式存储NAS、存储式网络SAN7,但是面对越来越多、越来越复杂的数据,这三种方式就有了各自明显的

10、缺陷。低扩展性和低性能是直连式存储的主要缺陷。链接式存储在成本上固然较低,使用也比拟便捷,然而其存储性能很低。存储式网络的构建成本较高,固然能提高数据的传输效率,然而由于其封闭式的构架使得其很难与其他系统整合。于是我们在这里提出一种基于云计算的海量数据存储模型如此图 3.1,我们应用实现了 MapReduce 计算形式的开源分布式并行框架 Hadoop8,进而实现海量数据的存储。 用户的应用请求的接受和应答在主服务控制集群中进行,此处主要起到控制的作用。产生的数据经过数据流存储到由海量数据存储能力集群系统或者磁盘阵列组成的数据存储节点集群。主服务控制集群和存储节点集群之间通过 HDFS 和 H

11、base 来实现,它们能够将数据库部署到各个节点之上。通过Hadoop 构架,用户能够在给主服务控制集群传递信息后,直接通过存储节点进行数据的读取和操作,这样就避免了由于大量的数据读取操作造成的系统拥塞。 用户的存储数据信息通过主服务控制集群传递到 Hadoop 构架,数据通过MapReduce 中的 Map 函数被进行切割计算9,进而分割成若干数据块,数据块通过 HDFS 和 Hbase 分配到各个存储节点之中,之后在将存储节点地址和数据块信息返回给主服务控制集群,用户在通过主服务控制集群获得这些信息。 通过这一经过,用户进而完成数据的存储操作。在某一节点失效时,会立即将正在处理的数据块进行

12、重新分配10.用户提取数据的时候,主服务控制集群接收到用户的提取数据信息,HDFS和 Hbase 查找到相关数据块信息并将其传送给主服务控制集群,在接收到反应信息之后,主服务控制集群在将其传回给用户。用户接收到信息之后,根据信息开创建立每个节点的下载线程,将文件块下载到本地计算机中然后利用MapReduce 的 Reduce 函数将其整合成一个完好的信息文件之后除文件块11. 当 Hadoop 发现某个节点失效时,立即将正在取出的文件交由另一空闲的节点来重新进行下载,进而保证下载顺利完成。通过利用分布式文件系统、分布式数据库、Hadoop 框架和云计算的核心MapReduce 技术,进而实现数

13、据的并行计算和分布式存储,使得存储模块能够更好的适用于海量数据的存储。 2.2.2 数据安全和隐私保卫 大数据时代最显着的一个问题便是面对越发开放的网络环境,那么要怎样保证数据的安全性,怎样使隐私得到最大的保卫。上面我已经解释了云计算是解决大数据下新型管理形式的方式方法,那么在这里,我们就讨论基于云计算的的数据安全防护。由于数据和应用都存储和运营在远端的云计算中心这一有异于传统的数据中心存储这一形式的特性,以致有人觉得云计算对于数据安全完全是一场恶梦,然而相对于传统的安全系统的高成本、高复杂度而言,云计算通过云系通通一提供服务,大大简化了管理的复杂度,进而降低了缺陷和漏洞存在的几率,云计算在构

14、架上的同质化使得安全方面的审计、评估和测试愈加简单和方便。由大型云供给商提供的的云计算服务在服务质量方面的保证也愈加确立了其安全性;多数据中心的存在也保证了服务稳定地运行。云计算安全构架主要包括 3 大部分如此图 3.2:云客户端、云端和第三方机构。云客户端通过访问云端来得到服务,第三方机构对云端的安全机制进行审核,并进行监控12. 为了使云客户端在病毒、木马和间谍软件等损害的时候能够得到保卫,防火墙、打补丁和安装杀毒软件等手段被我们使用在这里处。除此之外,为了实现云形式下的安全监测和防护,我们还充分利用了云端的超强计算能力。 面对可疑的数据流量,任何一个客户端都能够在第一时间将其送到后台的云

15、检测中心进行安全解析,假如发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁进而到达防护的作用。 为了使云客户端在病毒、木马和间谍软件等损害的时候能够得到保卫,防火墙、打补丁和安装杀毒软件等手段被我们使用在这里处。除此之外,为了1面对可疑的数据流量,任何一个客户端都能够在第一时间将其送到后台的云检测中心进行安全解析,假如发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁进而到达防护的作用。 云端的安全构架最顶层是整体监管和合规性模块,它主要用于观测

16、整个云计算体系的安全状况,使管理人员对于整个云计算中心能够施行有效的监管,避免恶性事件的发生,进而保卫整个系统的安全。通过对于云端构架的整体设计和一些相关流程的审计与合规性的定义,使整个体系所必须遵从一定的协议,以提高在整个云构架的可信度。 安全通信模块通过使用安全套接层SSL和传输层安全TLS等安全技术使云端和云客户端之间通信的完好性和私密性。它具有强大的防火墙功能和宏大的网络处理能力12. 系统的数据访问权限授予由用户管理模块负责,用户通过其获得数据访问权限,同时非受权的非法访问在这里得到阻止。用户只能根据被授予的权限进行数据的访问操作,在确保用户基本访问权限的同时,对于用户的访问行为进行

17、记录进而检测,进而发现用户的越权行为。通过集中的账号管理机制,认证管理的经过得到了简化的同时,用户的体验也能得到提高,用户的安全需求也得到了知足,在避免了风险的同时提高了效率12. 数据在数据管理模块会根据其所属组织和类型被进行分类,并通过设置相应的监管和保卫机制对数据进行处理。为了防止数据外露或被窃取,数据管理模块会对数据进行加密处理并进行备份,这样,即便是在由于硬盘故障或者管理失当的情况下,也不会造成数据的丢失。数据管理模块还会视情况选定数据的存放地点,这也是其很重要的功能之一。 在应用保卫模块,往往会使用电子证书或安全密匙等机制来确保应用发布的 API 和 Web 服务等对外接口的安全性

18、,虚拟机的安全性通过虚拟镜像的方式来确保。 系统与网络模块分为两个方面,在系统方面,不仅要做四处于不同主机的不同数据和事件之间的互相隔离,还要做到与服务器的隔离,为了实现这一目的,我们能够通过提虚拟区域和减少服务器监听端口这些方式方法来实现。 在网络方面,我们通常将其分成可信和不可信这两部分来分别对待12.对于物理设施模块,我们在确保数据中心人员安全意识和素质的同时,愈加需要考虑的是各种设备在云计算环境下的永续性和可靠性,注意其冗余的同时,重视诸如配置同步、链路捆绑聚合和硬件旁路等高级特性。进而使得系统在大流量会聚的情况之下能够得到真正的防护。 第三方机构具有成熟的技术和丰富的经历体验,因而它能够对云计算服务提供商的相关服务进行检测,通过使用标准化的技术手段找出服务的安全漏洞,评估其安全级别,进而使用户对于服务提供商有一定程度上的认识。在安全认证的同时,第三方机构还起到监管的作用,它会对云服务提供商的云端运行状况进行监控,确保其在安全范围内运行。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文 > 农业相关

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com