大数据生态系统科学图谱组成及生态发展.doc

上传人:阿宝 文档编号:3365711 上传时间:2020-08-14 格式:DOC 页数:48 大小:948.50KB
返回 下载 相关 举报
大数据生态系统科学图谱组成及生态发展.doc_第1页
第1页 / 共48页
大数据生态系统科学图谱组成及生态发展.doc_第2页
第2页 / 共48页
点击查看更多>>
资源描述

《大数据生态系统科学图谱组成及生态发展.doc》由会员分享,可在线阅读,更多相关《大数据生态系统科学图谱组成及生态发展.doc(48页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、大数据生态系统科学图谱组成及生态发展(一)大数据的生态发展在喜新厌旧的技术初创企业界,已有3年历史“大数据”听起来似乎已经过气了。虽然Hadoop在2006年已经出来,但“大数据”这个概念大概是在2011到2014年左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,“大数据”成为了新的“金子”或者“石油”。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年可能是数据领域的那些酷小子转移兴趣,开始沉迷于AI以及机器智能、深度学习等许多相关概念的年份。图6.1:2016年大数据版图抛开不可避免的炒作周期曲线态势不管,我们的“大数据版图”已

2、经进入第4个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知,或者与大众相关联的:比如移动应用、社交网络、可穿戴、虚拟现实等。但大数据基本上就是管道设施的一种。当然,大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等,这些东西都是在后端运行的,没几个人能看得见。就像在那个世界工作的任何人都知道那样,用一个晚上的时间就想适应企业端的新技术是不可能的。大数据现象在早期主要是受到了与一批骨

3、干互联网公司的共生关系的推动,这些公司既是核心大数据技术的重度用户,同时也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时,由于本身缺乏传统的(昂贵的)基础设施,也没有办法招募到一些最好的工程师,所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展,一大批此类新技术开始共享到更广的范围。然后,一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些“数字原生”公司,包括崭露头角的独角兽公司,也开始面临着互联网大公司的类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生,并获得了更多的VC

4、资助,从而带动了大数据的起势。快速发展了几年之后,现在我们面临的是更加广阔、但也更加棘手的机遇:让中等规模到跨国公司级别的更大一批企业采用大数据技术。这些公司跟“数字原生”公司不一样的是,他们没有从零开始的有利条件。而且他们失去的会更多:这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的,组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点,但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有,令创业者感到绝望的

5、是,许多企业仍顽固地拒绝把数据迁移到云端。(二)大数据生态系统的组建还需要理解的另一个关键是:大数据的成功组建不在于实现技术的某一方面,而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成,而有的则需要人来做。一切都需要无缝集成起来。最后,要想让所有这一切发挥作用,整个公司从上到下都需要树立以数据驱动的文化,这样大数据才不仅仅是个“东西”,而且就是那个关键的“东西”。即有一堆艰苦的工作要做。所以,这就是在经过几年引人瞩目的初创企业如雨后春笋冒头,VC投资频登头条后,我们开始步入大数据的部署期和早期成熟

6、期的原因。更有前瞻性的大公司在2011到2013年间开始实验大数据技术,推出了若干的Hadoop试点计划或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位。他们进行了各种努力,包括把全部数据都堆到一个数据容器,然后希望紧跟着就会发生奇迹。在逐步建设自己的内部能力,试验了各种供应商,从试点计划到生产中的局部部署,然后到现在争论要不要全企业铺开。许多情况下,他们正处在这样一个重要的拐点上,即经过大数据基础设施的数年建设后,能够展示的成果还不多,至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了,现在开始进入到有影响力的应用部署阶段了。只是从目前来看,这种建构在核心架构之

7、上的应用数量还不成比例。接下来的一波大公司大多数时候对大数据技术是持观望态度的,对于整个大数据方面的东西,他们还在心存一定程度困惑中观望。直到最近,他们还在指望某个大型供应商会提供一个一站式的解决方案,不过现在看来这种情况近期内并不会出现。他们看待这个大数据版图的态度是心怀恐惧,在想自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作,然后修补出各种解决方案。随着该领域的创业活动持续进行以及资金的不断流入,加上适度的少量退出,以及越来越活跃的技术巨头,使得这个领域的公司日益增多,最后汇成了这幅2016版的大数据版图。这张图已经很挤了,而且还有很多都没办法列进去,但在基本趋势方面,行动开

8、始慢慢从左转到右,从基础设施层转移到分析层乃至应用层,“大数据原生应用”已经在迅速冒头这多少符合了我们原先的一些预期。即便在数据库的世界里,新兴的厂家也越来越多。多到市场已经难以承受的地步,这里发生了很多令人兴奋的事情,从图形数据库的成熟,到专门数据库的推出,乃至于CockroachDB的出现,数据仓库也在演变。其实最近出现复兴的AI很大程度上算是大数据的产物。深度学习背后的算法基本上是几十年前就诞生了的,但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI与大数据之间的关系如此紧密,以至于业界专家现在认为AI已经令人懊恼地“与大数据陷入了热恋当中”。不过反过来

9、,AI现在也在帮助大数据实现后者的承诺。分析对AI/机器学习越来越多的关注也符合大数据下一步演进的趋势:现在数据我都有了,但究竟从中能得到什么样的洞察呢?当然,这件事情可以让数据科学家来解决,从一开始他们的角色就是实现机器学习,否则的话就得想出模型来发现数据的意义。但是机器智能现在正在逐渐发挥辅助数据科学家的作用只需要倒腾数据,新兴的产品就能从中提炼出数学公式或者自动建立和推荐最有可能返回最佳结果的数据科学模型。一批新的AI公司提供的产品能够自动识别像图像这样的复杂实体,或者提供强大的预测性分析。但不管怎样,AI/机器学习绝不是大数据分析唯一值得关注的趋势。大数据BI平台的普遍成熟及其日益增强

10、的实时能力也是一个令人兴奋的趋势。随着一些核心基础设施的挑战得到解决,大数据应用层正在快速构建。在企业内部,已经出现了各种工具来帮助跨多个核心职能的企业用户。比方说,销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失,且速度越来越实时化。客服应用帮助个性化服务。人力应用帮助找出如何吸引和挽留最好的员工等。专门的大数据应用几乎在任何一个垂直行业都有出现,从医疗保健到金融、时尚乃至于执法。有两个趋势值得强调一下:首先,这些应用很多都是“大数据原生”的,本身都是依托在最新的大数据技术基础上开发的,代表了一种客户无须部署底层大数据技术即可利用大数据的有趣方式因为

11、那些底层技术已经是打包的,至少对于特定功能来说是这样的。比方说,ActionIQ就是在Spark基础上开发的,所以它的客户能够在营销部门利用Spark的威力而不需要自己部署Spark,这种情况下是没有“装配线”的。其次,AI在应用层也有很强大的存在。比方说,在猫捉老鼠的安全领域中,AI被广泛用来对付黑客,实时识别和对抗网络攻击。去年已经出现了一个AI驱动的数字助手行业,支持从任务自动化到会议安排以及购物等几乎一切事情。这些解决方案对AI的依赖程度不一,从几乎100%自动化到“有人参与”等情况各不相同,但是可以明确的是,人的能力在AI帮助下得到了增强。(三)大数据生态系统的内涵大数据企业生态系统

12、最早是由美国学者James Moore提出的,他借用生态学的概念来解释企业组织及其与环境之间的关系。Moore,J.认为企业生态系统是指由相互作用的企业组织与个人所形成的经济群体,包括生产商、销售商、消费者、供应商、投资商、竞争者、互补者、企业所有者以及有关的政府。该概念表示企业生态系统是一个相对开放的系统,这个系统中所有的组成要素相互影响、相互促进;同时,企业生态系统也会受到外部环境的制约和影响,企业生态系统在各种内外部力量的作用下得到演化和发展。“大数据”背景下,企业生态系统和外部环境之间的边界日趋模糊,信息共享和知识溢出已成为企业生态系统中各成员合作竞争与协同演化的主要方式之一。在这种竞

13、争环境下,信息和知识成了企业经营管理中的重要生产要素,也是决定企业创新能力的关键。通过选择和构建良好的企业生态系统,从外界获取有价值的数据和知识,是企业提高核心竞争力、获取持续竞争优势的重要途径。(四)大数据生态系统的重新审视6.4.1产业环境:行业融合与细分协同演化企业生态理论认为,包含众多企业的企业生态系统与外部环境相互交流相互影响,企业生态系统不仅受到外部环境的制约,同时它也具备影响甚至改变环境的能力。随着“大数据”时代的到来,企业生态系统的产业环境发生了革命性的变化,呈现出产业融合与细分协同演化格局。一方面,产业融合愈发明显,以前认为不相关的行业通过“大数据”技术有了内在的关联,行业之

14、间潜在的价值关联有了新的表现形式。如传统的零售企业开始进军电子商务;物业管理公司通过对社区视频数据分析能够开展个性化的广告业务;从事电子商务的阿里巴巴已涉及金融、物流、云计算等行业。因此,“大数据”的挖掘和应用促进了行业间的融合,也创新了企业的盈利模式。另一方面,“大数据”时代企业生态系统变得更加开放,竞争异常激烈,广泛而清晰地对“大数据”进行挖掘和细分,找到企业在垂直领域的业务和应用,已经成为企业脱颖而出形成竞争优势的重要方式。如社交网络的发展,诞生了一批专注开发导购应用程序的企业,通过收集客户社交数据挖掘其内在的商品偏好和需求,为相关的电子商务企业提供商品导购服务。例如,“大数据”也不再是

15、企业生态系统中的大企业所独占,中小企业也可以从“大数据”中挖掘有价值的信息,成为细分市场的核心资源,为自身的业务提供支持。因此,在“大数据”时代,企业生态系统面临的产业环境精彩纷呈,这种产业环境的变化改变了企业对外部资源需求的内容和方式,创新了企业创造价值、传递价值的方式和路径,模糊化了企业生态系统的资源边界、市场边界和契约边界,企业生态系统必将形成以“大数据”为核心资源的业务融合与市场细分协同演化,重构其内部价值网络和外部关系网络。6.4.2运营模式:基于“大数据”的协同运作在“大数据”背景下,企业生态系统的协同合作更为紧密和精确,基于“大数据”资源构建以流程优化和客户订单为导向的协同运作模

16、式已成为企业生态系统的主要运营模式,基于“大数据”应用的协同运作主要表现为:协同设计。在产品的设计阶段,加强伙伴间的合作与沟通,倾听客户的心声、考虑产品对环境的影响是提高产品竞争优势的关键,这就需要企业生态系统的各成员共同参与进行协同设计。传统的设计都是基于企业自身收集的历史数据和静态数据,不能实时动态的把握客户的需求变化。“大数据”资源的开发和应用,为企业生态系统的协同设计提供了数据支撑和智力支持,企业通过构建基于“大数据”的协同产品设计平台,实时获取设计研发企业、生产制造企业、销售企业等成员企业的反馈信息和知识溢出,为提高产品设计质量提供了智力支持。同时,“大数据”技术的应用,能实时捕捉客

17、户的需求数据,针对每一个消费者进行完全个性化设计。例如,玩具行业巨头乐高基于在线订购的允许客户组装他们自己乐高套件的乐高工厂,对其所需的玩具进行自我设计,以实现客户参与玩具的创造。协同生产。协同生产的本质就是企业在应用CAD、CAM、CAPP、ERP等管理信息系统的基础上,将任务实时合理的安排给各成员企业和企业内部的各制造单元。这个过程难度最大的就是对来自企业内外部制造过程中多态的、异构的、实时数据的整合和应用,“大数据”技术开发和平台应用为实现协同生产提供了便利。如以MapReduce和Hadoop为代表的非关系数据分析技术,可以直接对复杂异构的数据进行分析,避免了传统数据库耗费大量时间从不

18、同来源抽取数据加以合并才能用于分析的复杂过程。通过应用这些“大数据”处理技术,企业实时收集处理供应商数据、客户订单数据、生产车间信息、竞争对手信息、外部市场需求等信息,协调原材料提供商、半成品生产企业、产品生产企业等合作伙伴的生产决策,优化企业生态系统的流程,实现协同生产。协同库存。传统的企业库存管理中,满足客户需求的同时又尽可能地降低库存成本一直是企业需要破解的难题,“大数据”的开发和应用为解决这一难题提供了可能。企业生态系统中的合作伙伴,通过对客户企业的实时交易数据、实时生产信息、消费信息等数据的分析,能提前预判客户市场的需要并进行库存补给和管理。例如,全球最大的零售企业沃尔玛和宝洁公司,

19、建立了基于卫星分析的联合库存管理系统,宝洁公司每天能对沃尔玛销售自己产品的实时数据进行分析,并根据分析结果预测和补充库存,既保证了客户的需要又降低了库存成本。协同物流。物流运输规划的基石是数据,“大数据”的特征为企业生态系统中各合作伙伴实施协同物流提供了天然优势。企业通过实时收集和分析供应链系统中原材料、半成品、产品的物流运输信息,从供应链系统视角对各节点企业的仓储选址、物流配送线路、逆向物流进行协调优化,充分利用物流信息资源提高物流效率。如Teradata天睿公司通过建立了“大数据”分析系统,通过获取、整合、分析客户企业、物流设备、物流运输线路、天气等的信息数据,做到智能化的实时安排物流线路

20、,实现整个合作伙伴的协同物流。因此,通过“大数据”的整合和分析,企业生态系统的合作伙伴能优化企业内外部流程,提高产品质量,降低资源消耗,实现个性化定制生产的同时能更好地适应环境的变化,以实现协同运作。(五)大数据生态系统资源的多元化在“大数据”背景下,信息数据已经成为企业生态系统中核心资产,数据传递、信息共享已经成为企业生态系统中成员的重要合作途径。由于“大数据”资源的动态配置和应用,企业生态系统的合作方式呈现出多元化,主要有:业务外包(Outsourcing)。以“大数据”为核心资源的运营体系中,“大数据”运行的基础设施和技术开发具有投入成本大、风险高等特征;同时,“大数据”资源具有易复制、

21、易传播、价值流失快等特点,这就使得企业在“大数据”资源获取和利用方面倾向选择生态系统中合作伙伴的分享与合作,以实现企业生态系统中“大数据”资源的柔性配置和规模效率,因此,业务外包已经成为企业生态系统协同商务的主要形式之一,如IT设施外包、“大数据”软件开发外包、数据管理外包等。众包(Crowdsourcing)。众包是指把传统上由指定代理人(如雇员)完成的任务以公开选拔的形式外包给大量不特定的个人去做的行为。众包模式的实质是对离散、零乱的资源的有效利用,深度挖掘“大数据”蕴含企业生态系统的集体智慧,为企业提供创意设计、生产规划、市场推广、策略评估等服务。如IT产业,开源社区(open Sour

22、ce Community)就是众包的典型模式,各大IT巨头都争相采取这种模式构建自己的创新生态系统。许多世界性大公司也都建立了自己的网络平台或者借助众包中介(Crowd sourcing Intermediates)以众包方式解决技术、创意、设计等原来由企业内部流程和资源完成的活动。例如,加拿大矿产公司Gold Corp为解决Red Lake矿区的矿脉定位问题,在网络上公布了该矿区几十年来全部的地质数据,在短短几周内收到大量网民的积极反馈,并根据网民建议从110个矿点中准确地发现了80多处矿藏。共同创造(Co-creation)。共同创造就是让企业生态系统中各成员企业、消费者、投资商、竞争者、

23、互补者、政府组织等主体共同参与产品的价值创造。从企业生态系统商务圈的视角看,实现共同创造的基本途径就是企业整合来自多元系统的数据,包括外部生态系统、外部供应商、消费者等获取信息数据以共创产品。例如,玩具行业巨头乐高基于在线订购的允许客户组装他们自己乐高套件的乐高工厂,以实现客户参与玩具的创造。(六)大数据生态系统的个性化精准细分当今市场的竞争日趋激烈,客户需求高度个性化,产品的生命周期越来越短,传统的企业数据主要来自客户信息、产品、交易等结构化数据,难以对客户的潜在需求进行精确的预判和个性化的细分。“大数据”技术的开发和应用,使得企业进行客户市场决策所依赖的市场信息在数据量、数据结构、数据模态

24、和时效上都发生了根本性的变化,能对客户的行为、状态、商务圈等非结构化的数据进行动态的监控和实时挖掘,深刻洞察用户消费动机和偏好。 因此,这种“大数据”的变化引发了企业生态系统营销环境的变革,让企业在目标市场选择和营销管理决策时进行定量分析和提前预判,通过对其生态系统中客户信息全面的分析和处理,就能实现精准营销,降低营销成本,提高营销效果。(七)大数据生态系统的演化6.7.1“大数据”时代企业生态系统演化的内在机理企业生态系统是一个动态、复杂系统,其演化过程表现出很强的自组织过程特征,根据耗散结构理论,系统产生自组织现象,形成耗散结构,必须满足以下条件:开放及开放到一定程度、远离平衡态、非线性相

25、互作用和涨落。这些条件在企业生态系统的形成过程中均有着自己的作用,也是促使企业生态系统演化的内在条件和动力。在“大数据”背景下,企业生态系统这些自组织形成的条件显得更加明显和充分。企业生态系统的开放性及开放程度。企业生态系统不是封闭孤立的系统,一方面,它必须不断从周围环境输入维持其运行与发展所必需的能量、物质与信息;另一方面,它又必须将自身所产生的能量、物质或信息输出给周围环境,如产品提供、知识溢出、环境污染等。在“大数据”背景下,企业生态系统的开放性更加明显,开放程度更高。表现为:以互联网、海量数据存储、云计算等为代表的信息技术让企业生态系统的成员从外界获取产品、客户、市场、竞争对手等方面的

26、数据更加便利;“大数据”的处理和应用,企业生态系统内部各合作伙伴之间的数据传递和信息共享更加频繁,对企业决策的影响愈发明显;各企业生态系统之间的知识溢出更加丰富,合作与竞争呈现出多元化趋势。因此,基于“大数据”的连接与融合,企业生态系统传统的企业边界、行业边界愈发模糊,企业生态系统的开放性更加明显,企业不仅要适应环境,参与开放系统的竞争,而且也具备了影响和改变环境的条件和能力。企业生态系统远离平衡态。企业生态系统远离平衡态意味着系统内部存在着物质转换、能量流动、信息传递等各种活动状态,呈现出各种活动的交锋与激烈碰撞,这种碰撞在企业生态系统中表现为远离平衡态的企业间横向整合和纵向应用,如行业竞争

27、对手的消失以及潜在威胁者的加入、企业战略联盟的形成与瓦解、供应链中节点企业的退出与新合作伙伴的加入,客户的维系与流失。企业生态系统内部的非线性相互作用。根据自组织理论,企业生态系统的自组织演化就是在其内部大量子系统以及企业和其他组织在既竞争又协同的非线性相互作用下发生、发展的。“大数据”背景下,企业生态系统的非线性作用一方面表现为企业间的竞争关系,各企业力争通过对“大数据”的分析来获取资源、技术、客户,并采取保密和限制等措施防止自身的数据外泄和知识溢出,以使自身取得功能上的有利态势与协商中的有利地位,从而加速了非平衡的竞争关系。另一方面,“大数据”技术促使企业生态系统内部进一步协同合作,以电子

28、商务平台以及中介网络平台的双方或多方互动数据,掌握了更精确更丰富的决策信息,对降低市场中供需双方的信息不对称、解决市场失效、提高企业利润起着关键的作用;如供应链伙伴之间通过监测、分析、共享各环节的数据实现联合库存和准时制造,提升了整个生态系统伙伴的竞争力。因此,“大数据”背景下,企业生态系统各要素之间表现为既竞争又合作的非线性作用,推动企业生态系统的优化和动态发展。企业生态系统的涨落。涨落指系统参量在一个数值上下震荡的现象,它是系统形成有序结构的原始动力,企业生态系统涨落的结果是使偏离平衡态的系统恢复到原来的状态,或者使处于某一临界点上的系统达到一种新的稳定状态,呈现出原有状态所不具备的新功能

29、,实现企业生态系统的升级与进化。“大数据”背景下,企业生态系统的各成员表现得更为动态和不确定性,其结构也更具脆弱性,以知识为核心要素的技术创新对企业生态系统涨落的冲击力更大。因此,有价值的数据是企业制定战略决策、技术创新、挖掘顾客需求的指南针,也是改变企业生态系统的有序结构、形成企业生态系统耗散结构的触发器,从而促使企业生态系统偏离原有的稳定状态,进入新的稳定状态。6.7.2“大数据”时代企业生态系统演化的外部机制上面基于自组织理论分析了“大数据”时代企业生态系统演化的内在机理,这是决定企业生态系统演化的方向和状态,但各组织在企业生态系统演化的过程中还得经过环境的选择,只有适应环境并得以健康发

30、展的企业生态系统才是真正的演化,所以,环境选择成为企业生态系统演化的外部机制。在“大数据”背景下,企业生态系统面对的环境选择更为复杂,外部环境可能是企业生态系统的稳定有序演化的助推器,也可能是破坏和干扰企业生态系统有序运行的导火线。外部环境的选择主要包括三个方面:第一,企业生态系统之间的复杂竞争关系,企业生态系统之间基于数据情报的市场争夺、技术竞争和产品较量更为直接和激烈;另一方面,被“大数据”信息包围的企业生态系统开放程度更高、界限更为模糊,企业生态系统之间呈现出协同、融合等状态,如企业生态系统之间的知识溢出、技术创新呈现出相互学习、相互促进。这种基于“大数据”的连接与融合,会突破传统的企业

31、生态系统边界,引发基于“大数据”的产业链延伸和行业变革。第二,“大数据”背景下,社会、经济、文化等环境因素的改变,包括客户需求和消费习惯呈现出完全的个性化和多样化、“大数据”技术引导的政府政策的设计和选择、企业生态文化融合性等方面都会直接冲击到企业生态系统演化的速度和效果。第三,自然界因素,如企业生态系统生存发展过程中所需的自然资源、物质介质等自然界的因素。因此,“大数据”的处理和应用,企业不仅能适应环境,参与开放系统的竞争,而且也具备了影响和改变环境的条件和能力。在企业生态系统自组织的内部动力和外部环境相互作用下,会进行方向性的战略选择,实现整个企业生态系统的优化和升级。(八)大数据生态系统

32、的构建策略在“大数据”时代,遵循企业生态系统的特征和演化规律,建构良好的企业生态系统是企业获取持续竞争优势的关键。6.8.1构筑以“大数据”为核心资源的企业生态系统商业模式“大数据”技术的发展为信息的分离提供了平台和工具,通过对“大数据”资源的分类整理和重新聚合,能够形成新的信息和资源。对“大数据”资源规模经济和范围经济的追求促使了以“大数据”为中心的价值链延伸,通过数据挖掘、分享、价值传递,必将引起企业生态系统的价值主张、业务流程、盈利模式、价值网络等商业模式要素的改变,形成企业生态系统新的商业模式。例如,淘宝网在运行的过程中采集和存储了海量的交易数据,并构建了自己高性能的云存储系统Ocea

33、n Base,该云存储系统形成了面向进驻商家的多项数据产品,不仅能为商品企业、淘宝卖家、交易中介、消费者提供各类优化工具和数据服务;同时,利用Ocean Base开源还可以为非淘宝的其他电子商务网站提供数据产品服务,为各类网站及社区提供电子商务解决方案,彻底完成了从交易平台到为整个生态系统提供商务服务的角色转变,创新了以“大数据”为核心资源的商业模式。6.8.2畅通企业生态系统的数据交流渠道“大数据”具有多样化、数据量大、生产的和处理的速度快等特征,一般无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理和服务。因此,建立在“大数据”基础的企业生态系统必须打造先进的基础设施,

34、构建良好的数据处理和知识共享环境,畅通企业生态系统的数据交流渠道。这主要包括:加大对计算机基础设施建设的投入,建设高效的企业生态系统网络、服务器处理和存储系统、云计算平台等硬件系统,提高处理数据的效率;促进数据库系统、数据仓库系统的建设,建立对非结构化数据、非数值型数据进行有效管理的数据存储系统;开发科学的数据挖掘系统,建立良好的数据收集、处理、挖掘、决策支持等软件系统;要结合企业生态系统的实际应用开辟数据交流与共享的渠道,如电子社区、企业生态系统内部网、供应链协同知识管理系统等。通过构建良好的数据处理和知识共享系统,就能形成“大数据”核心资产,提高“大数据”的传递和应用效益。6.8.3创新以

35、“大数据”为基础的关键业务和活动流程“大数据”背景下,企业生态系统的主体、资源、结构、价值、边界网络等要素进行不断的动态演化和重构,创新以“大数据”为基础的关键业务和活动流程是企业生态系统获取竞争优势的动力源泉。创新以“大数据”为基础的关键业务和活动流程主要包括:基于“大数据”的流程优化,提高业务流程的处理效率。如物流企业通过对合作伙伴多维“大数据”的分析,找出企业物流配送的最优运输模式和路线,提高物流配送效率;应用“大数据”作为企业活动的关键资源,创新企业生态系统的价值活动。如玩具制造企业,通过挖掘企业生态系统中合作伙伴的交易数据、客户购买行为数据、产品质量数据等关键资源,改进产品的设计和性

36、能,创造企业新的价值增长点;以“大数据”活动取代企业传统的业务和流程,形成企业生态系统新的经营方式和合作模式。如沃尔玛和宝洁公司,通过对商业数据的分析形成联合库存管理,改变了传统的库存管理的业务类型和活动流程。6.8.4构建精确的客户关系管理系统当今经济已进入买方市场,实时的、动态的、个性化的客户需求愈发难以预测,并成为企业生态系统中最不确定的因素。现有的企业CRM其数据主要来自客户、产品、交易等结构化数据,对客户的行为、状态、商务圈等非结构化的数据还不能动态的实时挖掘和处理,难以对客户的潜在需求进行精确的预判和定位。在大数据背景下,数据量成倍增长,数据的类型也不断地丰富,网页、文件、日志,新

37、的数据存储形式不断地兴起,因此,如何构建先进的CRM,对客户的信息进行全面的分析和处理,是企业决胜市场的关键。6.8.5培育以“大数据”处理和应用为中心的企业生态系统文化企业从海量杂乱无章的“大数据”里要挖掘出对企业决策有参考价值的数据,需要经历发现、提取、加工、创新等一系列复杂过程,同时需要企业生态系统全体成员参与数据的管理和控制,形成以数据为支持的决策导向。这就需要完善企业生态系统的数据处理制度,形成重视数据处理与应用的企业生态系统文化,主要措施包括:建立数据收集和与处理的制度文化,包括数据收集、存储制度、数据传递、共享制度、保障数据安全制度等;建立起企业员工对数据处理和应用的理念,通过员

38、工技能培训、学习、讨论、考核等方式深化企业员工对数据开发和应用的意识,让企业生态系统全体成员普遍接受以数据应用和核心的工作方式;在企业生态系统成员之间建立行之有效的知识激励机制,包括知识明晰机制、知识绩效机制、知识奖惩机制,以形成特有的、规模化的、不断创新的知识资产和核心生产要素,培育重视“大数据”处理和应用的企业生态系统文化。(九)大数据分析系统架构之探讨6.9.1 Hadoop生态圈Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distr

39、ibuted File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNode。NameNode作为master服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息,包括文件信息、 文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说,HDFS通过NameNode对用户提供 了一个单一的命名空间。Da

40、taNode作为slave服务,在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有 的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给Name Node。在Hadoop的系统中,会有一台master,主要负责Name Node的工作以及Job Tracker的工作。Job Tracker的主要职责就是启 动、跟踪和调度各个Slave的任务执行。还会有多台slave,每一台slave通常具有Data Node的功能并负责Task Tracker的工作。 Task Tracker根据应

41、用要求来结合本地数据执行Map任务以及Reduce任务。MapReduce用于大规模数据集群分布式运算。任务的分解 (Map)与结果的汇总(Reduce)是其主要思想。Map就是将一个任务分解成多个任务,Reduce就是将分解后多任务分别处理,并将结果汇总为最终结果。H Base是基于HDFS存储的一个分布式的、面向列的开源数据库。它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。可以这么理解,在 HDFS上,我们看到的是一些非结构,零散的文件数据,透过H Base可以将这些零散的、非结构文件数据结构化。从而可

42、以进行一些高层次的操作,例如建表、增加、删除、更改、查找等,与传统的数据库不同的是H Base采用的是列式存储而不是行式存储。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 构建在

43、基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此,Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,

44、Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。Apache Pig是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能够查询存储在Hadoop的HDFS和H Base中的PB级大数据。已 有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足

45、查询的交互性;相比 之下,Impala的最大特点就是快速。Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。Chukwa是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 H

46、DFS 中供 Hadoop 进行各种 MapReduce 操作。ApacheMahout是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。Hama是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。6.9.2 Spark生态圈Spark是基于内存分布式的计算框架。spark立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark 启用了内存分布数据集

47、,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架,而Scala的语言特点也铸就了大部分Spark的成功。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集

48、群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负 载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。Spark 还引进了名为 弹性分布式数据集 (RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建。重建部分数据集的过程依赖于容错机制,该机制可以维 护 “血统”(即充许基于数据衍生过程重建部分数据集的信息)。RDD 被表示为一个 Scala 对象,并且可以从文件中创建

49、它;一个并行化的切片(遍布于节点之间);另一个 RDD 的转换形式;并且最终会彻底改变现有 RDD 的持久性,比如请求缓存在内存中。Spark 中的应用程序称为驱动程序,这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似,Spark 支持单节点集群或多节点集群。对于多节点操作,Spark 依赖于 Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。 Graph X是基于Spark的图处理和图并行计算API。Graph X定义了一个新的概念:弹性分布式属性图,一个每个顶点和边都带有属性的定向多重 图;并引入了三种核心RDD:Vertices、Edges、Triplets;还开放了一组基本操

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com