大数据管理技术参考架构组织.doc-得力文库

资源描述

《大数据管理技术参考架构组织.doc》由会员分享，可在线阅读，更多相关《大数据管理技术参考架构组织.doc（22页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、大数据处理技术参考架构二一五年十二月目目录录1.1.背景背景.12.2.技术目标技术目标 .23.3.技术要求技术要求 .24.4.大数据处理业务场景大数据处理业务场景.35.5.大数据处理技术对比大数据处理技术对比.45.1.MPP 与 HADOOP&SPARK技术对比.45.2.HADOOP&SPARK技术优势.65.3.HADOOP框架对比.65.4.HADOOP使用情况.75.5.HADOOP血缘关系.85.6.行业大数据应用场景对比分析 .126.6.大数据处理参考架构大数据处理参考架构.136.1.参考架构.136.2.与 JAVAEE 体系对比.146.3.参考架构运行状态.1

2、57.7.总结与思考总结与思考.16附录：名词解释附录：名词解释.181.1.背景背景随着大数据时代的到来，数据由海量拓展为多样，在注重计算速度的同时更加关注挖掘有价值的数据。以 IOE 体系为核心的数据计算和存储方式越来越不能满足目前大数据处理在性能和成本上的综合要求。为适应对大数据处理的要求，众多的分布式计算平台随之兴起，在对众多分布式计算平台进行权衡的同时，增强自主创新能力，以满足人民银行对信息技术安全可控的要求。在核心应用自主研发、核心知识自主掌控的氛围下，保障大数据技术达到灵活可用的目标，确保数据和信息的有效、及时，确保信息系统的可靠、灵活。同时，充分的利用开源产品透明公开的关键信息

3、，做到对技术细节的掌控和验证，开源产品的特点也更能够激发开发者的热情并推进技术的快速变革。在“互联网+”的战略布局下，当利用信息通信技术把互联网和包括金融行业在内的相关行业结合起来时，能够更加合理和充分的利用大数据技术促进互联网金融的健康发展。当前互联网金融的格局中，由传统金融机构和非金融机构组成。传统金融机构的发展方向主要为传统金融业务的互联网创新以及电商化创新、手机 APP 服务等；非金融机构的发展方向则主要是指利用互联网技术进行金融运作的电子商务企业、P2P 模式的网络借贷平台，众筹模式的网络投资平台或掌上理财服务，以及第三方支付平台等。在金融行业新兴业态下，为促进互联网金融的健康发展，

4、为全面提升互联网金融服务能力和普惠水平，为有效防范互联网金融风险及其外溢效应而提供技术支撑。在金融领域，新生业态层出不穷，金融机构日益多样化，金融资产的流动性快速上升，金融体系的关联度、复杂度大幅提高。金融业的快速发展和创新，使货币政策操作环境、传导渠道发生重大变化。在数据的处理分析上，对原有的宏观审慎分析框架及其有效性、准确性提出了挑战。2.2.技术目标技术目标获得最优系统价值，满足大数据的处理性能，节约系统建设成本。充分利用开源产品，做到对技术细节的掌控和验证，以保障大数据技术达到灵活可用。增强自主创新能力，满足人民银行对信息技术安全可控的要求。有效提供技术支撑，适应金融行业新兴业

5、态下对大数据技术的需要。 3.3. 技术要求技术要求在满足海量数据高效处理的同时，对用户的访问能够保持较高的实时性，快速响应用户的请求。采用的大数据技术架构能够支持水平扩展（Scale-out），适应未来五年对大数据存储和处理的需要。采用的大数据技术架构能够支持故障的检测和自动快速恢复，确保系统的高可用性。在满足大数据业务场景性能要求的同时，采用更加经济的大数据技术解决方案。4.4. 大数据处理业务场景大数据处理业务场景以统计分析类的业务场景为例，针对大数据的处理主要经过采集、存储、校验、审核、汇总、计算、分析挖掘等过程，在数据粒度上，既要包逐笔的标准化源数据，还要包括不同层次的总量指标数据

6、，从而实现对统计体系业务的全覆盖、无遗漏。统计分析类大数据处理、报表展现和信息发布的典型流程如下图所示：统计分析类业务的特点主要包括：在每个处理环节中，均能够为业务操作员提供实时的业务处理情况或处理结果的查询。校验、汇总、计算等环节中，所涉及到的运算规则均定义在数据库或配置文件中，在执行处理之前，需要获取运算规则。在报表数据生成或信息发布环节，能够提供逐笔数据、指标数据、汇总数据和报表数据的实时查询，并能够通过 BI 工具访问以上数据。统计类的数据查询多为综合查询，条件通常可由用户在查询前定制，有查询响应实时性、查询条件多样性、查询多表关联性的特点。能够灵活的通过数据挖掘技术对数据进行

7、价值分析，例如：R 语言。能够灵活的使用数据可视化技术对数据进行互动展现，例如：EChars。统计系统业务量以每月增量 40 亿笔进行估算（以每笔 1KB 估算，约 4TB/月增量数据；每笔数据平均包含 20 个字段），现有存量数据大约在 20TB。增量数据在当月 5-8 日进行校验、审核等处理，数据处理过程希望在 T+0 完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时，一般情况当月4TB 的数据全部参与计算。比较复杂场景之一是逻辑校验部分的算法，按不同的规则，有的规则会使用到当月的全部增量数据参与校验，有的规则会按金融机构维度使用当前机构的历史数据参与校验。5.5.大数据处

8、理技术对比大数据处理技术对比目前对海量数据进行分布式处理的技术主要分为两类： MPP（Massively Parallel Processing）大规模并行处理技术；MPP 技术大多用于数据仓库领域，是将任务并行的分散到多个服务器节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果的一项技术，典型的代表例如：Teradata，HP Vertica，EMC Greenplum，GBase，Oracle Exadata 等。 Apache Hadoop、Spark 技术。Hadoop&Spark 是由 Apache 基金会所开发的分布式系统基础架构，它所解决的核心问题是，通过部

9、署在低廉的硬件上的、可以协同工作的软件组件，来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。近些年在众多行业都得到广泛应用。5.1.5.1. MPPMPP 与与 Hadoop&SparkHadoop&Spark 技术对比技术对比集群规模上，MPP 技术支持近百个节点（中国大陆很少有 100+节点的案例）。Hadoop&Spark 技术支持几千个节点。扩容影响上，MPP 技术扩容通常导致停机、服务中断；数据需要重新分布，性能严重下降。Hadoop&Spark 技术扩容无需停机、服务不中断；数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。数据分布方式上，MPP 技术以

10、预定义数据分布策略，按列进行散列或轮询分布；真实数据通常有倾斜，将导致数据不均匀分布，对计算效率影响较大。Hadoop&Spark 技术中，数据按预配置的块大小自动均匀分布，通过 blockmap映射表查询数据位置；数据分布均匀、扩容无需停机。处理数据量上，MPP 技术在数十 TB 级别。Hadoop&Spark 技术在 PB 级别。容错能力上，MPP 技术不存放中间结果，出错时需要重新执行整个任务。Hadoop&Spark 技术存放中间结果，出错时只需要重新运行出错的子任务并发能力上，MPP 技术多用于分析型应用场景，数据装载时建立索引较慢；通常不超过数百个并发。Hadoop&Spark 技

11、术数据装载快，采用公平调度/配额调度；可支持上亿用户并发数据插入、查询、检索。数据存储对象，MPP 技术支持结构化数据，Hadoop&Spark 技术支持结构化、半结构化、非结构化数据。应用运算逻辑实现方式上，MPP 技术 SQL 语言，Hadoop&Spark 技术支持SQL2003、部分 PL/SQL、R、Java、Scala 等。数据访问接口，MPP 技术支持 JDBC、ODBC，Hadoop&Spark 技术支持JDBC、ODBC、R 语言接口等。MPPHadoop&Spark集群规模集群规模近百个节点（中国大陆很少有 100+节点的案例）几千个节点动态扩展动态扩展运算能力运算能力扩容

12、通常导致停机、服务中断；数据需要重新分布，性能严重下降。扩容无需停机、服务不中断；扩容时数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。数据分布数据分布方式方式数据以预定义的分布策略，按列进行散列或轮询分布；真实数据通常有倾斜，将导致数据不均匀分布，对计算效率影响较大。数据以预定义的块大小自动均匀分布，通过 blockmap 映射表查询数据位置；数据分布均匀、扩容无需停机。处理数据处理数据量量数十 TBPB容错能力容错能力不存放中间结果，出错时需要重新执行整个任务存放中间结果，出错时只需要重新运行出错的子任务并发能力并发能力用于分析型应用场景，数据装载时建立索引较慢；通常不超过数

13、百个并发。数据装载快，采用公平调度/配额调度；可支持上亿用户并发数据插入、查询、检索。数据存储数据存储对象对象结构化数据结构化、半结构化、非结构化数据应用运算应用运算逻辑逻辑实现方式实现方式SQL 语言SQL2003、部分 PL/SQL、 R、Java、Scala 等MPPHadoop&Spark数据访问数据访问接口接口JDBC、ODBCJDBC、ODBC、R 语言接口等索引索引支持支持（rowkey 索引、二维索引、全文关键字索引）5.2.5.2. Hadoop&SparkHadoop&Spark 技术优势技术优势存储、处理、分析 PB 级别的结构化、半结构化、非结构化数据。低成本运算能力，

14、使用低成本的存储和服务器构建，仅花费 40%左右价格，便可以达到甚至超越 IOE 架构的性能。动态扩展运算能力，扩容无需停机、服务不中断，数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。高扩展能力，集群规模可扩展至几千个节点。高容错能力，数据处理过程中存放中间结果，出错时只需要重新运行出错的子任务。应用运算逻辑，支持 Java、R 语言、Scala 、SQL2003 等。5.3.5.3. HadoopHadoop 框架对比框架对比Apache HadoopCloudera CDHHortonworks HDP开源程度开源程度完全开源部分开源（包含免费版/企业版）完全开源（包含免

15、费版/企业版）技术支持技术支持无每年按节点数量收费每年按节点数量收费集群部署集群部署复杂容易容易集群监控集群监控较易容易容易51% 24%25%开开源源版版本本发发行行版版（免免费费）发发行行版版（付付费费）Apache HadoopCloudera CDHHortonworks HDP集群管理集群管理较易容易容易专有代码依赖专有代码依赖无有（如：管理工具）无主要特点主要特点Apache Hadoop已经形成生态系统，除了包含HDFS、YARN、MapReduce，还包含了很多其他 Apache 项目，如：HBase、Hive、ZooKeeper、Ambari、Sqoop 等等，使用者可以根据

16、需要自由组合。通过添加专有代码实现的 Cloudera Manager 完成集群的部署和管理，并对集群的节点及服务进行实时监控。所有解决方案都通过 Apache Software Foundation 以项目形式开发，HDP 内无需专用扩展。避免随着扩展而背离主干，以及随之而来的兼容性问题。5.4.5.4. HadoopHadoop 使用情况使用情况根据咨询机构 Wikibon 在 2014 年进行的一项调查，部署 Hadoop 的机构中，仅有 25%是付费用户，而有 51%是基于 Hadoop 的开源版本自行开发，还有 24%的用户则是使用 Cloudera、Hortonworks 等 Ha

17、doop 开发商推出的免费版本。5.5.5.5. HadoopHadoop 血缘关系血缘关系IBM BigInsights 是基于 Apache Hadoop 框架的存储，管理和分析 Internet 级别数据量的半结构化和非结构化数据的方案，具备企业级管理、工作流管理、安全管理、可视化挖掘与展现等能力，能与现有基础设施和大数据流计算技术集成。产品设计思路是基于 Apache Hadoop 框架，在保持完全 100% Apache Hadoop 兼容的情况下，加入 IBM 的项目和研究开发的分析能力。整体架构如下图所示：EMC Pivotal HD 是 EMC 公司进行自主研发的 Hadoop

18、商业化产品，在 2013年 2 月独立推出的商业发行版（2013 年以前 EMC 和 MapR 公司在 Hadoop 领域为合作伙伴）。Pivotal HD 产品包括 Hadoop 2.0 的 MapReduce 和 HDFS，可以利用 Hive、HBase、Pig 开发语言、Yarn 资源管理、Mahout 分析工具和 Zookeeper工具等。还包括 Hardware Virtual Extensions（HVE）组件，它可以让 Hadoop 集群知道自己是建立在虚拟机还是物理服务器上。整体架构如下图所示：MapR Hadoop 是 MapR Technologies 公司于 2011

19、年正式发布的产品，目标是使 Hadoop 变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台，同时性能也不断提高。它将极大的扩大了 Hadoop的使用范围和方式。它包含了开源社区许多流行的工具和功能，例如Hbase、Hive。它还 100%与 Apache Hadoop 的 API 兼容。目前有 M3（免费版）和 M5（收费版）两个版本。整体架构如下图所示：天云趋势科技天云趋势科技 Hadoop 解决方案主要基于 Hortonworks 发行版，同时也提供了对 Cloudera Hadoop 发行版的支持。整体架构如下图所示：音智达音智达 Hadoop 解决方案

20、基于 Cloudera Hadoop 发行版。整体架构如下图所示：浪潮浪潮 Hadoop 解决方案基于 Intel Hadoop 发行版。整体架构如下图所示：华为华为 FusionInsight Hadoop 是完全基于 Apache Hadoop 组件构建的 Hadoop产品，在 Apache Hadoop 版本的基础上对 HBase、HDFS 和 MapReduce 等组件增加了 HA、查询和分析功能，进行了性能优化，并及时回馈 Hadoop 社区，保持版本同步，接口与社区版本完全一致。整体架构如下图所示：星环科技星环科技 Transwarp Data Hub（TDH）基于 Apache

21、Hadoop 组件构建，并在此基础之上研发了交互式 SQL 分析引擎 Inceptor、实时 NoSQL 数据库 Hyperbase和 Transwarp Manager 等引擎。同时支持 R 语言数据挖掘、机器学习、实时流处理、全文搜索和图计算和系统安装及集群配置功能。整体架构如下图所示：5.6.5.6. 行业大数据应用场景对比分析行业大数据应用场景对比分析基于基于 MPPMPP 的数据仓库的数据仓库HadoopHadoop & & SparkSpark阿里云阿里云工商银行工商银行Teradata信息库建设银行建设银行Teradata 交通银行交通银行Teradata 广发银行广发银行Or

22、acle 中国银联中国银联风险控制与交易查询（Cloudera）实时查询采用 Hadoop-HBase民生银行民生银行大数据分析平台（星环科技）实时查询采用基于 Hadoop-HBase 的星环Hyperbase恒丰银行恒丰银行数据仓库（星环科技）实时查询采用基于 Hadoop-HBase 的星环Hyperbase北京银行北京银行历史明细数据查询、司法查询（东方国信）上海银行上海银行核心系统及数据分析天弘基金天弘基金核心系统及数据分析众安保险众安保险核心系统及数据分析新华保险新华保险精准营销分析（Cloudera）中国联通中国联通通话及短信息记录舆情分析（东方国信）美团网美团网

23、大数据分析平台（Apache）实时查询采用 Hadoop-HBase 和 MySQL6.6.大数据处理参考架构大数据处理参考架构6.1.6.1. 参考架构参考架构结合统计分析 Web 应用的数据处理典型场景，在 Hadoop&Spark 开源框架中，分布式文件系统 HDFS、资源调度引擎 YARN、内存计算引擎 Spark、挖掘分析引擎 SparkR、分布式迁移引擎 Sqoop 等较为符合统计类应用场景。分布式文件系统 HDFS，是 Hadoop 体系中数据存储管理的基础，也是高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。资源调度引擎 YARN，是通用资源管理系统，可以为

24、上层应用提供统一的资源管理和调度。计算引擎 MapReduce，用以进行大数据量的计算。Hadoop 的MapReduce 与 Common、HDFS 一起，构成了 Hadoop 发展初期的三个组件。分布式数据仓库 Hive 是建立在 Hadoop 基础上的数据仓库架构，为数据仓库的管理提供的主要功能包括：数据 ETL 工具、数据存储管理和大型数据集的查询和分析能力。分布式协作服务 ZooKeeper，提供了统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper 通过封装好复杂、易出错的关键服务，将简单易用的接口和性能高效、功能稳定的服务提供给用户。分布式迁移引擎

25、Sqoop 主要作用是在结构化数据存储与 Hadoop 之间进行数据交换。Sqoop 可以将一个关系型数据库（如：MySQL、DB2 等）中的数据导入Hadoop 的 HDFS、Hive 中，也可以将 HDFS、Hive 中的数据导入关系型数据库中。内存计算引擎 Spark 是与 Hadoop 相似的开源集群计算环境，Spark 启用了内存分布数据集，基于内存进行分布式计算，除了能够提供交互式查询外，还可以优化迭代工作负载。配置管理监控服务 Ambari 是基于 Web 的工具，用于配置、管理和监视 Hadoop 集群，并支持HDFS、MapReduce、Hive、ZooKeeper、Sqoo

26、p 等框架。Ambari 还提供了集群状况仪表盘，以及查看 MapReduce、Hive 应用程序的能力，以友好的用户界面对它们的性能进行诊断。下图基于 Apache Hadoop 的开源框架，给出了大数据处理的参考架构。统计类系统数据处理流程主要包括以下步骤：采集（解压报文等文件操作）-校验（每笔数据各字段的格式校验、各笔数据之间的逻辑关系校验等）-审核（与历史数据的比对，同期/上期；或执行自定义审核 SQL、算法等）-汇总计算（指标计算、数据汇总等）-查询-数据分析-报表-信息发布。结合统计类系统的处理流程，对于现有系统的数据，可以通过分布式迁移引擎 Sqoop 将数据同步至分布式文件系统

27、 HDFS 中加以分析利用。对于采集数据的校验审核、汇总计算等应用功能，可以通过分布式数据仓库 Hive 或直接内存计算引擎 Spark 进行异步计算和处理。对于数据处理过程中的状态跟踪和监控以及简要的信息发布，可以通过分布式数据库 HBase 直接从 HDFS 中获取相应的信息。6.2.6.2. 与与 JavaEEJavaEE 体系对比体系对比通过下图的对比不难看出，大数据处理参考架构中的各类引擎主要是拓展JavaEE 体系中业务逻辑层与数据持久层对大数据的支撑。6.3.6.3. 参考架构运行状态参考架构运行状态通过下图的能够看出，参考架构在运行时，各引擎在主机节点中均会有对应的进程，YAR

28、N 的集群在运行时提供了资源的调度和管理，ZooKeeper 的集群在运行时为各引擎提供了高可用的保障。Spark 引擎中的进程分为 Master 和Worker，当节点故障时，由协作服务 ZooKeeper 进行 Master 切换，保障 Spark的持续可用。7.7.总结与思考总结与思考大数据是指不用随机分析法（如：抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的主要特点包括：海量的、高增长率的（Volume），数据处理模式的高效性（Velocity），数据来源、种类的多样化（Variety），待探勘的数据价值（Value）。从业务角度来看，在数据来源和种类多样化的环境中

29、为了能够更加深入的对数据价值进行探勘，还需要注重以下几方面：1.1. 数据来源的准确。大数据应用的核心是挖掘数据价值，而挖掘数据价值的前提是数据来源的准确性。没有准确的数据来源，很难得到有价值的结果。2.2. 数据质量的持久。为了充分挖掘大数据的价值，业务系统必须持久的保证数据质量。高质量的数据不仅仅体现在质量管控，更要有持续的治理。业务系统中需要有完善的数据质量管理流程，能够作用于数据生命周期的不同阶段。3.3. 数据标准的一致。大数据在挖掘分析之前需要先将数据标准化，利用标准化后的数据进行分析。单个业务系统内部的数据标准化主要体现在数据无量纲化处理，即：解决数据的可比性（如：指标数据的定性

30、转定量处理）。多个业务系统之间的数据标准化主要体现在数据的公共维度所遵循标准的一致性上。业务系统在规划阶段，必须充分使用人民银行公共代码规范，将业务数据的公共维度与规范统一，并遵循人民银行信息技术标准体系。4.4. 数据价值的探索。在大数据时代中业务系统已经逐渐由功能是价值转变为数据是价值，对大数据价值的挖掘是探索性的。大数据的出现填补了无数的空白，面对海量的、高增长率的、种类多样化的大数据仅采用传统的数据分析方法是不够的，需要采用大数据的思维模式，例如：由传统的因果思维转变为相关思维，深入的探索数据的关联性。从而能够更加有效的进行预测分析、辅助决策，为央行履职提供更强有力的支撑。面对海量、

31、高增长率、多样化信息资产的诸多特点，在技术上我们需要引入新的处理模式以具有更强的决策力、洞察发现力和流程优化能力。结合统计分析类业务在数据处理和数据展现环节的特点进行分析以及对原型系统的测试情况，数据处理环节采用 Hadoop&Spark 技术较为适宜，主要包括：采集（解压报文、每笔数据各字段的格式校验等文件操作）、校验（各字段的合规校验、数据之间的逻辑关系校验等）、审核（与历史数据比对，同期/上期；或执行审核 SQL、算法等）、汇总计算（指标计算、数据汇总等）各环节处理情况监控、以及挖掘分析（基于全量数据）、数据存储（TBPB）、数据整合加工和数据分发。数据展现环节采用关系型数据

32、库集群技术较为适宜，主要包括：报表、综合查询（具有实时、多表关联、自定义条件或表样的特点）、多维分析（如：维度表、事实表）。在研发能力方面，现有的技术团队在 Hadoop&Spark 技术方面的技能和经验比较欠缺，特别是大数据相关的技术正处于成长阶段，技术团队丰富的实践经验尤为重要，否则难以快速响应和处理突发问题。具有大数据处理需求的系统在建设过程中，可以考虑通过与实施经验丰富的、有较强的自主研发能力的大数据技术平台厂商或技术团队进行合作。一方面，能够通过借鉴外界成熟的实践经验，来应对研发能力不足所带来的风险；另一方面，能够引入外界技术力量对系统研发过程进行指导，促进大数据技术团队的组建。

33、附录附录：名词解释：名词解释大数据大数据：由维克托迈尔-舍恩伯格和肯尼斯库克耶在 2008 年 8 月提出，大数据指不用随机分析法（如：抽样调查）这样的捷径，而采用所有数据进行分析处理。全球最具权威的 IT 研究与顾问咨询机构 Gartner 将大数据定义为，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。IBM 提出大数据的 5V 特点，Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）和 Veracity（真实性）。2015年 8 月国务院在促进大数据发展行动纲要中指出，大数据是以容量大、类型多

34、、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。互联网互联网+：“互联网+”是把互联网的创新成果与经济社会各领域深度融合，推动技术进步、效率提升和组织变革，提升实体经济创新力和生产力，形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。IOE：指服务器提供商 IBM，数据库提供商 Oracle，存储设备提供商 EMC 的简称。互联网金融互联网金融：是传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融

35、业务模式。P2P 借贷借贷：peer to peer 网络借贷的一种模式，包括个体网络借贷（即 P2P网络借贷）和网络小额贷款。个体网络借贷是指个体和个体之间通过互联网平台实现的直接借贷。众筹众筹：股权众筹融资，主要是指通过互联网形式进行公开小额股权融资的活动。股权众筹融资必须通过股权众筹融资中介机构平台（互联网网站或其他类似的电子媒介）进行。第三方支付平台第三方支付平台：指一些和产品所在国家以及国内外各大银行签约、并具备一定实力和信誉保障的第三方独立机构提供的交易支持平台。x86 架构架构：由 Intel 推出的一种复杂指令集，用于控制芯片的运行的程序。x86 架构于 1978 年推出的 I

36、ntel 8086 中央处理器中首度出现。HDFS：Hadoop Distributed File System，Hadoop 分布式文件系统，是Hadoop 体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。YARN：Hadoop Distributed File System，YARN 是 Hadoop 的资源管理器，它是一个通用资源管理系统，可以为上层应用提供统一的资源管理和调度。MapReduce：Hadoop 的计算框架，用以进行大数据量的计算。Hadoop 的MapReduce 与 Common、HDFS 一起，构成了 Hadoo

37、p 发展初期的三个组件。Hive：建立在 Hadoop 基础上的数据仓库架构，它为数据仓库的管理提供的主要功能包括：数据 ETL 工具、数据存储管理和大型数据集的查询和分析能力。ZooKeeper：分布式系统的可靠协调服务，提供的功能包括：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper 的目标是封装好复杂、易出错的关键服务，将简单易用的接口和性能高效、功能稳定的服务提供给用户。Sqoop：SQL-to-Hadoop，Sqoop 主要作用是在结构化数据存储与 Hadoop 之间进行数据交换。Sqoop 可以将一个关系型数据库（如：MySQL、Oracle 等）

38、中的数据导入 Hadoop 的 HDFS、Hive 中，也可以将 HDFS、Hive 中的数据导入关系型数据库中。Ambari：Ambari 是一个基于 Web 的工具，用于配置、管理和监视 Hadoop集群，并支持 HDFS、MapReduce、Hive、ZooKeeper、Sqoop 等框架。Ambari 还提供了集群状况仪表盘，以及查看 MapReduce、Hive 应用程序的能力，以友好的用户界面对它们的性能进行诊断。Spark：Spark 是与 Hadoop 相似的开源集群计算环境，Spark 启用了内存分布数据集，基于内存进行分布式计算，除了能够提供交互式查询外，它还可以优化迭代工作负载。MPP：Massively Parallel Processing 大规模并行处理技术，大多用于数据仓库领域，能够将任务并行的分散到多个服务器节点上运行，并将结果汇总的一项技术。例如：Teradata，HP-Vertica，EMC- Greenplum，GBase，Oracle-Exadata 等。

展开阅读全文