智慧吴中大数据平台建设方案书.pdf-得力文库

资源描述

《智慧吴中大数据平台建设方案书.pdf》由会员分享，可在线阅读，更多相关《智慧吴中大数据平台建设方案书.pdf（37页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第 1页1大数据平台项目建设方案大数据平台项目建设方案1.1 大数据平台建设目标与内容大数据平台建设目标与内容建设目标陈伟为大数据概括出四方面特征，“首先在于体量大，是一个数据全集的概念，第二是类型多，包括结构化数据、半结构化数据、非结构化数据等多种类型，其中视频数据在目前占到了 90%以上的总额；第三要求速度快，需要以秒级为目标进行实时动态处理。最后在于价值密度，由于大量有用和可能没用的数据并存，遍地是金子，又遍地是沙子”，所以大数据的目的就在于从庞大的数据集合中找寻有价值的数据和知识，通过分析挖掘为各行业提供真正的智慧，“可以说 21 世纪是数据钻出石油的时代。”我们要将各种系统的各种有用

2、数据汇集起来，通过一个统一的平台管理与分析，这就是大数据平台的最大优势。本期建设内容大数据平台的发展是基于云计算平台不断升级并向数据库大数据应用靠拢的一个过程，可更好的适应关系型计算模式，拥有不同结构数据的综合管理、提供同时支持在线分析处理（OLAP）和在线事务处理(OLTP)能力以及多存储模式等，会在未来发挥不可估量的作用。1.2 大数据平台设计大数据平台设计大数据平台的设计原则大数据平台是一种面向大数据应用的云计算数据存储与管理平台，该平台基于关系数据模型，访问方式也是简化版本的 SQL 语言规范，对 SQL 语言规范支持第 2页度达到 80%以上，可管理的数据规模达到万亿条记录级，容量可

3、达到 PB 级，同时该平台支持大数据的 OLTP（联机事务处理）和 OLAP（联机分析处理），数据入库速度到达每秒千兆字节级，数据关联查询响应时间达到秒级，支持自动容错和动态扩展，在平安城市、智能交通、智能电网、互联网数据处理、移动信令处理等领域构建典型应用并进行大规模产业推广。数据中心建设遵循以下原则：1）体系架构分布式并行计算、多副本机制、没有单点的高可靠体系架构面向行业应用的软硬件一体化整合2）系统功能结构化、半结构化、非结构化数据的管理和搜索主流格式机器数据的实时采集、解析、管理和搜索多存储模式高效的分布式 SQL 解析器支持事务机制实时及用户行为数据的高效管理和分析创新的多检索引擎机

4、制，提供开放的二次开发接口3）性能指标PB 级的海量数据管理海量用户的高并发实时访问（千万级用户、万级并发）第 3页相对较低的资源消耗充分释放硬件的潜力（多核、大内存等）4）管理功能大规模部署的自动化和运行状态监控对核心数据管理服务的高可用技术研究与实施5）工程性功能高性能分布式环境的构建与部署负载均衡分布式环境的构建与部署1.3 大数据平台架构大数据平台架构1.3.11.3.1 体系架构体系架构如上图所示，大数据平台有多个层次，其中最主要的是数据处理层和数据存储层，数据存储层使用云存储技术，数据处理层包括多个模块，如下图所示：第 4页图 4 大数据平台架构大数据平台的结构可以分为以下几部分：

5、用户接口：包括 DDL JDBC，DML API，DDL Shell,DML Shell，数据导入 API数据接收模块：单条多条记录入库。索引模块：索引生成。SQL 解析器：对 SQL 语句解析为一个大数据平台的一个作业。任务执行器：处理一个大数据平台作业的子任务。元数据管理器：大数据平台的元数据是在 mysql 中进行管理的。（1）用户接口用户接口主要有四个：JDBC，数据查询 API，Shell，数据导入 API。JDBC主要执行数据的定义操作，即建立数据库、建表、建分区，对数据库、表和分区的删改等；数据查询 API 主要执行数据查询的 SQL 语句，暂不支持增删改；数据立方提供友好的 s

6、hell 交互界面，shell 支持数据库、表的增删改以及数据查询的 SQL 语句；数据导入 API 的作用是表记录的单条多条插入，数据库中数据的第 5页导入使用 sqoop 工具。（2）数据接收模块该模块支持表的单条和多条记录的插入，通过使用数据导入 API 来实现数据的插入，当需要与数据库进行数据交互时，可以使用 sqoop 工具来进行相关操作，同时也可以使用 HDFS 的 API 来直接进行数据文件的导入导出。（3）索引模块数据在插入的同时与数据对应的索引也在同时建立，索引是一颗 B 树，数据插入到内存的同时，索引 B 树也在生成，当达到设置上限时，数据和索引会刷新到 HDFS 上成为文

7、件。（4）SQL 解析器SQL 解析器、执行器完成大数据平台查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。SQL 解析器接收从数据查询 API 和 SHELL 传来的 SQL 语句，同时对 SQL 进行词法分析、语法分析、编译、优化以及生成查询作业，接着分析所要处理数据的所在位置，根据数据位置切分查询作业形成子任务，然后将子任务发送给数据所在节点的执行器。第 6页（5）任务执行器每个子节点的任务执行器接收到 SQL 解析器发来的子任务，随后执行这些子任务，执行完毕将结果传回 SQL 解析器。（6）元数据管理大数据平台将元数据存储在 mysql 数据库中。大数据平台中的元数据包括，

8、数据库的名字和属性，数据库中的表，表的名字，表的列和分区及其属性，表的属性，表的数据所在目录等等。3.2.2 数据立方与 Hadoop 的关系（1）数据立方与 HDFS 的关系大数据平台是建立在 Hadoop 上的分布式数据库。大数据平台是一种可以存储、查询和分析在 Hadoop 中海量数据的机制。大数据平台的底层存储是架设在HDFS 之上，表的数据和索引均是以文件形式存储在 HDFS 上，所以当前大数据平台中表的数据还不支持删改。与 HDFS 集群相对应，大数据平台主节点与 NameNode 部署在同一个物理节点上，子节点与 DataNode 部署在同一个物理节点上，在执行 SQL 查询语句

9、时主节点的 SQL 解析器会向 NameNode 发送请求获取相关表的数据文件的元数据信息，SQL 解析器生成子任务发给子节点的任务执行器，任务执行器通过数据文件的数据块 ID 从 DataNode 获取该数据块在本地磁盘的绝对路径，然后直接读取本地文件。（2）大数据平台与 MapReduce 的关系同时，因为大数据平台的数据存储在 HDFS 上，因此也允许 MapReduce 开发者的开发自定义的 MapReduce 程序来处理大数据平台中的数据。第 7页1.3.21.3.2 体系特点体系特点1）高可靠分布式存储体系架构的构建数据存储支持分布式架构，满足海量数据存储的高可靠、高可用、大吞吐率

10、等要求，支持 POSIX、SHELL 流式数据访问、WEB 等多种接口，支持简单一致性模型、多副本机制、回收站机制和主节点热备机制。在硬件上支持符合工业标准的服务器，支持 IBM、HP、DELL 品牌的国际主流服务器整机产品；支持联想、浪潮、曙光、宝德、长城等品牌的国内主流服务器整机产品；在操作系统层面支持主流 LINUX 系统，例如：CentOS、RedHat、Fedora、Debian、Ubuntu、SuSE 等。2）面向行业应用的资源整合形成将面向金融、电信行业、公共事业等服务器端应用从传统数据库迁移到大数据平台的迁移移植能力，将原系统的数据库、中间件、应用平台以及业务逻辑单元整体迁移到

11、大数据平台上，并针对其应用场景进行优化增强。3）支持与传统数据库和 NoSQL 数据库等多种数据库的整合大数据平台支持跨平台的应用，在自身基于云平台的同时又可以支持传统数据库和 NoSQL 数据库等多种数据库的嵌入，提供一系列的中间件和软件总线保证云平台与其他数据库的兼容性并提供数据流与指令流的交互接口，同时提供统一的用户界面和编程接口。这种多系统的整合能够在一个统一平台上处理不同结构数据、支持不同类型应用、支持不同存储模式并提供丰富的对外接口，这种整合可以使存储在不同数据库系统中的不同类型数据的混合关联处理得以实现，可以让各种数据管理系统扬长避短，最大限度地发挥优势以取得最大效率。第 8页1

12、.3.31.3.3 大数据处理技术大数据处理技术MapReduce计算架构把运行在大规模集群上的并行计算过程简单抽象为两个函数：Map 和 Reduce，也就是分解与规约。简单说，MapReduce 就是“任务的分解与结果的汇总”。程序将大数据分解为多个数据块由 Map 函数处理，Reduce 把分解后多任务处理产生的中间结果汇总起来，得到最终结果。适合 MapReduce 处理的任务特征为：待处理的大规模数据集可以切分为多个小的数据集，并且每一个小数据集都可以完全并行地进行处理。图 1 介绍了用 MapReduce 处理大数据集的过程。一个 MapReduce 操作分为两个阶段：Map 阶段

13、和 Reduce 阶段。图 1 MapReduce 处理大数据集的过程在映射阶段，MapReduce 并行计算架构将用户的输入数据切分为 M 个数据段，每个数据段对应 1 个 Map 任务。每一个 Map 函数的输入是数据段中的键值对集合，Map 函数是用户继承 MapReduce 并行计算架构而编写的，Map 操作调用此函数，输出一组中间结果，即键值对集合。接下来，按照中间结果集合的 K2 将中间结果集进行排序，生成一个新的集合，使得对应同一个 K2 的所有值的数据都聚集在一起。然后，按照 K2 的范围将这些元组分割为 R 个片断，对应 Reduce 任务的数目。在规约阶段，每一个 Re

14、duce 操作的输入是一个片断，Reduce 操作调用用户定义的 Reduce 函数，第 9页生成用户需要的键值对进行输出。这种简洁的并行计算模型在系统层面解决了可用性、扩展性、容错性等问题，是非关系数据管理和分析技术的典型代表。MapReduce 是面向廉价计算机组成的大规模集群设计的，其非共享结构、松耦合性和较强的容错能力带来了较强的扩展能力，同时，MapReduce 在工业界被广泛应用，Google、twitter、Facebook、Yahoo 等厂商对其进行了深度的改进和扩展。此外，MapReduce 的存储模型能够存储任意格式的数据，Map 和 Reduce 函数可以进行各种复杂的数

15、据处理，这也使得程序员的负担加重，在对上层业务的开发效率上不如 SQL 简单。在相同的硬件条件下，对于有具体条件的查询来说，并行数据库2的性能是远远超过 MapReduce 的，但是对于在大数据上的复杂统计业务来说，MapReduce 在速度上会占有一定优势，MapReduce 是为非结构化大数据的复杂处理而设计的，这些业务具有一次性处理的特点，此外由于采取了全数据扫描的模式以及对中间结果逐步汇总的策略，使其在拥有良好扩展能力和容错能力的同时也导致了较高的磁盘和网络 I/O 的负载以及较高的数据解析代价1.4 大数据平台功能大数据平台功能1.4.11.4.1 系统功能系统功能1）支持不同种类数

16、据的存储大数据平台支持非结构化、半结构化和结构化数据，即支持图形、图像、声音等多媒体信息的大文件和海量小数据文件存储，支持 XML、结构化记录和Key/Value 键值对的存储，同时支持复杂的结构化多维数据。2）多索引引擎机制大数据平台支持传统关系数据库的字段索引，同时也支持半结构化数据和非结构化数据的子字段索引、全文索引(英文单词索引和中文单汉字索引)、人工标第 10页记索引和中、英文混合索引等方式。此外，配合数据库的格式化语言,可以对同一字段进行若干种不同的索引，以满足特殊检索的需求。支持基于哈希的索引技术，研发适用于海量数据内容管理的存储与索引技术，实现大数据并行访问与查询。3）支持在线

17、分析处理（OLAP）和在线事务处理(OLTP)在处理大数据时，大数据平台满足一个单表查询或多表关联操作的秒级响应。支持一次返回上百万条以上结果集的海量数据分析查询，支持快速、一致和交互的数据存取，支持基于关系型数据库与多维数据库的混合方式数据分析，支持大量并发用户定期对数据的操作，支持每秒万次的事务操作，支持事务机制的原子性、一致性、孤立性和持续性。4）支持多存储模式大数据平台同时拥有列式存储和行式存储执行引擎，同时存储半结构化和结构化数据，综合两者的优势以达到更高的效率。传统数据库使用的是行式存储，其读写方式是以一行记录为单位，从第一列开始，到最后一列结束。行存储的写入是一次完成，对于结构化

18、数据这种写入模式非常适合，但对于大数据，这种写入的效率比较低下，并会产生很多冗余数据，导致带宽占用严重。列存储是一种区别于传统行存储的新型数据库读写模式，列存储完全改变了这种模式，列存储数据在写入之前会把一行记录拆分为单列保存，这种打散数据的保存模式能满足大数据的存储需求。5）支持事务机制单个逻辑工作单元执行的一系列操作，同步发生数据更新时，系统确保除非事务性单元内的所有操作都成功完成，否则不会永久更新面向数据的资源。通过将一组相关操作组合为一个要么全部成功要么全部失败的单元，可以简化错误恢第 11页复并使应用程序更加可靠。系统能够防止数据的不一致的同时，满足原子性、一致性、隔离性和持久性。6

19、）支持大数据挖掘支持海量数据分析与挖掘云服务应用，以解决分布式分析与挖掘算法、多任务调度、结果展现、服务描述标准等技术问题。提供高效率的、鲁棒的和负载平衡的并行数据预处理、统计分析以支持深度挖掘服务；支持实用、高效的并行数据挖掘算法的并行化策略和算法的扩展；支持数据处理任务调度优化，提出以节点状态、存储能力、活动周期、最近活动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法。1.3.3 性能指标1）相对较低的资源消耗包括了在线分析处理业务时较低的 CPU、内存、网络资源的消耗、以及在做大并发在线事务处理业务时较低的磁盘 IO 占用。2）实时查询秒级响应系统通过提供支持不同结构数据的索

20、引使得查询能够达到秒级，同时又提供一个支持高并发、高缓存吞吐、高性能分布式的内存缓存系统，该系统将数据源中的数据临时存储于内存中，然后从内存中读取，从而大大提高读取速度。1.4.21.4.2 管理功能管理功能1）大规模部署的自动化和运行状态监控支持面向高性能分布式环境的云数据库系统自动化批量安装部署、自动化批量配置、集中监控管理。自动化安装部署工具支持升级软件包、管理配置文件、系统服务、cron 任务以及添加新的配置、修复错误。第 12页系统运行状态监控采集服务器的各种性能指标数据，并发送到 Server 端，使网络管理员能实时查看服务器的状态；采集服务器的相关信息，并保存在服务器的日志文件中

21、，供网络管理员进行定期的数据分析。系统运行状态监控支持服务器进程信息的监测、日志文件监控和 Web 服务器监控。2）对核心数据管理服务的高可用技术研究与实施支持对核心数据管理服务的高可用保护，采用对核心服务网络心跳、串口心跳和磁盘心跳三层心跳管理机制，实现核心数据管理系统可靠、计算可靠、应用可靠三个层面的可靠性保护；使用分布式内存缓存系统来执行心跳信号交换，多个节点将各自的心跳信息写入分布式内存缓存，同时读取其他节点写入的信息，共享心跳数据。心跳机制最大的好处就是可以防止集群发生脑裂时，集群中的节点会对共享存储中数据造成破坏。1.4.31.4.3 工程性功能工程性功能1）高性能分布式环境的构建

22、与部署面向集分布式结构提供优化支持，支持保证集群内部的全局一致的分布式文件系统视图，支持集群系统内部节点之间的高速通信机制，提供对集群内全部软硬件资源的管理，对外为用户提供统一的数据库管理视图，同时针对高性能计算应用场景，提供多种运行时优化方案。2）负载均衡分布式环境的构建与部署支持面向负载均衡分布式环境的数据库系统自动化批量安装部署、自动化批量配置、集中监控管理。提供基于 IP 的负载均衡、基于虚拟机的负载均衡，以及基于传输会话的负载均衡三级层次化的自适应动态负载均衡机制。3）对关键业务数据的实时备份与异地容灾第 13页通过分布式内存缓存系统进行信息交互的技术，将节点的状态信息写入分布式内存

23、缓存，并对所有节点在分布式内存缓存保存的信息进行检测，在节点故障和网络故障时，从正常工作节点中智能选举主控节点，避免高可用系统脑裂发生，保证高可用系统不间断正常运行的功能。实现的服务器之间镜像块设备内容的存储复制解决技术。数据备份实时、透明、同步、异步，备份技术的核心功能通过 Linux 的内核实现。集群备份技术还可以实现增量备份，计划备份，远程容灾备份等。2关键挑战和应对举措关键挑战和应对举措2.1关键技术挑战和应对举措关键技术挑战和应对举措2.1.1 高效分布式数据管理机制随着移动互联网、物联网、云计算技术的蓬勃发展，非结构化、半结构化、结构化数据均成倍增长，非结构化数据的超大规模和增长，

24、总数据量已经达到8090%，比结构化数据增长快 10 倍到 50 倍。因此，如何高效的进行分布式数据管理就成为了一个重中之重。下表列出了分布式数据存储系统的技术挑战和应对措施。技术挑战技术挑战应对措施应对措施数据完整性CRC 校验和保证数据完整性，客户端写一个块之前会计算其对应的校验和。校验和文件和数据块存储在 datanode 的相同目录下。客户端读取数据块并读取其校验和文件，进行校验。校验失败则尝试其他副本。第 14页数据块副本之间的一致性简单一致性模型即一个文件一旦创建、写入、关闭之后就不需要修改了体系架构采用主从结构的体系，一个集群是由一个名字节点管理元数据的命名空间，和多个数据节点来

25、管理数据块的存储。数据块存储将一个文件分割成一个或多个的数据块，这些数据块存储在一组数据节点中。元数据节点操作文件命名空间的文件或目录操作，如打开，关闭，重命名，等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。数据副本放置位置在数据块复制数为 3 的情况下，放置方式是将第一个放在本地数据节点，将第二个复制放到本地机架上的另外一个数据节点而将第三个复制放到不同机架上的数据节点。这种方式减少了机架内的写流量，提高了写的性能。机架失效的机会远小于机器实效的。这种方式没有影响数据的可靠性和可用性的保证。但是它减少了读操作的网络聚合带宽。读操作时的副本选择对一个读操作来说应

26、该读取离它最近的数据块副本。如果在读节点的同一个机架上就有这个复制，就直接读这个，如果物理集群是跨越多个数据中心，那么本地数据中心的复制是优先于远程的复制。2.1.2 高性能多表实时复杂关联查询高性能的关联查询需要根据不同的模式采用不同关联算法，在基于代价的优第 15页化方式下，一般采用 hash join 算法，它是一种用于 equi-join（而 anti-join就是使用 NOT IN 时的 join）的技术。Hash join 的主要资源消耗在于 CPU（在内存中创建临时的 hash 表，并进行hash 计算）。在绝大多数情况下，hash join 效率比其他 join 方式效率更高：

27、在Sort-Merge Join(SMJ)，两张表的数据都需要先做排序，然后做 merge。因此效率相对最差；Nested-Loop Join(NL)效率比 SMJ 更高。特别是当驱动表的数据量很大（集的势高）时。这样可以并行扫描内表。Hash join 效率最高，因为只要对两张表扫描一次。Hash join 一般用于一张小表和一张大表进行 join 时。Hash join 的过程大致如下（在并行情况下）：（1）一张小表被 hash 在内存中。因为数据量小，所以这张小表的大多数数据已经驻入在内存中，剩下的少量数据被放置在临时表空间中；（2）每读取一条大表的记录，和内存中小表的数据比较，如果符合

28、先做 join，而不直接输出，直到整张大表数据读取完毕。如果内存足够，Join 好的数据就保存在内存中。否则，就保存在临时表空间中。（3）当大表的所有数据都读取完毕，将临时表空间中的数据以其输出。如果小表的数据量足够小，那所有数据就都在内存中了，可以避免对临时表空间的读写。基于规则的优化方式下，经常采用 Sort-Merge Join(SMJ)连接和Nested-Loop Join(NL)连接。Nested Loop Join(嵌套循环联结)对于主表的每条记录将其与从表的每条记录在 JOIN 条件的字段上直接比较并筛选出符合条件的元组。被联结的表所处第 16页内层或外层的顺序对磁盘 I/O

29、开销有着非常重要的影响，而 CPU 开销相对来说影响较小。Nested Loop 一般在两个集合都很大的情况下效率就相当差了，而Sort-Merge 在这种情况下就比它要高效不少，尤其是当两个集合的 JOIN 字段上都有聚集索引(clustered index)存在时，Sort-Merge 性能将达到最好。基本算法主要有两个步骤：（1）按 JOIN 字段进行排序（2）对两组已排序集合进行合并排序，从来源端各自取得数据列后加以比较(需要根据是否在 JOIN 字段有重复值做特殊的“分区”处理)有两个因素左右 Sort-Merge 的开销：JOIN 字段是否已排序以及 JOIN 字段上的重复值有

30、多少。最好情况下(两列都已排序且至少有一列没有重复值)：O(n+m)只需要对两个集合各扫描一遍。最差情况下(两列都未排序且两列上的所有值都相同)：O(n*log n+m*log m+n*m)两次排序以及一次全部元组间的笛卡尔乘积2.1.3 基于云计算平台的分布式 SQL 解析SQL 解析器、执行器完成数据查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。SQL 解析器接收从数据查询 API 和 SHELL 传来的 SQL 语句，同时对 SQL 进行词法分析、语法分析、编译、优化以及生成查询作业，接着分析所要处理数据的所在位置，根据数据位置切分查询作业形成子任务，然后将子任务发送给数据

31、所在节点的执行器。第 17页2.2关键工程化挑战和应对举措关键工程化挑战和应对举措2.2.1 系统可维护性维护管理是指为了保证维护质量、提高维护效率、控制维护成本而进行的维护过程管理，它要求对软件的每次“修改”均需经过申请、评估、批准、实施、验证等步骤。事实上在全部维护活动中一半以上是完善性维护。国外的统计数字表明，完善性维护占全部维护活动的 50%66%，改正性维护占 17%21%，适应性维护占 18%25%，其他维护活动只占 4%左右。应该注意，维护软件文档和维护软件的可执行代码是同样重要的。第 18页针对目前大数据情况下系统的可维护性难的特点，大数据平台表现为可理解性和可测试性两个方面。

32、可理解性表现为外来读者理解软件的结构、功能、接口和内部处理过程的难易程度，大数据平台具有模块化（模块结构良好，高内聚，松耦合）、详细的设计文档、结构化设计、程序内部的文档和良好的高级程序设计语言等等，都对提高可理解性有重要贡献。可测试性表现为软件结构、可用的测试工具和调试工具，以及以前设计的测试过程也都是非常重要的。大数据平台具有便捷的测试工具，维护人员能够得到在开发阶段用过的测试方案，以便进行回归测试。2.2.2 系统可靠性分布式存储系统主节点宕机分布式存储系统主节点是一个单一故障点，在主节点宕机时，分布式存储系第 19页统恢复耗时较长，这对于 24x7 uptime 的应用来说是难以接受的

33、，在这样的情况下，采取 Facebook 的 Avatar 机制，可以达到秒级的迁移（Fail over）时间。Avatar 的系统架构如图所示，它包括一个 Primary NameNode、一个 StandbyNameNode、一个 NFS 服务器、多个 Data Nodes 以及多个 Clients。其中，Primary NameNode 是对外提供服务的 NameNode；Standby NameNode也运行一个 NameNode 进程，与 Primary NameNode 的内存元数据保持同步，当Primary NameNode 无法对外服务时，它将接替 Primary NameNo

34、de 对外服务；Primary NameNode和Standby NameNode通过NFS服务器进行元数据同步，PrimaryNameNode 向 NFS 共享目录写入日志记录，Standby NameNode 定期读入 NFS 共享目录中的日志记录至内存进行合并，NFS 协议的自身机制可以确保 StandbyNameNode在接替Primary NameNode时，内存中的元数据与之前Primary NameNode的内存元数据完全一致；Data Nodes 将 Primary NameNode 和 Standby NameNode视之为两个 NameNode，将分别向上报 Block 信

35、息等；Clients 是客户端。硬件故障硬件故障是常态，而不是异常。整个分布式数据存储系统将由数百或数千个存储着文件数据片断的服务器组成。每一个组成部分都会频繁地出现故障，这就意味着分布式数据存储里的一些组成部分是总是失效的，因此，故障的检测和自第 20页动快速恢复是分布式数据存储一个很核心的结构目标。数据块丢失或异常数据存储节点出错时标记该数据机状态为宕机,从有效 IO 列表中清除，将其上所有数据块标记为不可读，同时复制该节点的数据块到其他节点。启动时访问出错安全模式通过一段时间的拒绝外部访问来使得整个系统在启动后一段时间达到稳定状态。2.2.3 系统可移植性大数据平台的可移植性可以分为三个

36、部分：开发语言、标准化 API 接口、多系统硬件支持。（1）开发语言大数据平台采用 Java 语言实现，具有跨平台性，一次编程，任意操作系统都可运行。（2）标准化 API 接口随着移动互联网、云计算、物联网以及多网融合的快速发展，现在在市场上出现了越来越多的操作系统、开发平台和网络功能，业务应用市场也呈现爆炸式发展，因此成百上千种 API（应用程序编程接口）也涌现出来。然而 API 数量的不断增加导致了应用开发和服务交付市场的碎片化。业内人士认为，如果没有标准化来支持大规模市场发展，开发者就很难与大量服务供应商合作，而客户和服务供应商在借助广阔的开发者社区时也会受到限制。大数据平台有着标准化的

37、 API 文档，全力给合作方提供多途径通道。接口名称参数用途第 21页单条、多条记录入库接口表名、记录用于根据表结构，插入对应的单条或多条记录带有记录的文件导入接口表名、文件路径用于根据表结构，导入带有记录的文件，将记录入库的接口查询接口时间戳、表名、其他查询条件（sql 语句）用于根据时间戳、表名等查询条件，过滤出符合的记录单条、多条记录入库webservice 接口Webservice 地址、表名、记录用于根据表结构，通过 webservice方式，插入对应的单条或多条记录带有记录的文件导入 webservice 接口Webservice 地址、表名、文件路径用于根据表结构，通过 webs

38、ervice方式，导入带有记录的文件，将记录入库的接口查询 webservice 接口Webservice 地址、时间戳、表名、其他查询条件（sql 语句）用于根据时间戳、表名等查询条件，通过 webservice 方式，过滤出符合的记录（3）多系统硬件支持大数据平台支持 NFS 接口、CIFS 接口以及 POSIX 标准接口。1)NFS 接口支持 NFS v3/v4，具有文件的读、写、创建、删除等接口（操作）。具体来说，NFS 服务器提供的接口都是和普通用户所熟悉的本地文件系统的文件操作是类似的，即 NFS 提供文件的查找、创建、移除、读取、写入、重命名等基本操作。第 22页2)CIFS 接

39、口支持 CIFS/SMB v1/v2 协议，可以访问远程 Internet 计算机上的文件并要求此计算机的服务。CIFS 使用客户/服务器模式。客户程序请求远在服务器上的服务器程序为它提供服务，服务器获得请求并返回响应。3)POSIX 接口系统支持 POSIX 接口规范，与应用系统无缝集成，无需另行开发。对于应用系统和操作本地文件系统完全一样。3构建大数据平台的应用构建大数据平台的应用对照国家智慧城市（区、镇）试点指标体系（试行）中“保障体系与基础设施、智慧建设与宜居、智慧管理与服务、智慧产业与经济”等 4 项一级指标、11 项二级指标和 57 项三级指标的基础上，结合吴忠市现有基础条件和发展

40、要求，提出“智慧吴忠”建设与运行的需求计划。3.1 保障体系与基础设施保障体系与基础设施平安城市是一个特大型的管理系统，综合性非常强。它的建设目标是满足治安管理、城市管理、交通管理、应急指挥等需求，往往还要兼顾灾难事故预警、安全生产监控等方面对图像监控的需求，并考虑报警、门禁等配套系统的集成以及与广播系统的联动。如何做到对海量视频数据的精准分析，正是平安城市的“大数据”痛点。3.1.13.1.1 整合基础信息资源整合基础信息资源建设空间地理信息、人口、企业法人和宏观经济数据库，实现信息资源统一及共享共用，提升信息资源开发利用水平。一是建设标准。第 23页二是人口信息数据库。三是法人基础数据库。

41、四是空间地理信息数据库。五是宏观经济数据库。3.1.23.1.2 搭建城市公共信息平台搭建城市公共信息平台整合建成全市统一的智慧城市公共信息平台。完善和提升全市信息资源利用，以抓整合、促共享，推应用为重点。数据共享与交换系统主要包括法人库、人口库、空间信息数据库的共享和交换子系统一是建设数据共享与交换系统。二是建设平台运维管理系统。三是建设数据管理系统。四是建设公共服务系统。3.2 智慧建设与宜居智慧建设与宜居3.2.13.2.1 城市建设管理城市建设管理（1 1）智慧规划：）智慧规划：搭建城市规划信息共享发布、城市管线分析和管理、城市规划业务办公和辅助决策、三维景观展示、规划违法监察等系统。

42、（2 2）智慧城管：）智慧城管：一是建设视频智能分析系统。二是建设实景三维监管系统。三是建设智能指挥评价系统。第 24页四是建设全民城管系统。五是建设智能呼叫中心系统。六是建设视频监控系统。七是建设智慧垃圾分类与处理管理信息系统。（3 3）智慧建管：智慧建管：一是完善建筑市场管理信息平台。二是建立建筑市场管理监控系统。（4 4）智慧房管：智慧房管：一是搭建房屋登记管理系统。二是搭建房产测绘及成果管理系统。三是搭建新建商品房网上备案系统。四是搭建存量房网上备案系统。五是搭建从业主体管理系统。六是搭建统计分析与信息发布系统。七是搭建住房保障系统。八是搭建专用账户资金监管系统。九是搭建房屋拆迁管理系

43、统。（5 5）智慧园林：智慧园林：一是建立城市园林绿化数字化信息库和查询平台。第 25页二是建立城市园林绿化信息化管理平台。三是建立城市园林资源动态监测系统。四是建立城市园林环境及墒情监测系统。五是建立城市园林水资源利用、喷灌控制及设备监测系统。3.2.23.2.2 城市功能提升城市功能提升（1 1）智慧市政：智慧市政：一是建设并完善专业网格化管理系统。二是建设城市路灯智能监控管理系统。三是搞好智能电网示范应用。（2）智慧供热：以户为单位，安装供热计量器，实时采集用户能耗数据，实现按热计量收费。完成城市集中供热能耗检测系统建设。3.3 智慧管理与服务智慧管理与服务3.3.13.3.1 政务服务

44、政务服务（1 1）统一安装政务协同办公系统，实现电子政府，提高行政效率。）统一安装政务协同办公系统，实现电子政府，提高行政效率。统一安装政务协同办公系统，将传统办公模式迁移到网络上进行自动化办公，实现领导批示签阅电子化，公文无纸化，文件传输网络化，不仅有效提高党政机关工作效率，降低行政成本，而且有效规范办公流程，完成跨部门大流程协同办公，真正实现电子政府。（2 2）统一建设公共资源交易系统，实现公共资源网上交易阳光操作、公开）统一建设公共资源交易系统，实现公共资源网上交易阳光操作、公开透明透明。建成面向不同用户，与实际业务和应用基础相适应，实现集工程建设、政府采购、产权交易项目业务的流程管理、

45、招标文件及公告审核、收退保证金、专第 26页家管理、异地评标、信息发布、查询统计、网上监督等功能，安全可靠、稳定高效、操作方便、可扩展的一体化信息管理平台。（3 3）统一安装行政审批系统，实现网上行政审批，提升办事效率。）统一安装行政审批系统，实现网上行政审批，提升办事效率。建设政务服务“网上虚拟政务大厅”，在网上建立行政审批目录、业务手册和办事指南，实现社会各界网上申报、网上预约、网上咨询和审批指南公开等网上办事功能。（4 4）统一建设智慧宣传系统，创新网络宣传方式，营造统一口径、快速高）统一建设智慧宣传系统，创新网络宣传方式，营造统一口径、快速高效的舆论引导环境。效的舆论引导环境。一是搭建

46、社会宣传平台。二是搭建新闻采编管理平台。三是搭建电子报橱窗。四是搭建手机报平台。（5 5）统一建设云视频会议系统，实现异地召开视频会议，降低行政成本。）统一建设云视频会议系统，实现异地召开视频会议，降低行政成本。通过虚拟专网连接，建设以市为主会场，各县（市、区）及部门（单位）、乡镇、村（社区）和市直各部门（单位）为分会场的视频会议系统。3.3.23.3.2 基本公共服务基本公共服务（1 1）智慧教育：智慧教育：建设教育城域网，实现形成辐射全市各县（市、区）和所有中小学、幼儿园、职业技术学校、各类教育培训机构，面向社会开放的、具有现代远程教学、教育信息资源共享、教育教学管理、安全管理及信息交换等

47、功能，实现实时视频信息传输的高带宽的教育信息化的智慧教育网络系统一是建设“平安校园”。第 27页二是建设“数字校园”。三是建设“网上课堂”。四是建设“家校互动校园”。五是建设“远程教育校园”。六是建设“智能管理校园”。七是建设“智能评测校园”。（2 2）智慧社保：）智慧社保：以“记录一生、管理一生、服务一生”为目标，以身份证信息为唯一识别，整合养老、医疗、失业、工伤、生育等社会保险，全面覆盖社会保险人群，大力推进社会保障“一卡通”工程，实现城乡居民在医疗保险、养老保险一卡缴费、就诊、待遇领取及医疗保险异地就医联网结算，实现人力资源社会保障全程信息化和精确管理。（3 3）智慧慈善与回商：）智慧慈

48、善与回商：提高慈善的透明度、参与度、灵活性、效率和响应速度，推动慈善实现“透明慈善、高效慈善、快乐慈善、人人慈善”的目标，有利于解决慈善组织之间沟通不畅、慈善组织及项目运营信息不透明、慈善资源的供求信息不对称等一系列阻碍我市慈善领域发展的问题。一是建设完成慈善信息化服务平台。二是搭建残疾人网络职业培训基地。三是搭建身障人士创业网上一条街。（4 4）智慧民政：智慧民政：一是建立综合减灾救灾管理信息系统。第 28页二是建立城乡社会求助体系信息系统。三是建立社区信息化平台。（5 5）智慧医疗：智慧医疗：一是搭建智慧健康保障系统。二是搭建市民电子健康档案的卫生信息化系统。三是搭建区域卫生信息共享系统。

49、（6 6）智慧财政：智慧财政：一是搭建个人工资查询系统。二是搭建非税收入收缴系统。三是搭建土地出让金管理系统。四是搭建农村集体“三资”监管系统。（7 7）智慧税务：智慧税务：一是搭建智慧房屋交易涉税信息监控平台和残疾人就业保障金信息监控平台。二是搭建智慧纳税宣传辅导咨询系统。三是搭建社会综合治税信息监控平台。（8 8）智慧质监：智慧质监：一是建立完善市组织机构代码网络管理系统。二是建立完善特种设备操作管理系统和车载气瓶电子监控系统。第 29页三是建立完善商品条形码管理系统。四是建立信息互通平台，实现信息资源共享。（9）智慧便民支付智慧便民支付“一卡通一卡通”：按照“政府主导、市场运作、统一规划

50、、有序推进”的原则，采用先进成熟的网络通信技术、计算机技术和智能卡技术，构建高效多用的“一卡通”运营管理平台及电子支付体系。（1010）智慧文化：智慧文化：一是搭建文化部网络监控平台。二是搭建体育场馆预约系统。三是搭建数字图书馆“一卡通”系统。四是搭建电影院影片预约系统。五是搭建“两馆”数字监管系统。六是搭建文物保护监管系统。3.3.33.3.3 专项应用专项应用（1 1）智慧交通）智慧交通交通管理：交通管理：一是建成一个城市智能道路交通管理网。二是建成两个综合信息管理平台。三是建设完善三个信息管理系统。四是建成四个综合管控中心。五是开发五个为民服务系统（五条服务线）。第 30页运输管理：搭建

展开阅读全文