华为数字化大数据解决方案汇报V2.0.pptx-得力文库

资源描述

《华为数字化大数据解决方案汇报V2.0.pptx》由会员分享，可在线阅读，更多相关《华为数字化大数据解决方案汇报V2.0.pptx（69页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、华为大数据解决方案汇报-FusionInsight金融大数据解决方案Content1234大数据发展趋势华为大数据平台关键技术华为大数据平台行业实践华为大数据平台案列详述12固定时间地点获取服务被动接受数据传统传统客客户户寻求更多资源信任市场信息被动接受传播未来未来银银行：客行：客户户更加移更加移动动化、个性化、社交化，化、个性化、社交化，实时实时化化随时随地获取服务分析、创造数据寻找有意义的体验审视细节互动参与内容、产品和体验的创建传统银传统银行行固定渠道单一交互标准化和产业化提供服务关注过程和步骤被动接受信息且信息来源单一通过客户经理联系客户新客新客户户关注关注场场景景营销客户运营客户服

2、务客户个性化的个性化的灵活服灵活服务务效率效率全渠道全渠道新新银银行行3第二数据平台成第二数据平台成为驱动业务创为驱动业务创新的新平台新的新平台精准营销在线征信统一历史明细实时营销第一数据平面：交易核心单次、事务性第二数据平面：大数据平台并发、查询/分析POSATM柜面电话银行网上银行或有金融资产金融脉络关系实时批量互联网大数据大数据业务业务：实时在线性业务持续性跨多元数据对对大数据平台的要求：大数据平台的要求：企企业级质业级质量量标标准：准：金融等保、可靠、易用；支持现有系统的对接。开放性：开放性：多分析引擎统一管理，满足多样化的数据分析场景挖掘能力：挖掘能力：支持机器学习、深度学习等新的数

3、据挖掘能力，实现更精准的洞见数据：存量数据：存量.增量增量.行内行内.行外行外社交日志影像帐户明细行外数据行外数据行内数据行内数据企企业业数据平面数据平面历历史数据越来越多史数据越来越多非非结结构化数据越来越多构化数据越来越多社交、网社交、网购购数据数据“在大数据在大数据领领域，不能充分形成大数据使用能力域，不能充分形成大数据使用能力的的竞竞争者将被淘汰争者将被淘汰”-McKinsey Global Institute4业务业务系系统统帐户明细交易交易数据分析数据分析信用5混合型数据平台混合型数据平台-体系架构体系架构新核心系统老核心系统客户系统外围系统渠道系统外部系统操作型数据区数据交换区数

4、据采集和交换平台集成型数据区分析型数据区监管报送平台统一报表平台管理会计系统流动风险系统市场风险系统数据挖掘平台国家审计平台应用服务区应用服务器报表工具WE服务器即席查询数据挖掘工具历史数据访问应用ETL调度数据标准元数据数据质量数据管控数据交换基基础础数据平台数据平台大数据平台大数据平台传统传统平台平台技贴基共应术源础性用缓模模加集冲型型工市层层层层层实时事件处理平台历史数据区历历史数据平台史数据平台混合型数据平台混合型数据平台-数据区域数据区域操作型数据区操作型数据区对应对应系系统统：客户管理系统、各类产品系统、帐务处理系统、各类渠道系统、管理流程

5、系统。功能定位功能定位：主要承担面向客户的交易、帐务处理，面向内部的流程、事务管理等功能。数据特征数据特征：存储业务处理和流程管理过程中产生的客户、协议、账户、交易等原始数据，数据基本为当前状态，保存一定周期的交易流水数据。分析型数据区分析型数据区对应对应系系统统：统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位功能定位：主要获取数据集成平台提供的汇总数据，按照应用主题进行数据的高粒度汇总加工、图形化分析和展现。数据特征数据特征：存储汇总、聚合类数据，主要以星型结构、宽表等形式存储，存储周期较长。6集成型数据区集成型数据区对应对应系系统统：基础数据平台、大数据平台和实时事件处理平

6、台。功能定位功能定位：实现全行关系型结构化数据、非结构化数据的处理，包括离线分析和实时事件数据的集中管理和加工，为业务运营和决策分析提供数据支持。数据特征数据特征：1.利用大数据技术，实现ODS、EDW、汇总层数据统计等一系列的离线数据分析功能，而传统数据库则实现复杂的交于和事务处理逻辑。2.大数据平台同时可以实现非结构化数据的集中管理，结构化及非结构化数据的初加工为主；3.实时事件处理平台以实时事件数据的集中管理和加工为主。历历史数据区史数据区对应对应系系统统：主要是历史数据平台。功能定位功能定位：根据数据生命周期管理，承担对操作型系统、分析型系统的历史数据，以及数据集成平台部分历史数据的在

7、线归档保存，为客户交易明细历史查询、公检法查询等应用提供支持。数据特征数据特征：状态类数据采用全表历叱拉链存储，交易类数据保留长期历史。7数据数据处处理技理技术术分布式演分布式演进趋势进趋势：Hadoop成成为为开放的事开放的事实标实标准准SMP+MPP混合混合特点：特点：ShareEverything 结构化、关系型 FlashCache+分布式块存储+IBHadoop特点：特点：ShareNothing 开放,、全球生态结构化、半结构化、非结构化高性能、实时MPP特点：特点：ShareNothing 结构化、关系型通用的硬件SMP特点：特点：单单机、机、Scaleup 性能存在瓶颈

8、扩展性差实时实时化：内存化：内存计计算算兴兴起起内存内存计计算算兴兴起，起，Hadoop生生态态系系统统持持续续壮大壮大Hadoop生生态态系系统统持持续扩续扩大大预计Spark将成为编写和分享数据挖掘算法的标准平台Spark目前已经成为Apache顶级项目HadoopStormPigHiveMapReduceHDFSYARN/ZookeeperHBaseFlumeSqoopIntegrationBatchProcessingInteractiveAnalyticsSearchMachineLearningComplexEventProcess3rd Party orcustomizedwor

9、dloadImpalaSolrMLLIBSpark融入融入AMPlab开发的Spark，提供迭代式内存计算模型，非常适合用于数据挖掘算法的并行化Hadoop 2.0发布支持多种计算模型调度的Yarn，实现多种计算模型在同一个集群中并存，将帮助Hadoop进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建，不断吸收更多组建集成到Hadoop。混合负载的统一计算平台，满足数据多样化8Content1234大数据发展趋势华为大数据平台关键技术华为大数据平台行业实践华为大数据平台案列详述9全球布局、全面覆盖大数据全球布局、全面覆盖大数据领领域关域关键键技技术术西安研究所：西安研究

10、所：大数据算法（大数据算法（IT）Hadoop产产品化（品化（IT）ELK/MPP DB(高斯高斯实验实验室室)杭州研究所：杭州研究所：Hadoop（中央（中央软软件院）件院）Spark（中央（中央软软件院）件院）流流计计算（中央算（中央软软件院）件院）深圳研深圳研发发基地基地/香港：香港：大数据洞察平台大数据洞察平台(IT）大数据解决方案（大数据解决方案（IT）数据挖掘算法（数据挖掘算法（诺亚实验诺亚实验室）室）加研所：加研所：Yarn/大大规规模模调调度度硬件加速（中央硬件院）硬件加速（中央硬件院）金融大数据分析（金融大数据分析（IT）美研所：美研所：Spark（中央（中央软软件院）件院）

11、ELK/MPP DB（高斯（高斯实验实验室）室）大数据系大数据系统统加速（香加速（香农实验农实验室）室）10俄研所：俄研所：大数据算法（香大数据算法（香农实验农实验室）室）欧研所：欧研所：分布式内存分布式内存DB（中央（中央软软件院）件院）分布式分布式计计算算法（中央算算法（中央软软件院）件院）印度研究所：印度研究所：Hadoop（中央（中央软软件院）件院）数据可数据可视视化（中央化（中央软软件院）件院）MOLAP（中央（中央软软件院）件院）11华为在社区的贡献领领社区完成面向未社区完成面向未能能够够独立完成支独立完成支发发的内核的内核级级开开发发的的团队团队（依（依赖团赖团会使用会使用Ha

12、doop会定位周会定位周边问题边问题会定位内核会定位内核级问级问题题（拔尖的个人）（拔尖的个人）强强大的大的Hadoop内核内核团队团队支持的开支持的开发发与与产产品交付能力，企品交付能力，企业级业级运运营营支撑能力支撑能力12Apache开源社区生开源社区生态态系系统统能能够创够创建新的社区建新的社区顶级项顶级项目，并且得目，并且得到生到生态态系系统认统认可可组组件多，代件多，代码码量大量大组组件更新件更新块块特性无有效整合特性无有效整合华为积极参与spark社区贡献，主导SparkSQL升级支持hive 0.13，其中合入社区patch 150+，公司贡献在社区排名第三排名第三。强强大内核

13、开大内核开发团队发团队提供企提供企业级业级的开源支撑能力的开源支撑能力企企业业版的关版的关键键在于工程在于工程团队团队的能力及与周的能力及与周边边生生态环态环境的境的对对接能力接能力能能够带领够带领社区，引社区，引某大银行CIO：“我们把大数据应用视作是生命线，肯定是采用企业版，因为搞开来的内核来的内核级级特性开特性开源软件不是我们的主业。在选合作伙伴的撑关撑关键业务键业务特性特性时候，我们一定考虑门当户对，因为强有定位内核定位内核级问题级问题力的合作伙伴才能保证5858年的供应、合作安全”队队而不是精英个而不是精英个人）人）华为华为大数据：提供大数据存大数据：提供大数据存储储、处处理、分析

14、和服理、分析和服务务平台平台Manager统一管理通用X86服务器分布式存储13大数据基础设施收集清洗转换特征/模型/挖掘/可视/服务数据洞察/数据服务数据集成数据集成平台平台电电信信详单查询、经分分析、精准营销银银行行全生命周期分析、历史明细、精准营销、在线征信与风控等行业应用政府政府交通、公安情报分析、人口管理数据处理平台海量数据存储，批处理，流处理、交互式分析HIVE/Impala/ElkPorterMinerDataFarmHadoopStormSolr系统管理FarmerManagerHadoop APIPlugin APIOpenAPI/SDKREST/SNMP/SyslogDa

15、taInformationKnowledgewisdomM/R SparkYarn/Zookeeper元数据管理安全管理MPP DBHDFS/HBase FusionInsight的Hadoop层提供大数据处理环境，基于社区开源基于社区开源软软件增件增强强，按照场景选择业界最佳实践 FusionInsight的DataFarm层提供支撑端到端数据洞察提供支撑端到端数据洞察，构建数据到信息到知识到智慧的数据供应链，其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer FusionInsight Manager是一个分布式系统管理框架，管理管理员员可以从可以

16、从单单一接入点操控分布式集群一接入点操控分布式集群，包括系统管理（OM/NTP/灾备）、数据安全管理和数据治理14大数据大数据软软件平台件平台FusionInsight应用服务层Porter用来简化大数据的数据集成除了开源的Sqoop2支持的DB和HDFS外,porter还支持从SFTP,FTP和NAS进行数据导入和导出除了Sqoop2支持的HDFS外,porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 Sql请求和响应可以通过SFTP和FTP提交,实现和现有系统的无缝集成轻量汇总的Sql和结果可以通过 SFTP和FTP提交,并且能够自动调度按天/按月调度。15H

17、adoop HDFS HBaseSFTPServerFTP ServerOtherDataSourcePorterDB文件服文件服务务器器MR/spark/Hive任务提交目标系统HDFS/HiveHBaseRDMS数据JDBC数据FusionInsight Porter：大数据全能搬运工：大数据全能搬运工PorterRMDBFTP/SFTP/NFSConversion金融行业模型电信行业模型使能套件使能套件数据探索数据探索建模分析建模分析特征工程特征工程16FusionInsight Miner：基于分布式内存：基于分布式内存计计算的数据分析平台算的数据分析平台主要特点：主要特点：端到端分

18、析平台：端到端分析平台：一站式平台支撑数据分析全流程特征工程特征工程/社交化：社交化：特征复用；支持1,000万维度建模算法：建模算法：自研自研HiGraph算法,比MLlib快35倍开放性：开放性：对Operator的扩展性；与R无缝对接；与SAS、SPSS等对接；业务驱动业务驱动：基于业务问题驱动的闭环解决方案，比如推荐引擎使能套件业务业务理解理解数据理解数据理解数据数据预处预处理理模型模型模型构建模型构建模型模型评评估估应应用效果用效果评评估估结束开始模型评估好应用效果好act 典型数据挖掘典型数据分析流程特征提取特征提取模型模型应应用用FusionInsight Miner可可视

19、视化化并行化机器学并行化机器学习习算法算法库库(Mahout/MLlib/HiGraph)行行业应业应用使能器（用使能器（Enabler）通用使能套件（标签管理、推荐引擎）数据数据处处理平台理平台200015001000500014000Dimensions 40 x专家系统学习系统Top1000 Top10000Top6000017PaaSBLU1Farmer SDKDeploy onServer or VMRegisterAccess Load Balance&MQREST:REQ/RESPManagerRESTMQRedisHadoopHadoop APIBLU2Deploy onBLU

20、3ContainerFusionInsight Farmer：大数据：大数据应应用使能器用使能器大数据实时应用使能器，支撑企业快速开发基于大数据平台的应用。客户开发的应用Farmer SDK1、分布式大数据服务框架和标准服务（如推荐）二次开发SDK，透明化访问Hadoop，聚焦业务逻辑高可靠的分布式处理框架，去中心化的负载均衡能力，和服务实例的弹性伸缩能力基于Activiti的服务编排支持应用的灰度发布隔离的轻量级应用容器2、多协议接入和缓冲简化应用集成高性能的多协议接入部件，通过ALB隐藏内部拓扑细节高性能、高可靠消息队列部件热点数据redis加速为为行行业业务负载优业业务负载优化的化的统统

21、一大数据一大数据处处理平台理平台 FusionInsight用100开源的核心支持混合负载，从批量、交互查询、数据挖掘，到实时流和查询等各种场景开放式存储格式（Rcfile/ORCfile/Parquet），以避免锁定私有文件格式所有的组件都通过Manager提供的插件框架来按需安装18开源轻度增强开源深度增强开源孵化特性自研DSLIDE分布式计算框架PigHiveMapReduce/TezYARN/ZookeeperHDFS/HBaseSparkFlumeLoaderIntegrationBatchProcessingInteractiveQuerySearchMachineLearni

22、ngEventStreamProcessImpalaSolrMLLIBStreamingCalculation分布式存储基础设施Standard ServerIMC ServerStorage ServerPluggableAcceleratorNetworkOnlineQuerySparkStreamingCQLPhoenixElkHiGraphCTBaseStormMPP DB架构模型模式定义主要应用场景产品类MPP架构在线查询作业时间小于秒级有查询要求的场景，响应几乎是实时的Phoenix(HBase),交互查询作业时间秒级左右，并且返回结果集很小，一般在万条记录以内小数据的查询场景，如

23、报表展示、数据钻取等Elk、Impala、MPPDB(OLAP)类MR架构批处理作业时间超过分钟级别，中间结果或最终结果集比较大对作业时间要求不敏感场景，主要以后台长时间作业为主，如系统每天、每周、每月定时处理汇总的业务Hive、SparkSQL数据挖掘作业时间超过分钟级别，数据计算量比较大，内存消耗比较多的场景作业对内存和CPU要求比较高的场景,如迭代计算的场景，主要应用于数据挖掘、科学计算等场景SparkSQL19SQL能力支持（能力支持（SQL-on-Hadoop）每一种SQL on Hadoop产品都在尽量满足某一类应用的特征，典型需求：interactive query（ms3min

24、）data analyst，reportingquery（3min20min）data mining，modelingand large ETL（20 min hr day）Kevent/sStorm1460SparkStreaming500基于基于应应用用场场景景选择选择最适合的流最适合的流处处理技理技术术BatchStreamingMini-BatchSpark-StreamingStormSpark Streaming：微批流式：微批流式计计算算适用于在Spark集群上同时提供更低时延要求的微批流处理处理，如KPI统计等Storm：事件：事件驱动驱动模式的模式的实时计实时计算算适用于更低

25、时延要求（毫秒级），高并发的实时事件处理场景201 node，Mini-batch is set to 5s21安全可靠-所有业务和管理节点HA-跨数据中心容灾、备份-第三方备份系统集成-在线更换硬盘-HBase容灾业界最早推出-代码基线是Apache开源-经过系统STRIDE分析加固-完善RBAC和多租户体系-与现存AAA系统标准协议对接-全方位数据审计功能-STRIDE+电信系统安全红线易用-易安装，集成NTP等-易运维，增加图形化运维-易开发，标准接口+实用案例-易定位，日志收集搜索-HBase可视化建模可靠、安全、易用、高效可靠、安全、易用、高效高效-平台核心代码性能优化-高性能分析挖

26、掘算法（Miner）-存储效能提升（EC，ARM）-高性能网络优化（RDMA）-新型存储优化（大型SSD）22HQLSQLUnresolvedLogicalPlanLogicalPlanOptimizedLogicalPlanPhysicalPlansSchemaCatalogRelationExecutionOperatorsNativeRDDs语法增强SQLParser高效高效-SparkSQL：平易近人，快速上手：平易近人，快速上手 SQLparser：实现插件式的SQLParser，基于插件接口实现SQL99语法解析。LogicalPlan：新增SQL99LogicalPlans，支持

27、SQL99逻辑计划。元数据管理：使用Hivemetastore进行元数据管理，与社区演讲发现对齐。性能提升：原则上重用社区的优化器，必要时增加SQL99OptimizerRules，新增and/or优化，innerjoin优化，hiveindex优化应用场景价值：SQL是一个常用的分析语言，客户接受度较高，各种业务场景对SQL诉求也较明确。解决方案方案：基于插件式方案构建基于Spark SQL框架的差异化语法解析器和性能优化器用户价值实现标准SQL的TPC-DS用例99个全部通过。满足客户常用的标准SQL诉求。23高效高效-Spark Carbon：提升：提升查询查询效率效率Cube Fil

28、eDistributed Data Store(HDFS)Cube File Cube FileCubeProcessorCube EngineCubeProcessorCubeProcessorRDDPartitionRDDPartitionSpark CoreSpark CoreSpark CoreSparkOLAP PlannerSpark Application(Cube Load)Encoding Encoding EncodingRDDPartitionDataSource API 分布式，多维索引，物化视图，分布式入库，Schema固定特点：存储：CubeFile，一种按多维Ke

29、y排序的文件格式计算：HDFS+Shortcut基于Catalyst框架新增OLAP Planner，对Cube支持过滤下压、计算下压等优化Cube Processor:Cube数据读取，跳转，聚合计算语言：使用SparkSQL DMLDDL：新增CREATECUBE,LOAD INTO CUBENode1Node2Node324Carbon性能对比120亿行记录，20个维度，4个度量，原始数据1.5TB SparkSQL：Cube文件380GB；物化视图增加130GB；Impala：336GBPL/SQLSQL99SQL2003HQLElkHDFSHBaseSql ParserSql Eex

30、cutejdbc/odbc/BIWebETLData ExplorerHive Metadata采用通用的SQL标准接口，全面兼容传统的数据库SQL和Hadoop的HQL全面支持传统应用的接口JDBC、ODBC，并提供丰富的扩展接口如PL/C，PL/Jaca，PL/Python交互式查询性能达到或超越Impala灵活的存储格式HDFS(ORC、Parquet)，HBase（KV）25Elk与Impala性能对比，TPC-H（单位：秒/查询N）测试环境:4 节点:2*8 core CPUs,96GB RAM,6 7200rpsSATA 盘,10GE网卡,HDFS 3副本.020010040030

31、05006007001 2 3 4 5 6 7 8 9 10111213141516171819202122ImpalaELkElk:交互式交互式SQL on Hadoop全面超越Impala，大部份指标是impala两倍26高效高效-HBase：二：二级级索引索引27智慧 HiGraph,高性能优质算法库Mahout：基于MR的并行算法库MLlib：基于Spark的并行算法库ClouderaHortonworksHUAWEIHiGraph：超过60种算法,半数由华为研发及优化Huawei FusionInsight性能提升2-3倍线性加速优质算法HiGraph网络类别信任程度说明集群业务平面

32、高Hadoop集群核心部件，业务数据在其中存储、流转。集群管理平面中仅具备集群管理功能，不接触实际的业务数据。集群外维护网络低仅能访问OMSServer提供的Web服务，除非连续攻破OMSServer和APPServer，否则无法访问业务数据。网网络络平面隔离平面隔离集群业务平面OMS-ServerAPP-ServerAPP-Server集群管理平面WebUI-Client集群外维护网络28 Hadoop是全分布式计算系统，要求业务节点之间全互联。为应对由此带来的可靠性、安全性风险，FusionInsight支持将网络划分为三级：集群业务平面、集群管理平面和集群外维护网络，彼此之间实施物理隔离

33、。实施网络隔离，可以避免业务平面的高负载阻塞集群管理通道，也可以阻止外部攻击者通过管理通道入侵实际业务数据。29电电信信级级可靠性可靠性业务业务可靠性：可靠性：系统无单点：OMS，HDFS，HBASE，YARN，HIVE，OOZIE，HUE，ZOOKEEPER，BOOKEEPER采用主备，负荷分担方式实现服务无单点故障数据可靠性：数据可靠性：管理节点HA：OMS节点及所有业务组件中心管理节点实现HA跨数据中心数据备份：HBase集群通过HLOG准实时复制，HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心灾备硬盘热插拔:支持在线集群硬盘更换不影响业务.OS层可靠性加固:RA

34、ID/OS写缓存保护实现掉电数据保护Raid策略:OS，OMS，NameNode，ZK及HDFS数据节点采用不同硬盘分区及Raid策略，兼顾性能情况下保证数据可靠性第三方备份系统集成:数据可以灵活的备份在外部系统如NAS、磁带库，只是和NBU等备份软件集成11111112233344567866578130Hadoop clusterNAS数据恢复批量导出本地备份支持库级别本地备份、批量导出和数据恢复，支持全量、增量两种模式。用于集群故障、人为误操作导致的数据丢失数据数据备备份与集群容灾份与集群容灾本地备份HMHDFSHMRSRSRSHBaseLdapServerHMHDFSHMRSRSRSH

35、BaseRSHLogHLog SyncSync异地灾备表级别集群在线备份，用于在线业务故障灾备AuthenticationAuthentication DataData SyncSyncLdapServer敏感数据加密存敏感数据加密存储储Hive/HBase敏感数据写入加密/解密敏感数据读取*(&#$%!%$#$!(*&*5!$!%$!$!%#$%#!$#!非敏感数据非敏感数据HDFS技术特点保密性高保密性高：采用业界流行的算法加密。除业务接口外，其他手段读取文件均为乱码（如通过shell、或HDFS接口查看）。灵活灵活：加密算法插件化，支持AES、SMS4等，允许用户自定义。非敏感数据可不加

36、密，不影响性能（加密约有5%性能开销）。业务业务透明透明：上层业务只需指定敏感数据（Hive表级/列、HBase表/列族/列级加密），加解密过程业务完全不感知。31HiveHBaseContent1234大数据发展趋势华为大数据平台关键技术华为大数据平台行业实践华为大数据平台案列详述3233成功成功实实践：全国金融践：全国金融领领域案例最多域案例最多34业务价值应用场景实实时时风风控控实实时时征征信信反反欺欺诈诈客客户户风风险险报报告告运运维维日日志志分分析析智智能能客客服服信信息息安安全全分分析析网网站站分分析析灵活深入的客户细分营销营销支持支持专业化整体解决的营销方案与个与销售性化服

37、务定制安全可靠的渠道风险控制产产品运品运营营风险集成的业高效的运营效务运营率风险风险管控管控实时的风险决策事事件件营营销销客客户户画画像像小小微微贷贷员员工工挽挽留留获获客客客客户户挽挽留留个个性性化化理理财财舆舆情情分分析析交交叉叉销销售售产产品品绩绩效效评评价价大数据大数据应应用用场场景景账账务务追追溯溯内部管理内部管理优化管理流程，提升运作效率降低管理成本知知识识管管理理数据客客户标签户标签商机挖掘信息商机挖掘信息客客户贡户贡献度献度对对公客公客户细户细分分零售客零售客户评户评分分客客户风险测评户风险测评行内行内业务业务数据数据行内非行内非业务业务数据数据账户账户/流水流水/产

38、产品品/组组件日志件日志运运维维日志日志/对对内服内服务务系系统统数据数据产产品运品运营营KPI品牌美誉度品牌美誉度黑名黑名单单知知识图谱识图谱第三方第三方资资信信新型数据新型数据第三方数据第三方数据移移动应动应用用/微信微信/呼叫中心呼叫中心/微博微博互互联联网网/电电信信/医医疗疗/交通交通/咨咨询报询报告告用用户户位置位置用用户户消消费倾费倾向向互联网分多媒体分分词析析35大数据平台参考架构大数据平台参考架构数据采集数据转换商业智能（BI）平台管理结构化数据非结构数据第三方数据客户数据账务数据日志呼叫中心语音微信微博流式数据刷卡事件非结构转换XML/JSON 文本多媒体转换

39、视频摘要语音转文本音频分析视频分析语义NLP社交网络推荐引擎半/非结构数据挖掘文本分析搜索影像分析结构化转换统计/关联过滤/匹配结构化数据挖掘分类聚类预测关联流处理ESP/CEP流式数据处理RTD报表多维分析引擎数据服务实时查询批量查询访问框架分布式缓存数据可视数据探察数据多维展示元数据管理作业调度数据安全管理网站点击流实时计算数据集市交互式探索多维关联数据聚集应用计算数据存储基础数据区实时查询区公共访问区应用数据区数据可视TableauSQL on 探索分布式IMDB 计算Hadoop半/非结构数据挖掘分类SAS文本分析互联网分Solr分词析析Miner（Mahout/ML

40、Lib/HiGraph）分析社交网络预测联M/R账 SqoopFTPFlume 心语音网 FTP击流MQ36数据采集数据转换平台管理结构化数据客户数据务数据日志统计关联非结构转换XML/JSON 文本摘要语视频分析语义推荐引擎搜索影像分析结构化数据挖掘聚类多媒体分CEP流式数据处理RTD报表商业智能（BI）多维分析引擎实时查询数据服务批量查询访问框架分布式缓存数据多维展示元数据管理作业调度数据安全管理非结构数据呼叫中站点实时计算交互式多维关联数据集市应用数据存储基础数区公共访问区应用数据区大数据平台大数据平台总总体框架体框架-技技术视术视角角流式数据刷卡事件kafka第三方数据微

41、信 Crawler 微博HDFS据区实时查询 HBASE多媒体转换视频 Spark音转文本Storm流处理Cognos结构化转换HIVE/Impala 过滤/匹配D3.js数据探察GPYarnM/RNLPSpark数据聚集HIVE/ImpalaContent1234大数据发展趋势华为大数据平台关键技术华为大数据平台行业实践华为大数据平台案列详述37Content4华为大数据平台案列详述TD数仓卸载HDS运维日志实时分析影像存储智能运维业务3839现现有数据有数据仓库应仓库应用用负载负载卸卸载载-现现状和挑状和挑战战一般采用贴源层+基础层+应用层三层数据架构数据贴源层存放贴源数据数据贴源层

42、数据除了用来加工为基础层数据外，一般很少被下游应用直接用到，可视为冷数据数据贴源层占据EDW宝贵存储资源贴源跑批占据大量EDW系统资源现现状状伴随业务的增长，数据增长快，扩容压力大通常采用国外厂商一体机，存储成本高，扩容成本大跑批占用数据仓库时间窗口越来越长，可使用时间窗口越来越少，给数据仓库的使用带来巨大压力挑挑战战中间业务FTP核心卸载加载信贷作业管理信用卡ETL平台平台数据源数据源CRM信用评级数据数据仓库仓库应用层基础层贴源层绩效考核精准营销一体机管理报表下游下游应应用用数据转数换据转换网银40现现有数据有数据仓库应仓库应用用负载负载卸卸载载联联合合创创新方案新方案卸卸

43、载载平台要求平台要求卸载平台能够满足一定的处理时间窗口要求卸载平台具有较低的每TB数据成本卸载平台具备非常好的水平扩展能力卸载平台支持通用X86服务器卸载平台能够提供较好的企业级特性（可靠性、易管理性、易用性），满足一定的性能SLA联联合合创创新方案新方案与金融机构一起联合创新，将数据仓库系统中的贴源批处理过程迁移至基于通用X86服务器的使用大数据技术的Hadoop或MPPDB平台注：方案过程见动画开放，不被单一供应商锁定；提高数仓体系拓展能力、降低拓展成本降低数据存储成本减少数仓跑批时间窗口，提高数仓使用效率客客户户价价值值核心信贷中间业务信用卡网银数据源数据源信用评级一体机下游

44、下游应应用用管理报表X86服务器CRM数据数据仓库仓库应用层基础层贴源层ETL绩效考核精准营销卸卸载载平台平台FTP基础层贴源层ETLContent4华为大数据平台案列详述TD数仓卸载HDS运维日志实时分析影像存储智能运维业务41应用模式用户群体应用场景数据归档行内用户组件内生产数据清理后，在历史数据区进行归档保存在线查询在线同步（访问数据库）（响应时间：60（秒）查询条件比较精确；响应时间不是非常紧迫；访问频率比较高；在线异步（访问文件）（响应时间：300（秒）访问频率：=50次/天）查询条件比较宽泛；响应时间不是非常紧迫；访问频率比较低批量供数外部监管（部分包括行内用户）月末/季末的银监

45、会、外管局、审计署的外部监管数据需求；数据需求比较确定、供数操作频率比较固定、供数格式比较固定零星供数行内用户数据需求不确定、供数操作频率不固定、数据结果集不确定。42历历史数据史数据应应用四种模式用四种模式组合计算区主档增量明细增量43HDS区整体区整体视图视图归档批量供数在线查询应用计算区指标计算区HDS区查询集群在线同步查询区在线数据(HBASE)查询服务区统一在线查询在线同步查询服务在线异步查询服务数据源源数据区主档全量主档增量明细增量数据源HDS区归档集群组合计算区多表关联Hbase装载主档全量接入数据区主档增量明细增量源数据区主档全量主档增量明细增量应用加工计算区(Hive)HQ

46、L数据加工MR数据加工批量供应数据区表截面文件加工数据文件数据源源数据区主档全量主档增量明细增量归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据HDS区归档集群主档全量接入数据区主档增量明细增量应用加工计算区(Hive)HQL数据加工MR数据加工批量供应数据区表截面文件加工数据文件归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据接入数据区HDS区归档集群多表关联Hbase装载主档全量应用加工计算区(Hive)HQL数据加工 MR数据加工归档数据区(Hive)x系统.x表归档数据 x系统.x表归档数据UserTable_idxRowKeyCFa00001coluA*

47、a00001a00001coluA*a00002a00001coluA*a00003a00001coluAxxxxxa00004a00001coluA*a00005a00001coluA*a00006UserTableRowKeyColumnFamilycolAcolBcolCa00001*a00002*a00003a00004*a00005*a00006*关关键键技技术术：HBase二二级级索引索引+Phoenix+Spark特性价值高性能、高并发：HBase规模可达到数十亿行以及数百万列，同时读、写访问可以达到实时级别。提供SQL支持：降低学习成本和系统改造成本。易扩展：HBase基于HD

48、FS文件系统，性能线性增长，利于横向扩展。HBase：较开源产品提供二级索引、Region多点分割、一千公里容灾备份等增强特性，其中二级索引特性已被社区接受并纳入Phoenix组件。Spark：华为贡献了Sparkon HBase（Astro）特性，可以使用SparkSQL操作HBase数据，执行高效、复杂的查询操作，为HBase提供在线分析引擎。特性描述HBase二级索引特性支持在非RowKey列上建立索引，大幅提高检索速度。使用Phoenix为HBase提供基础SQL能力，在使用HBase高速查询能力的同时，降低系统的学习使用成本。构建统一的混合结构数据存储平台，通过Spark支持全量业务

49、数据+外部数据的挖掘分析。RowKeya00001a00002a00003a00004a00005a00006UserTableColumnFamilycolA colB colC*数据扫描区域目标行无索引：无索引：“Scan+Filter”，扫扫描大量数据描大量数据Content4华为大数据平台案列详述TD数仓卸载HDS运维日志实时分析影像存储智能运维业务45项目背景与现状问题问题数据量巨大，效率低：数据量巨大，效率低：日志收集与检索的效率低、成本高，无法满足故障排查问题定位的快速运维需求。因日志数据量巨大，监控系统目前只对日志文件进行基本的监控，只对日志大小、日志更新时间进行监控。数据数据

50、类类型复型复杂杂：传统关系型数据库不能处理半结构化或者非结构化数据Splunk日志分析：日志分析：Splunk日志分析工具仅支持离线的、片段的日志分析，且许可成本较高,仅应用于少量的应用系统，不满足应用日志分析需要。场场景特点景特点实时性要求高（高吞吐、低延迟）*实时：达到秒级以内大数据量的离线分析(总数据量、日增数据量都不断增长)*历史回溯：一小时以外的历史统计分析*历史日志检索：日志快速检索，故障快速定位现现状状每日产生大量的应用日志，分布于各应用系统及历史磁带监控系统目前对日志文件进行基本的监控，只对日志大小、日志更新时间进行监控，利用价值不大。464747日志离线分析业务性能分析运

展开阅读全文