阿里巴巴离线大数据处理平台.pptx

上传人:莉*** 文档编号:87565593 上传时间:2023-04-16 格式:PPTX 页数:30 大小:1.58MB
返回 下载 相关 举报
阿里巴巴离线大数据处理平台.pptx_第1页
第1页 / 共30页
阿里巴巴离线大数据处理平台.pptx_第2页
第2页 / 共30页
点击查看更多>>
资源描述

《阿里巴巴离线大数据处理平台.pptx》由会员分享,可在线阅读,更多相关《阿里巴巴离线大数据处理平台.pptx(30页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、提纲大数据时代阿里巴巴数据事业部离线大数据处理平台(ODPS)我们面临的主要问题ODPS部分功能概览结语第1页/共30页大数据时代2第2页/共30页大数据时代的挑战3社交网络、用户行为、购买关系企业内外IT系统的整合数据规模爆炸式增长结构化与非结构化数据并存、噪声增多组合离线、在线、流式等多项计算能力提供解决方案在大数据上应用传统统计学和数据挖掘算法数据关联性用户隐私保护、商业数据泄漏、复杂的访问控制需求企业发展的达摩克利斯之剑处理能力如何利用大数据盈利数据驱动的新业务模式与企业传统业务模式的冲突数据安全商业模式第3页/共30页阿里巴巴的大数据产品探索第4页/共30页淘宝贷款5解决小微企业贷款

2、难的问题:金额高流程长授信难周期长完全以数据驱动的产品对既有数据进行二次挖掘颠覆原有业务模式规模优势第5页/共30页阿里巴巴大数据事业部6离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化API&SDK算法库数据产品数据地图数据共享与合作第6页/共30页阿里巴巴离线大数据处理平台ODPS(Open Data Processing Service)支持海量结构化数据的离线存储和计算以RESTful API的方式提供服务基于阿里巴巴自主知识产权的分布式操作系统支持高吞吐量的数据上传下载服务支持SQL和存储过程支

3、持MapReduce、BSP编程框架支持常用的矩阵运算和数据挖掘算法支持多用户管理和基于ACL和policy的权限控制基于ODPS可以打造完整的数据仓库解决方案第7页/共30页我们面临的主要问题首先需要提供一个高效稳定的离线存储和计算引擎如何支撑5万、15万台以上的机群规模?多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发?多租户支持,安全隔离,权限控制如何了解业务运行状态?元数据管理,指标系统如何管理不同种类的任务?服务化,统一计算入口,可度量和控制的计算资源准实时查询,R-ODPS,我们还在继续探索第8页/共30页高效稳定的计算模型9SQL、Map Reduce仍然

4、是离线运算的主流,但是,频繁IO带来的性能瓶颈模型描述能力的局限第9页/共30页准实时查询10优势:避免IO消耗节约调度成本劣势:Failover资源占用数据规模适用场景:Ad hoc分析第10页/共30页图编程功能:统一的API、授权、数据存储、metaMaster-slave,worker负责子图通过迭代在节点间通讯和修改图拓扑挑战:数据倾斜时的内存控制与其他类型作业共存错误恢复优势:方便处理图数据多轮迭代性能远好于MR应用场景:推荐、社交网络、物流、第11页/共30页利用图编程实现SSSP算法(1)GraphLoader 图加载基类 public static class SSSPGra

5、phLoader extends GraphLoader Override public void load(Record record,MutationContext context)SSSPVertex vertex=new SSSPVertex();vertex.setId(LongWritable)record.get(0);String edges=record.get(1).toString().split(,);for(int i=0;i edges.length;i+)String ss=edgesi.split(:);vertex.addEdge(new LongWritab

6、le(Long.parseLong(ss0),new LongWritable(Long.parseLong(ss1);context.addVertexRequest(vertex);第12页/共30页利用图编程实现SSSP算法(2)Vertex 点基类public static class SSSPVertex extends Vertex Override public void compute(ComputeContext context,Iterable messages)long minDist=(getId()=1)?0:Integer.MAX_VALUE;for(LongWri

7、table msg:messages)if(msg minDist)minDist=msg;if(minDist this.getValue()this.setValue(minDist);for(Edge e:this.getEdges()context.sendMessage(e.getDestVertexId(),minDist+getValue();else voteToHalt();第13页/共30页利用图编程实现SSSP算法(3)第14页/共30页矩阵和算法运算支持基于MPI的算法运算包图形化交互界面支持算法:SVD分解逻辑回归随机森林连接R与ODPS集成ODPS的算法-ODPS第

8、15页/共30页多集群架构16业务增长的速度永远快于技术完善的速度,如何支撑日益膨胀的存储和计算需求?第16页/共30页多集群架构17多计算机群解决规模瓶颈统一meta准实时数据同步减少热数据跨机房业务迁移多控制机群灰度发布业务分离第17页/共30页多租户模型18如何支持多个团队在一个平台上开发?第18页/共30页多租户模型19用户空间授权访问跨空间访问受保护的空间空间互信第19页/共30页ODPS安全架构数据安全是每个平台产品需要解决的核心问题第20页/共30页Web 服务器ODPS安全架构(Meta OTSStore)ODPS服务计算集群n计算集群1ODPS 客户端(SDK,Console

9、)ODPS接入层ODPS控制集群OdpsWorkerSchedulerExecutor Hive Server第21页/共30页云帐号Shenshu(授权服务)KDC(SSO服务)Web 服务器OTS(Meta Store)域帐号用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1ODPS 客户端(SDK,Console)ODPS接入层ODPS控制集群1.认证.2.检查用户权限,检查数据保护策略.3.给Fuxi Job配置最小权限的Capability.eg,pangu cap权限如下:“pangu:/odps/prjA/shop/”:R,“pangu:/odps/prjB/sale

10、_detail/”:R,“pangu:/odps/prjB/t1/”:WSQL实例:INSERT OVERWRITE prjB.t1 AS SELECT a.shop_name,b.sale_totalFROM prjA.shop a LEFT OUTER JOIN prjB.sale_detail b ON a.shop_name=b.shop_name;OdpsWorkerSchedulerExecutor Hive Server第22页/共30页云帐号Shenshu(授权服务)KDC(SSO服务)Web 服务器OTS(Meta Store)域帐号用户认证飞天内部认证与授权中心ODPS服务

11、计算集群n计算集群1ODPS 客户端(SDK,Console)ODPS接入层ODPS控制集群Java SandboxProcessSandboxGuest OS Kernel用户提交的MapReduce程序可能会:恶意耗尽集群资源(CPU,Memory,Network,Disk);直接访问Pangu文件,窃取或篡改其他用户数据;窃取Linux节点上的飞天系统进程的敏感数据(如Tubo的capability);.基于沙箱的纵深防御体系1.Java沙箱2.Linux进程级沙箱3.虚拟机沙箱OdpsWorkerSchedulerExecutor Hive Server第23页/共30页灵活的授权方式

12、 Version:1,Statement:Effect:Allow,Principal:zinan.tang,Resource:acs:odps:*:projects/sampleprj/tables/test_*,Action:odps:Update,odps:Select Condition:24第24页/共30页数据上传下载服务如何解决系统与多个数据源之间的数据交换问题?第25页/共30页数据上传下载服务服务化:REST结构化数据流式数据传输高并发上传下载服务能力水平扩展可靠传输Failover&断点续传统一认证鉴权流控和防攻击提供可编程接口第26页/共30页利用ODPS Tunnel上传数据27第27页/共30页结语数据驱动的新商业模式是互联网产业下一个增长点云计算能力是大数据应用的基石分布式存储和计算的挑战性能、稳定性、单点、通讯、故障恢复、状态机、ODPS才刚刚起步10万台、万兆网卡、分布式内存文件读写、28第28页/共30页29 谢谢大家!第29页/共30页感谢您的观看。第30页/共30页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com