bi实施方案.docx

上传人:w*** 文档编号:6084409 上传时间:2022-01-29 格式:DOCX 页数:83 大小:74.33KB
返回 下载 相关 举报
bi实施方案.docx_第1页
第1页 / 共83页
bi实施方案.docx_第2页
第2页 / 共83页
点击查看更多>>
资源描述

《bi实施方案.docx》由会员分享,可在线阅读,更多相关《bi实施方案.docx(83页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、bi实施方案第1篇:BI项目实施方案总结 项目实施阶段几个主要问题 1、数据准备 2、缺乏关键用户的参与 3、培训效果急于求成 4、需求扩大化 5、乙方的承诺 6、项目文档管理 一、数据准备 项目实施的数据准备阶段要求客户方提供完整的基础数据以及截至某一时间点的事务性数据,即便将数据整理完毕,其准确性也难以保证,导致不断出现反复核对修改数据,这样经常使得原计划的数据准备工作延期完成,而有的实际的业务数据已经发生,这给后期的业务处理带来很大的麻烦,导致项目总是模拟运行,无法实现按计划的顺利切换。(若是数据标准统一阶段无法按期完成,如何解决?或者按期完成了但是数据准确性不高,导致后期建模,报表等的

2、修改,责任如何划分?修改的人天如何计算?) 解决方案-乙方应告知我们如何提供完整的、准确的数据字典,应如何去进行分类、编码、整理 二、缺乏关键用户的参与 项目实施不仅是软件供应商的事,关键用户必须全程参与项目实施,协调方案讨论、需求确认、计划审定并与实施人员一起推动项目实施,项目经理要定期进行阶段工作总结,分析存在的问题,总结项目实施的阶段性成果,制定下个阶段的实施计划,争取企业管理者的重视和信任 三、培训效果急于求成 培训不够正规,培训环境、人员、课件简陋,培训的效果大打折扣,客户对软件的功能、流程及设计思想认识不足,坚持过去模式,不能接受新系统带来的变化,项目经理的方案难以实施。(培训一定

3、要让业务人员了解实施的整个过程以及各个阶段的内容和目标,要让业务人员明白实施能给他们带来的价值) 四、需求扩大化 需要一开始就明确需求,明确实施的范围和目标 五、销售人员不切实际的承诺 关于实施范围、要求能否实现等问题,一定要实施人员做出解答,而不能是销售人员 六、项目文档管理 需要有书面化的文档来明晰各自的职责,信息互通,共同把握实施的节奏(具体包括需求范围,人员职责等) 需要标准的业务流程文档,有助于双方明晰业务流程,有效配合业务流程的重组和优化 标准编码、标准数据文档及标准参数设置文档等,可有效地减少重复的工作 从报表开发流程及参与者角色的角度谈一下BW项目: 1.用户需求阶段: 报表应

4、用从需求出发,因为BW报表一般是分析型的报表,需要需求提出者对业务有相当的了解,有较高的综合、归纳能力,若需求不准确,需求多变,报表开发周期难免会延长。 2.需求分析、模型设计阶段 此阶段可以说是报表开发最重要的阶段,与单纯R/3报表开发相比,BW报表需要更多的设计、架构。此阶段的参与角色除了需求者以外,最重要的是架构师、业务顾问。业务顾问要对用户需求领域的业务非常清楚,架构师除了精通BW技术外,对需求业务领域也必须有深入的认识,并且架构师、业务顾问必须沟通良好,否则会面临较大风险。有了基本模型,可能还需要一些程序来实现其中部分功能,因为涉及大量数据,程序设计人员除了实现功能外,尤其需要关注程

5、序的效率。 3.数据抽取阶段 模型设计完毕之后,就可以开始抽取、加载数据了。数据抽取、加载人员必须对BW数据流有清晰的理解,根据数据流程设计自动处理链,让系统自动运行,并知道各类错误如何解决。 4.报表开发、权限配置阶段 此对报表开发、权限配置人员的基本要求同样是精通BW报表制作及权限配置。 5.报表测试、推广阶段 报表出来后先要经过业务顾问、关键用户仔细测试。由于BW报表一般涉及大量数据,复杂逻辑,在推广前一定要经过仔细测试,最好将各种业务可能都测试到,确保报表准确。 第2篇:实施BI的方法 实施BI的方法 2008-4-24大 | 中 | 小 BI的实施是一个系统工程,必须把多种手段配合使

6、用,常用的方法有: (1) 公关秀 公关秀就是利用个别事件、偶发事件为契机,通过一系列精心策划的公关活动,打破员工的固有思维方式和旧有行为模式。作为建立BI系统的一种手段,公关秀具有强人的瞬间震撼力,但缺乏持续性。故往往用于BI系统的初始,起到“脑力激荡”、“冲锋号角”的作用。但如果没有源源不断的后续手续,它的效果是非常有限的。 (2) 成文规章 企业的规章制度是BI系统的重要组成部分。没有规章制度的企业恐怕不存在,但我国大多数的企业,尚未懂得把企业规章制度和企业理念统一起来的重要性,更不知道如何把规章制度与企业理念有机地统一起来。 (3) 不成文惯例(企业文化) 除了规章制度之外,企业的核心

7、价值观,更多是通过不成文惯例传播的。不成文惯例可意会、可言传,却找不到白纸黑字的相关规定。所以从某些角度来看,不成文惯例也是企业的文化。 要利用不成文惯例改变员工的行为规范,往往需要通过自上而下进行的,有计划、有目的的示范行为,也即“言传身教”。若用好了,不成文惯例比规章制度效率更高,成本横低,影响更深远。 (4) 战略取向 不论是有意还是无意,我国许多企业的整个战略取向与所声称的“企业理念”南辕北辙,这反映了这些企业所谓的CI系统的装饰性本质,必然从根本上削弱了CI系统的有效性。企业理念应当和企业的战略取向相呼应,理念是战略的指南,战略是理念的体现。 (5)选择合作伙伴、员工 企业在选择合作

8、伙伴时,也应对双方的经营理念是否一致。有许多企业在和别的企业合作的时候,只考虑当前的物质利益,没有意识到理念冲突可能产生的严重效果。同样地,企业在招聘、选拔员工的时候,不能“唯才是用”,而应“德才兼备”,选拔一些与公司有相似理念的人才。 以上是实施BI的五种常用方法。必须注意的是,BI的实施具有持续性,并不是一蹴而就,也不是实施过后就可以高枕无忧。 来源:CIO时代作者:陈硕坚 第3篇:BI实验报告 BI课程 学号: 姓名:王晓郁 专业:计算机科学与技术 日期: 实验报告 0841902112 (08中法) 2022年5月20日 实验、QL Server BI Step by Step SSI

9、S 3 【开发语言及实现平台或实验环境】 sql server 2008 【实验目的】 (1) 利用SSIS把SQL Server中的数据导出与导入。 (2) 熟悉和掌握实验的各种操作。 (3) 能够在实际的事例中灵活运用学到的有关知识。 【实验原理】 1.SQL语句查询 2.SSIS包功能 【实验要求】 (1)利用SSIS实现了数据的导入和导出,把Product表中的数据导出成Excel,然后对产品编号和名称两个字段经过派生的功能进行转换再导入到数据库中。 (2)按照实验步骤所示内容认真完成每一个步骤; 【实验步骤】 1.打开V 2005,选择商业智能项目,然后选择模板中的Integrati

10、on Service项目,输入项目名称: 创建好后,就在默认的Package包中进行设计。 2.向控制流中添加一个数据流组件(Data Flow Task),双击进入数据流.从左边的工具箱中选择OLEDB数据源(OLE DB Source),可以看到,添加进去后是红色的.双击设置一下连接,如果没有已经创建的链接,则新建一个连接,选定后设置直接访问Produt表。 OK,确认了之后,发现红色的错误提示已经不存在了。 3.接下来直接再添加一个目标数据源,将数据导出成Excel数据格式,所以选择Excel Destination,同样,双击对Excel连接管理器进行配置,配置好文件名称和路径以后(此

11、处选择在首行显示列名,这样会从第二行开始才开始显示数据),如果文件不存在,直接选择下面的新建,创建新的Excel工作表。 4.然后从左边切换到映射,对数据流中的元数据的列和Excel表中的列进行一一映射,因为刚才是自动创建的Excel工作表,所以默认是根据名称对应的.这样我们就完成了对Product产品表的导出,在右边的解决方案中,右击执行包,可以看到绿色执行成功. 5.通过设置sql语句导出所有颜色为黑色的产品,让我们把OLEDB数据源的访问模式改成sql命令,然后输入查询语句: SELECT * FROM Production.Product WHERE (Color = Black) 6

12、.接下来,我们再将刚才导出的产品数据导入Product表中.再添加Excel Source和OLE DB Destination,其实就是做和导出相反的过程.把 Excel Source的OLEDB连接指向Excel连接管理器。 OLE DB Destination的连接设置成OLE DB Source中的数据库连接,同样,设置成以表或视图的方式访问Product表,确定后发现有红色错误。需要将rowguid字段,这两个字段都是数据库中自动生成的. 再次确认后会发现已经没有错误,只剩下了黄色的警告,现在暂时不理会这个警告。 7.把刚才生成的Excel文件删除,重新配置Excel连接管理器生成新

13、的空Excel文件(或者把生成的Excel中的数据删除),然后再次运行包,刚才的数据导出仍然正常,数据导入显示的是没有导入任何数据,这是因为在数据中刚才的数据导出和导出并没有先后,所以他们是同步执行的,执行导入时发现里面的数据为空,所以没有导入成功任何数据.不过,尝试着把数据导入的操作直接放在Excel Destination后面是失败的,Excel Destination就是数据流目标,意味着整个流程的结束.(此时Excel Destination中只可定义一个错误输出)。 8.切换到控制流,再添加一个数据流任务,将第一个数据流任何指向这个(鼠标拖拉绿色箭头): 9.双击刚添加的数据导入(已

14、经编辑的数据流组件名称),把刚才的数据流中的组件剪切过来.清空Excel数据再次运行包,有错误 ,看下面的错误信息: An OLE DB record is available.Source: Microsoft SQL Native Client Hresult: 0x80040E2F Description: 语句已终止。. An OLE DB record is available.Source: Microsoft SQL Native Client Hresult: 0x80040E2F Description: 不能在具有唯一索引 AK_Product_ProductNumber

15、的对象 Production.Product 中插入重复键的行。. 10.暂时通过添加一次转换,在刚才的数据流源和数据流目标中间再添加一个派生列组件(Derived Column ,Updates column values using expreions).添加一个新列NewProductNumber,在Excel中的产品编号后面加1,组成新的产品编号,同样派生出一个新的产品名称Name,因为在数据库中同样也有唯一性约束. 11.还要修改OLE DB目标中的映射,将目标列的ProductNumber对应的输入列ProductNumber改成刚才派生的NewProductNumber.将目标列

16、的Name对应的输入列Name改成刚才派生的NewName.清空Excel数据,再次运行包,都变成了绿色,执行全部成功 12通过对比数据库,确实已经成功的添加进了93行新的数据 【参考文献】 1、SSIS_StepV2.pdf文档 【心得体会】 1.熟悉了sql server 2008的环境和熟练了SOL语言的使用。 2.通过实验得知,控制流中的数据导出和导入两个组件其实是前后约束条件的,也就是必须数据导出必须成功了才会执行导入(后面会介绍).另外,所谓的数据导出并不会局限于数据库的导入与导出,数据流源和数据流目标都可以是Excel,Flat File(txt,csv),XML,DataRea

17、der等连接.也就是说同样可以实现txt导入Excel,或者是XML导入数据库等操作。 第4篇:BI学习心得 BI学习心得 1 BI是什么 通过学习理解,可将BI归结为一句话:从数据中挖取利润。 11 初识BI 初识BI的概念,是从BI相关知识介绍.ppt开始的。通读之后,我了解三件事: 1)、沃尔玛将啤酒和尿布摆在一起出售,提高了啤酒的销量; 2)、BI是Busine Intelligence的缩写,商务智能。官方定义:是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术。 3)、BI的分析过程图,如下: 图1.1BI Analyse的过程 同时,幻灯片中还介绍了大量的中

18、英文概念,让我非常的混乱。为了更好的学习了解BI,首先需要克服的就是名词解释,其次是通过实例了解BI的应用。 12 常见名词浅释 l ETL:数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 l Data Warehouse:数据仓库,是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程

19、。而不是一种可以购买的产品。 l Data mart:数据集市,或者叫做小数据仓库。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。 l OLAP(On-Line Analytical Proceing):联机在线分析处理,是一类软件技术,它们使用户(业务分析师、经理和执行官)能够以交互形式快速、一致地探查数据,用户看到的是经过转换后的原始数据的各种信息视图,它们可以反映业务的真实维数。 l ROLAP:基于Codd的12条准则,各个软件开发厂家见仁见智,

20、其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(star schema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。 l MOLAP:Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为Muiltdimension OLAP,

21、简称MOLAP,代表产品有Hyperion(原Arbor Software) Ebase、Showcase Strategy等。 l Client OLAP:相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer,Busine Object。 l DSS:决策支持系统(Decision Support System),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。 l Ad hoc query:即席查询,数据库应用最普遍的一种查

22、询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。 l EIS:主管信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。 l BPR:业务流程重整(Busine Proce Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作,数据仓库的重要作用之一。 l BI:商业智能(Busine Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。 l Data Mini

23、ng:数据挖掘,Data Mining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策 l CRM:客户关系管理(Customer Relationship Management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM其实应该算是一个古老的应用了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客

24、人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM。 l Meta Data:元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。 13 实例应用 BI应用实例: 某家上市公司的销售副总裁每周五下午要和全国各大区的销售总监开视频会议,一般情况下他需要事先了解一下公司上周的销售情况,这时他进入公司的商业

25、智能系统,查看销售周报表,报表的横坐标是时间,纵坐标有:“销售目标”、“实际收入”、“收入指标达成率”。这张报表显示了每周销售变化情况。 副总裁为了进一步弄清楚某一大区及大区下属的几大城市的销售数据,只要使用钻取功能,用鼠标轻轻在屏幕上点击几下,该大区及大区下各城市的销售数据便一目了然。钻取即这种从“全国水平”(宏观)到“地区水平”(微观)的分析过程。然后,副总裁需要了解在某一区域的销售数据中,哪些是直销完成的,哪些是渠道完成的,这种从报表视图的某一个角度到另外一个角度的视角转换过程被称为“切片”。钻取和切片的操作都非常简便,只需用鼠标简单地在电子报表上轻点几下即可完成。在上面的分析过程中,涉

26、及到了“维”这个概念,即观察问题的角度。 这位销售副总裁的分析维度包括:时间、大区、销售模式,以这三个维为三个轴线来观察数据,就形成了一个信息立方体,立方体的每一个小单元都包含了企业管理者需要追踪的消息,包括一个特定地区、特定时间、特定销售渠道的各项指标的全部信息,通过对立方体的切片或切块分割,可以从不同的视角观察各种数据。通过“钻取”和“切片”,这位副总裁知道了销售情况的变化是哪个大区、哪些城市、直销或者代理渠道出现了问题,这种灵活快速的查询和分析如果通过过去的ERP报表查询是很难完成的。 通过实例可知,使用BI系统,可以将不同的数据源关联对应在一起,对企业信息进行管理、分析、自动生成报表,

27、提高分析决策的效率和质量。 14 BI的定义 商务智能是指将企业的各种数据及时地转换为企业管理者感兴趣的信息(或者知识),并以各种方式展现出来,帮助企业管理者进行科学决策,加强企业的竞争优势。这里的数据不仅仅指企业内部的各种数据,而且包括企业外部的数据,例如行业、市场状况和客户资源的数据等等。 从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库为基础,经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润。 从应用角度看,商务智能帮助用户对商业数据进行联机分析处理和数据挖掘,例如预测发展趋势、辅助决策、对客户进行分类、挖掘潜在客

28、户等等。 从数据角度看,商务智能使得很多事务性的数据经过抽取、转换之后存入数据仓库,经过聚集、切片或者分类等操作之后形成有用的信息、规则,来帮助企业的决策者进行正确的决策。 综上所述,我认为 BI的定义:商务智能是利用各种技术,对数据进行收集、存储、分析并提供可视化界面显示,从而更容易、快捷的获得信息知识,帮助管理者做出更好的业务决策。 2 BI技术简析 通过阅读资料,我认为把商业智能看成是一种解决方案的说法比较恰当。它是将数据仓库、OLAP和数据挖掘等技术组合到一起的综合运用。BI技术的关键是将来自不同的业务系统数据库中的数据,提取出来,进行清理以保证数据的正确性,然后经过抽取(Extrac

29、tion)、转换(Transformation)和装载(Load),即ETL过程,合并到数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。商业智能的这个基本过程如图所示: 图2BI结构图 一些文章中将BI分为四个主要阶段:数据预处理、建立数据仓库、数据分析、数据展现。同时认为数据仓库、OLAP和数据挖掘技术是商业智能的三大技术支柱。 21 数据预处理ETL ETL是商业智能(BI)的重要组成部分,是英文Extract-Transform

30、-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。 对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。 211 ETL设计 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore,操作型数据存储)中这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。E

31、TL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing,数据仓库)中去。 212 ETL实现 ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但

32、是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。 213 数据的抽取 这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。 1、对于与存放DW的数据库系统相同的数据源处理方法 这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统

33、之间建立直接的链接关系就可以写Select语句直接访问。 2、对于与DW数据库系统不同的数据源的处理方法 对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接如SQLServer和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另外一种方法是通过程序接口来完成。 3、对于文件类型数据源(.txt,.xls) 可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者还可以借助工具实现,如SQLServer2005的SSIS服务的平面数据源和平

34、面目标等组件导入ODS中去。 4、增量更新的问题 对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。 214 数据的清洗转换 一般情况下,数据仓库分为ODS、DW两部分。通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。 1、数据清洗 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,

35、确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。 (1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。 (2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对

36、于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。 (3)重复的数据:对于这一类数据特别是维表中会出现这种情况将重复数据记录的所有字段导出来,让客户确认并整理。 数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务

37、单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。 2、数据转换 数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。 (1)不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。 (2)数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系

38、统数据按照数据仓库粒度进行聚合。 (3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。 215 数据的装载 ETL的装载部分,可查询的资料较少。仅查阅到与抽取在一起的部分描述内容。 ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。和OLTP系统中不同,那里充满这单条记录的insert、update和select等操作,ETL过程一般都是批量操作,例如它的装载多采用批量

39、装载工具,一般都是DBMS系统自身附带的工具,例如Oracle SQLLoader和DB2的autoloader等。 216 ETL日志、警告发送 1、ETL日志 ETL日志分为三类。一类是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。一类是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。第三类日志是总体日志,只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以作为ETL日志的一部分。记录日志的目的是随时可以知道ET

40、L运行情况,如果出错了,可以知道哪里出错。 2、警告发送 如果ETL出错了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上出错的信息,方便管理员排查错误。 ETL是BI项目的关键部分,也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为BI项目后期开发提供准确的数据。 22 BI支撑技术数据仓库/数据集市 数据仓库:商业智能的基础。 对于一个企业来说,最关键也最为重要的是,如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据,并通过灵活有效的方式为各级业务人员提供统一的信息视图,从而在整

41、个企业内实现真正的信息共享。数据仓库技术正好满足了这一需求。数据仓库是商业智能系统的基础,如果没有数据仓库,没有企业数据的融合,数据分析就成为了无源之水。 数据仓库定义为:“一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合,用于支持管理决策”。与传统的事物处理系统有不同的是,数据仓库是一种过程,它是对分布在组织或企业内部各处的业务数据进行整合、加工和分析的过程。而不是一种可以购买的产品。 221 数据仓库常用术语 l 数据仓库 数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。 数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,

42、因为它必须在特定的时间基础上从操作环境中提取出来。 l 数据集市 数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。 l 事实 事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。 事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。 每个事实包括关于事实(收入、价值、满意记录等)的基本信息,并且与维度相关。 在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。 l 维度 维度是绑定

43、由坐标系定义的空间的坐标系的轴线。数据仓库中的坐标系定义了数据单元,其中包含事实。 坐标系的一个例子就是带有 x 维度和 y 维度的 Cartesian(笛卡尔)坐标系。 在数据仓库中,时间总是维度之一。 l 数据挖掘 在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。 l 分析空间 分析空间是数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。 l 切片 一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。 l 切块 一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。 l 星型模式 一种使用关系数据库实现多维分析空间

44、的模式,称为星型模式。 星型模式将在本白皮书中稍后进行进一步讨论。 l 雪花模式 不管什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。 222 面向主题( Subject-oriented ) “主题”是一个较为抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。从信息管理的角度看,主题是在一个较高的管理层次上对数据进行综合、归类所形成的分析对象;从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据本身,还涉及到数据之间的关系。 “面向主题”则表明了数据仓库中数据组织的基本原则,是指数据仓库内的信息是按

45、主题进行组织的,而不像传统事物处理系统那样单一地按照业务功能及性能要求进行组织。 传统的操作型系统是围绕公司的应用进行组织。如对一个电信公司来说,应用问题可能是营业受理、专业计费和客户服务等,而主题范围可能是客户、套餐、缴费和欠费等。 223 集成( Integrated ) “集成”是指数据仓库中的信息并不是对各个数据源简单的选择、抽取,而是首先进行一系列的加工、整理和转换等来消除源数据中的不一致;同时按照本行业的逻辑模型设计便于查询及分析的数据仓库。然后按照组织或企业的需求,针对不同的主题对数据进行某种程度的综合、概括和聚集,将源数据加载进数据仓库。经过这样的处理,数据就具有了集成性,可以

46、用于决策分析。 224 反映历史变化( Time-variant ) “反映历史变化”是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。 225 相对稳定( Non-volatile ) “相对稳定”是指数据一旦进入数据仓库,一般情况下会被长期保留,所涉及的数据操作也主要是查询、分析,很少会被修改或删除,通常也只需要定期地加载和刷新。相对稳定性保证了数据仓库中的数据能够真实地反映历史变化。 数据仓库中所存放的数据在物理上是分离的。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常它只需要两种

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com