教学课件商务数据分析与应用第3章 商务数据分析的方法ppt(全).ppt

上传人:春哥&#****71; 文档编号:71827320 上传时间:2023-02-06 格式:PPT 页数:64 大小:5.18MB
返回 下载 相关 举报
教学课件商务数据分析与应用第3章 商务数据分析的方法ppt(全).ppt_第1页
第1页 / 共64页
教学课件商务数据分析与应用第3章 商务数据分析的方法ppt(全).ppt_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《教学课件商务数据分析与应用第3章 商务数据分析的方法ppt(全).ppt》由会员分享,可在线阅读,更多相关《教学课件商务数据分析与应用第3章 商务数据分析的方法ppt(全).ppt(64页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、教学课件商务数据分析与应用第教学课件商务数据分析与应用第3 3章章 商商务数据分析的方法务数据分析的方法 商务数据分析与应用商务数据分析与应用第3章 商务数据分析的方法本章提纲 统计分析统计分析3.1 商务数据分析的其他方法商务数据分析的其他方法3.4 相关分析与回归分析相关分析与回归分析3.2 时间序列分析时间序列分析3.3学习目标u1.了解静态指标和动态指标的含义u2.掌握相关分析的计算过程u3.重点掌握一元线性回归的计算过程u4.了解多元线性规划和非线性回归的计算过程u5.重点掌握时间序列预测模型u6.熟悉聚类、关联规则、分类等数据分析方法重点难点知识u章节重点章节重点1.熟悉各类统计分

2、析的指标和指数的计算过程2.掌握相关分析、回归分析、时间序列分析等重点方法u章节难点章节难点1.计算相关系数2.计算线性回归模型的参数并建立回归模型3.应用时间序列模型进行移动平均和指数平滑处理4.应用聚类方法、关联规则、分类方法等数据分析方法本章思维导图知识导入u电商平台商品个性化推荐电商平台商品个性化推荐京东的商品个性化推荐起步于2012年,当时的推荐产品是基于规则匹配做的。随着业务的快速发展以及移动互联网的到来,基于大数据分析对个性化推荐的业务需求愈发强烈。为此,京东团队于2015年再次升级推荐系统。2016年“618”期间,商品个性化推荐大放异彩,特别是团队开创的“智能卖场”,实现了活

3、动会场的个性化推荐,大大提高了流量效率和用户体验,从而达到商家和用户双赢。可见,在电商网站进行商品推荐,可以提高整个网站商品销售的有效转化率,增加商品销量。通过用户已经浏览、收藏、购买的记录,更精准的理解用户需求,对用户进行聚类、打标签,推荐用户感兴趣的商品,帮助用户快速找到需要的商品,适时放大需求,售卖更加多样化的商品。推荐系统一直在迭代优化升级,未来将朝着“满屏皆智能推荐”的方向发展。如何从海量的数据中找到有用的数据并对获取的数据进行有效分析呢?本章将介绍商务数据的分析方法。3.1 统计分析v3.1.1 静态分析指标静态分析指标v3.1.2 动态分析指标动态分析指标v3.1.3 统计指数统

4、计指数v3.1.4 抽样推断抽样推断3.1.1 静态分析指标 数据分析必须借助各种指标来实现,其中静态分析指标是用来说明社会经济现象数量特征的。由于社会经济现象及其发展过程的复杂性,静态分析指标呈现多样性,可以将其归纳为4类,即总量指标、相对指标、平均指标和变异指标。3.1.1 静态分析指标u1.总量指标 总量指标是反映社会经济现象在一定时间、地点和条件下的总体规模或水平的统计指标。它的表现形式为绝对数,故又称为统计绝对数。总量指标是对社会经济现象总体认识的起点,是制定政策和计划、实行科学管理的重要依据,是计算相对指标和平均指标的基础。局限性:只能反映现象在具体时间、地点、条件下的总规模、总水

5、平,不能反映现象间的对比关系、现象的内部结构、现象的计划完成情况,也不能反映现象的动态变动方向和变动程度等问题。3.1.1 静态分析指标u2.相对指标 两个有联系的统计指标的比率称为相对指标。与总量指标伴随有量纲单位不同,相对指标在绝大多数情况下采用无名数标识。无名数是一种抽象化的数值,多用倍数、系数、成数、百分数等表示。相对指标能够反映现象的发展速度、结构、强度、普遍程度或比例关系。利用相对指标可以使一些不能直接对比的指标找到共同的比较基础。3.1.1 静态分析指标u3.平均指标(1)平均指标的基础知识 平均指标是同类社会经济现象总体内各单位某一数量标志在一定时间、地点和条件下数量差异抽象化

6、的代表性水平指标,其数值表现为平均数。平均指标可以反映现象总体的综合特征,也可以反映各变量值分布的集中趋势。平均指标常用来进行同类现象在不同空间、不同时间条件下的对比分析,从而反映现象在不同地区的差异,揭示现象在不同时间的发展趋势。平均指标按计算和确定的方法不同,分为算术平均数、调和平均数、众数和中位数等。3.1.1 静态分析指标(2)算数平均数、调和平均数、众数和中位数的应用 例:某网店的11名员工,2021年1月的工资收入与当月交易量如表3.1所示。3.1.1 静态分析指标(2)算数平均数、调和平均数、众数和中位数的应用 算术平均数。例如,计算本月全部员工的月平均工资,11名员工的月工资总

7、额为55200元,则月平均工资为5018元(55200/11)。调和平均数。例如,计算编号为101-105号员工的本月平均交易量,公式为 5/(1/50+1/32+1/46+1/48+1/36)=41.1,即这5名员工本月平均交易量为41.1单。众数。例如,计算该网店员工年龄的一般水平。经过汇总可知,该网店11名员工中,22、24、28、30、35岁各1名,23岁2名,25岁4名,因此,25是该网店员工年龄的众数。中位数。例如,计算该网店员工年龄的中位数。首先将年龄数据从小到大排列,由于该组数据由11个数据组成,因此选择排在第6位的员工年龄25作为中位数。若删除101员工的年龄数据,使得年龄数

8、据为10个数据组成,则中位数为排在第5和第6位的数据加和求平均(25+25)/2=25。3.1.1 静态分析指标u 4.变异指标 变异指标是综合反映总体各单位标志值变异程度的指标。它显示总体中变量数值分布的离散趋势,是说明总体特征的另一个重要指标,与平均数相辅相成。变异指标包括极差、四分位差、平均差、标准差、方差等。3.1.1 静态分析指标u 4.变异指标 下面将对这些变异指标进行具体应用,仍采用如表3.1所示的数据分析该网店员工的变异指标。极差(R)也称为全距,是指总体各单位的两个极端标志值之差,上表中某旗舰店工资极差R=最大工资最小工资=5500 4600=900(元)。四分位差,它是上四

9、分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。计算公式为:Q=Q3-Q1。例如,上表中员工年龄分别为23,25,25,24,23,22,28,30,35,25,25,求其年龄的四分位差。将数据按从小到大的形式排列好,可算出Q1的位置为3,Q3的位置为9,可得Q=Q3-Q1=28-23=5,说明该团队中有50%的人年龄集中在2328岁之间,最大差异为5岁。平均差,是一种平均离差,是总体所有单位与其算术平均数的离差绝对值的算术平均数。如上表中员工年龄序列为23,25,25,24,23,22,28,30,35,25,25。其平均差为:|组内每个数-该组数的算术平均数|/该组数的

10、个数=30.5/11=2.77。标准差和方差,方差是各个数据与其算术平均值的离差二次方的平均值,通常以2表示,标准差又称均方差,一般用表示。方差和标准差的计算也分为 简 单 平 均 法 和 加 权 平 均 法。如 上 表 中 员 工 年 龄 序 列 为23,25,25,24,23,22,28,30,35,25,25,求其方差和标准差,其方差=(组内每个数平均值)的平方/该组数的个数=12.99,其标准差为方差的开方=3.60。3.1.2 动态分析指标u1.动态数列 动态数列是指将同类指标在不同时间上的数值按时间的先后顺序排列起来形成的统计数列,又称时间数列,是一种常见的经济数据表现形式。动态数

11、列反映了现象发展变化的过程和结果,可以描述事物在过去时间的状态,分析事物发展变化的规律性,以及根据事物的过去研究预测它们的将来。时间数列形式上包括两部分:一是被研究现象所属的时间,可以是年份、季度、月份或其他任何时间形式;二是与现象所属时间相对应的指标数值,可以是总量指标、相对指标和平均指标。3.1.2 动态分析指标u2.动态数列分类(1)绝对数动态数列 把一系列同类的总量指标按时间先后顺序排列而形成的动态数列,称为绝对数动态数列。按照绝对数所反映的社会经济现象的不同性质,绝对数动态数列又可分为时期数列和时点数列两种。时期数列是反映一段时间内发展过程总量的绝对数数列;时点数列是反映一定时刻(瞬

12、间)上的状态总量的绝对数动态数列。例如,表3.2中所列某实体店2021年3月1日到3月5日的客户到店人数就是时期数列;而相对应,实体店每天早上开门营业时到店人数就是时点数列。3.1.2 动态分析指标u2.动态数列分类(2)相对数动态数列 把一系列同类的相对指标数值按时间先后顺序排列而形成的动态数列,称为相对数动态数列。它可以用来说明社会现象间相互联系的发展变化情况。例如,表3.2中的支付转化率就是相对数动态数列。(3)平均数动态数列 把一系列同类的平均指标数值按时间先后顺序排列而形成的动态数列,称为平均数动态数列。它可以用来说明社会现象在不同时期一般水平的发展变化情况。例如,表3.2中的平均客

13、单价就是平均数动态数列。3.1.3 统计指数u统计指数分析法是经济分析中广泛应用的一种方法,是在统计物价水平的变动中产生和发展起来的,最早可追溯到1650年英国人沃汉(R.Voughan)所编制的物价指数。u物价指数(Price index)最初只是反映一种商品价格的变动,即用现行价格与过去价格对比来反映价格的变动情况,后来过渡到综合反映多种商品价格的变动情况。3.1.3 统计指数u统计指数按照不同的研究目的和要求,可以作如下分类:1.个体指数和总指数 统计指数按所研究对象的范围不同,可分为个体指数和总指数。2.数量指标指数和质量指标指数 统计指数按所表示的特征不同,可以分为数量指标指数和质量

14、指标指数3.动态指数和静态指数 统计指数按其本来的含义,都是指动态指数。但在实际运用过程中,含义渐渐推广到了静态事物和空间对比,因而产生了静态指数。所谓静态指数是指在同一时间条件下不同单位,不同地区间同一事物数量进行对比所形成的指数;或同一单位,同一地区计划指标与实际指标进行对比所形成的指数。3.1.3 统计指数4.定基指数和环比指数 统计指数按在指数数列中所采用的基期不同,可以分为定基指数和环比指数。5.综合指数和平均指数 按研究方法不同,指数可分为综合指数和平均指数。3.1.4 抽样推断u抽样推断是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的数量性做出

15、具有一定可靠程度的估计判断。u统计分析的主要任务就是要反映现象总体的数量特征。u在很多情况下,只需抽取总体的一部分单位作为样本,通过分析样本的实际资料,来估计和推断总体的数量特征,以达到对现象总体的认识。3.1.4 抽样推断u1.抽样推断的作用(1)在无法进行全面调查或进行全面调查有困难时,可以用抽样调查来推断总体;(2)采用抽样调查可以节省费用和时间,提高调查的时效性和经济效果;(3)可用来对全面资料的检验和修正;(4)可以用于工业生产过程的质量控制;(5)可以对某种总体的假设进行检验来判断这种假设是否正确,以决定行动的取舍。3.1.4 抽样推断u2.抽样推断的基本概念(1)全及总体和样本总

16、体 全及总体是研究对象,而样本总体则是观察对象,两者是有区别而又有联系的不同范畴。(2)总体参数和样本统计量 总体参数又称为全及指标,根据总体各个单位的标志值或标志属性计算,反映总体某种属性或特征的综合指标。样本统计量又称样本指标,由样本各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标(或抽样指标)。3.1.4 抽样推断u2.抽样推断的基本概念(3)样本容量和样本个数 样本容量是指一个样本所包含的单位数。样本个数又称样本可能数目,指从一个总体中可能抽取的样本个数。(4)重复抽样和不重复抽样 重复抽样是从总体单位中抽取一个单位进行观察、纪录后,再放回总体中,然后再抽取下一个单位,这样

17、连续抽取样本的方法。不重复抽样是从总体单位中抽取一个单位进行观察、纪录后,不放回总体中,在余下的总体中抽取下一个单位,这样连续抽取样本的方法。3.1.4 抽样推断u3.抽样推断在商务数据分析中的应用实例 假设某实体店有4名销售人员,每人的日销售量分别为40、50、60、90件。先随机抽取2人,分别采用重复抽样和不重复抽样的方式,计算样本统计量。如表3.3所示,首先根据重复抽样和不重复抽样形成样本。重复抽样条件下,样本平均数960/16=60件,样本平均误差(2800/16)1/2=13.22件。不重复抽样条件下,样本平均数720/12=60件,样本平均误差(1400/12)1/2=10.80件

18、。3.2 相关分析与回归分析v3.2.1 相关分析相关分析 v3.2.2 回归分析回归分析v3.2.3 相关分析与回归分析的应用相关分析与回归分析的应用3.2.1 相关分析u1.相关关系的概念相关关系是指变量之间存在密切的联系,但又不是严格的确定的关系,即当一个变量发生变化时,另外的变量也发生变化。但其变化值是不确定的,往往会出现几个不同的数值与之对应。也就是说,因变量的值不能由一个或几个自变量的值唯一确定。例如,商品的需求量和商品的价格之间存在着非常密切的关系。对一般的商品而言,如果商品的价格提高了,那么商品的需求量就会下降;如果商品的价格下降了,那么商品的需求量就会提高;但是商品需求量的变

19、化值是不确定的。因为商品的需求量不仅受价格因素的影响,还受消费者收入、其他相关商品价格、消费者对未来的预期及其他一些不可控因素的影响。在统计学上,把这种现象之间存在的相互依存,又不是严格确定的关系称为相关关系。3.2.1 相关分析u2.相关关系的种类1)按相关的强度分类(1)完全相关。一个变量的变化趋势完全由另一个变量所确定,则称这两个变量的关系为完全相关。(2)不完全相关。两个变量之间的关系介于不相关和完全相关之间。(3)不相关。两个变量之间的变化互相独立,没有关系。2)按相关的方向分类(1)正相关。两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的

20、值由小变大时,另一个变量的值也由小变大。(2)负相关。两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。3)按相关的形态分类(1)线性相关(直线相关)。具有相关关系的两个变量,当其中一个变量变动时,另一个变量也相应地发生均等的变动。(2)非线性相关(曲线相关)。具有相关关系的两个变量,当其中一个变量变动时,另一个变量也相应地发生不均等的变动。3.2.1 相关分析4)按相关的变量数量分类(1)单相关。只反映一个自变量和一个因变量的相关关系。(2)复相关。反映两个及两个以上的自变量同一个因变量的相关关系。变量 x 和变

21、量 y 的正相关、负相关、非线性相关和不相关关系,如图所示。3.2.1 相关分析u3.相关系数相关系数(Correlation Coefficient)是描述变量 x 与 y 之间线性关系密切程度的一个数量指标,用 R 表示:(3.1)式中 ,R=1 表示完全正线性相关,R=-1 表示完全负线性相关,R=0 表示不相关。查相关系数临界值表,如果 RR(n2),则线性相关关系显著,通过检验,可以进行预测;反之,则没有通过检验。根据经验判断,0.3|R|0.5 表示低度线性相关,0.5|R|0.8 表示中度线性相关或显著相关,|R|0.8 表示高度线性相关。3.2.2 回归分析u回归分析是指通过一

22、个变量或一些变量的变化解释另一变量的变化。按照自变量的个数划分为一元回归和多元回归;按照回归曲线的形态划分,有线性(直线)回归和非线性(曲线)回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选取回归分析的方法。u回归分析的主要内容和步骤如下:首先,依据经济学理论并且通过对问题的分析判断,将变量分为自变量和因变量。一般情况下,自变量表示原因,因变量表示结果;其次,设法找出合适的数学方程式(回归模型)描述变量间的关系;再次,估计模型的参数,得出样本回归方程。由于涉及的变量具有不确定性,接着还要对回归模型进行统计检验,计量经济学检验、预测检验;最后,当所有检验都通过后即可应用回归模型。3.

23、2.2 回归分析u1.一元回归分析u一元线性回归分析是处理两个变量x(自变量)和y(因变量)之间关系的最简单模型,研究是这两个变量之间的线性相关关系。(3.2)式(3.2)称为一元线性回归模型(One Variable Linear Regression Model),其中:u是一个随机变量称为随机项;可通过最小二乘法求得a,b两个常数,称为回归系数(参数);i表示变量的第i个观察值,共有n组样本观察值。3.2.2 回归分析u2.多元回归分析u对多元线性回归模型(Multivariate Linear Regression Model)的基本假设是在对一元线性回归模型的基本假设基础之上,还要求

24、所有自变量彼此线性无关,这样随机抽取n组样本观察值就可以进行参数估计。(3.3)3.2.2 回归分析u3.非线性回归分析在许多实际问题中,不少经济变量之间的关系为非线性的,可以通过变量代换把本来应该用非线性回归处理的问题近似转化为线性回归问题,再进行分析预测,如表3.4所示。3.2.3 相关分析与回归分析的应用 1.案例数据案例数据 某实体店通过线上线下多种渠道进行推广。该店店长认为:店铺的推广费用与实际到店量、利润是正相关的。同时,推广费用、实际到店量与店铺利润的变化均存在一定关系。利用Excel对表3.5所示的数据进行相关分析与回归分析。3.2.3 相关分析与回归分析的应用2.相关与回归分

25、析的操作Step 1:在Excel的“数据数据分析”模块中找到相关系数,点击确定,如图3.3所示。如果未发现数据分析选项,则应通过点击“开发工具Excel加载项分析工具库”,再单击“确定”按钮,加载“数据分析”模块。图3.3 选择“相关系数”功能3.2.3 相关分析与回归分析的应用Step 2:在打开的“相关系数”对话框中,单击“输入区域”的右侧折叠按钮,在工作表中选择数据区域“$B$1:$C$13”,设置分组方式“逐列”,单击输出区域“$B$14”,勾选“标志位于第一行”选项,最后单击“确定”按钮。上述操作过程,如图3.4所示。图3.4 设置“相关系数”的相关参数3.2.3 相关分析与回归分

26、析的应用Step 3:单击“确定”按钮后,可在本表格的$B$14区域得到如下结果,如图3.5所示。表明推广费用和店铺利润之间存在正相关,相关系数为0.975,属于高度相关关系。Step 4:在确定两个变量具有显著的相关关系之后,进行回归分析的操作。选中B1:C13区域,单击“插入”图表选项中的“XY散点图”,选择散点图中“带平滑线的散点图”选项,如图3.6所示。3.2.3 相关分析与回归分析的应用Step 5:双击图表,单击横坐标轴,对图3.6中所示的散点图进行优化处理,将横轴最小值设置为“3500”,则呈现如图3.7所示的散点图。Step 6:单击图表右上角的加号,勾选“趋势线(默认为线性)

27、”,单击更多选项,勾选“显示公式”和“显示R平方值”选项,具体操作如图3.8与3.9所示。3.2.3 相关分析与回归分析的应用Step 7:点击选择后,则出现如图3.10所示的线性趋势线结果,一元线性回归公式为:y=0.0661x+377.99,R2=0.9508。Step 8:对于一元线性回归,还可以应用数据分析的“回归”功能。点击“数据分析”的“回归”,单击“确定”按钮,如图3.11所示。3.2.3 相关分析与回归分析的应用Step 9:利润为Y值,因此Y值输入区域“$C$2:$C$13”;推广费用为X值,X值输入区域为“$B$2:$B$13”,置度设置为95%,计算结果的输出区域从“$B

28、$14”开始。单击“确定”。以上操作如图3.12所示。Step 10:单击确定后,则出现如图3.13所示的回归分析结果,包括各参数值以及模型检验的结果。图3.13中的阴影数据与趋势线结果相同。3.2.3 相关分析与回归分析的应用Step 11:若要继续分析推广费用、实际到店量与利润之间的二元回归分析,操作过程与上述步骤基本相同,仅需要在X值输入区域为“$B$2:$C$13”,Y值输入区域为“$D$2:$D$13”,如图3.14所示。3.2.3 相关分析与回归分析的应用Step 12:单击“确定”后,则会得到如图3.15所示的结果,二元回归模型的公式为:y=0.009x1+0.052x2+305

29、.16,R2=0.981,F检验值为232.14。其中,推广费用为x1,实际到店量为x2,利润为y。3.3 时间序列分析v3.3.1 移动平均方法移动平均方法 v3.3.2 指数平滑方法指数平滑方法v3.3.3 时间序列分析的应用时间序列分析的应用3.3.1 移动平均方法u1.一次移动平均法一次移动平均法是在算术平均法的基础上加以改进,其基本思想是每次取一定数量周期的数据进行平均,再按时间顺序逐次推进。每推进一个周期,舍去前一个周期的数据,增加一个新周期的数据,再进行平均。一次移动平均法一般只应用于一个时期后的预测(预测第t+1期)。一般情况下,N越大,修匀的程度越强,波动也越小;N越小,对变

30、化趋势反应越灵敏,但修匀的程度越差。在实际预测中,可以利用试算法,即选择几个N值进行计算,比较它们的预测误差,从中选择预测误差较小的N值。3.3.1 移动平均方法u2.二次移动平均法当时间序列具有线性增长的发展趋势时,用一次移动平均法预测会出现滞后偏差,表现为对线性增长的时间序列的预测值偏低。这时,可通过二次移动平均法来计算。二次移动平均法是将一次移动平均再进行一次移动平均,然后建立线性趋势模型。二次移动平均法的线性趋势预测模型:3.3.2 指数平滑方法u指数平滑方法是用过去时间数列值的加权平均数作为预测值,它是加权移动平均法的一种特殊情形。根据平滑次数不同,指数平滑法分为:一次指数平滑法、二

31、次指数平滑法和高次指数平滑法。它们的基本思想都是:预测值是以前观测值的加权和,对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。3.3.2 指数平滑方法u1.一次指数平滑法 3.3.2 指数平滑方法u2.二次指数平滑法 当时间序列没有明显的变动趋势时,使用第t期一次指数平滑法就能直接预测第t+1期的值。但当时间序列的变动呈现直线趋势时,用一次指数平滑法来预测存在着明显的滞后偏差。修正的方法是在一次指数平滑的基础上再进行一次指数平滑,利用滞后偏差的规律找出曲线的发展方向和发展趋势,然后建立直线趋势预测模型,即二次指数平滑法。3.3.3 时间序列分析的应用u已知某实体店铺2017202

32、0年季度零售额数据,请对如表3.6所示的时间序列数据进行分析。3.3.3 时间序列分析的应用Step 1:选中“B1:C17”区域,单击“插入”图表选项中的“折线图”选项,如图3.16所示。可得到如图3.17所示的时间序列数据的折线图。Step 2:对销售额时间序列数据进行一次移动平均操作。点击“数据分析”的“移动平均”,单击“确定”按钮,如图3.18所示。3.3.3 时间序列分析的应用Step 3:输入区域为“$C$1:$C$17”;间隔N=3,输出区域设置为“$D$2”,勾选“图表输出”,单击“确定”。以上操作参见过程如图3.19所示。Step 4:单击如图3.19所示的“确定”按钮后,则

33、出现如图3.20所示的一次移动平均结果,以及原值与移动平均值的对比图。3.4 商务数据分析的其他方法v3.4.1 聚类分析法聚类分析法v3.4.2 关联规则关联规则分析分析法法3.4.1 聚类分析法u1.聚类分析法基础知识聚类分析是将数据分组为由类似的对象组成的多个类的分析方法。聚类分析包括以下五种方法:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。常用的是 k-means 算法,它是一种基于划分的聚类方法。k-means 算法接受输入量 k,然后将 n 个数据对象划分为 k 个聚类,以便使获得的聚类满足同一聚类中数据对象的相似度较高,而不同聚类中数据对象的相

34、似度较低。聚类相似度是利用各聚类中数据对象的均值获得一个“中心对象”(引力中心)来进行计算的。k-means 算法的工作过程如下:从 n 个数据对象中任意选择 k 个数据对象作为初始聚类中心;根据其他数据对象与聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心代表的聚类;计算每个新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。3.4.1 聚类分析法u2聚类分析法在商务数据分析中的应用聚类分析法针对目标群体进行多指标的群体划分,在商务数据分析中应用十分广泛。例如,消费人群的时空分布特征划分、关键意见领袖识别等。类似这种目标群体的分类是精细化经

35、营、个性化运营的基础和核心。常见的商业应用场景如下。(1)目标用户的群体分类。通过对特定运营目的和商业目的所挑选出的指标变量进行聚类分析,把目标群体划分成几个具有明显特征区别的细分群体,从而在运营活动中为这些细分群体采取精细化、个性化的运营和服务,最终提升运营效率和商业效果。(2)不同产品的价值组合。企业可以按照不同的商业目的,使用特定的指标对众多的产品种类进行聚类分析,将企业的产品体系进一步细分成具有不同目的、不同价值的多维度的产品组合,并在此基础上分别制订相应的开发计划、运营计划和服务规划。(3)探测发现离群点或异常值。离群点指相对于整体数据对象而言的少数数据对象,这些对象的行为特征与整体

36、的数据行为特征不一致,发现这些特殊的异常情况,对商业价值分析具有重要的创新意义。3.4.2 关联规则分析法u1关联规则分析法基础知识关联规则分析指在大量数据中,迅速找出各事物之间潜在的、有价值的关联,经过推理得出关键的结论,从而为商业数据分析提供依据。为了分析关联规则,需要掌握项集、候选项集、支持度、可信度、强项集、非频繁项集和关联规则等概念和计算方法。3.4.2 关联规则分析法u1关联规则算法的相关概念(1)项集和候选项集。项集 ;TR是事物的集合,并且TR是一个0,1属性的集合。集合称为k项集。假设DB包含m个属性(A,B,M);1项集1_Item=A,B,M,共有m个候选项集;2项集2_

37、Item=A,B,A,C,A,M,B,C,B,M,C,D,L,M,共有 个项集;依次类推,m项集m_Item=A,B,C,M,有1个候选项集。(2)支持度。支持度support可简写为sup,其指某条规则的前件或后件对应的支持数与记录总数的百分比。假设A的支持度是sup(A),;A B的支持度 ,其中,表示A和B同时出现在一条记录中,n是DB中的总记录数。(3)可信度。可信度confidence可简写为conf,规则A B具有可信度conf(A B)表示DB中包含A的事物同时包含B的百分比。可信度是 的支持度sup()与前件A的支持度sup(A)的比值:conf(A B)=sup()/sup(

38、A)。3.4.2 关联规则分析法u1关联规则算法的相关概念(4)强项集和非频繁项集。如果某k项候选项集的支持度大于或等于设定的最小支持度阈值,则称该k项候选项集为k项强项集(Large k-itemset)或k项频繁项集(Frequent k-itemset)。(5)关联规则。在最小可信度的条件下,若强项集的可信度满足最小可信度,称此k项强项集为关联规则。例如,若A,B为2项强项集,同时conf(AB)大于或等于最小可信度,即sup()min_sup且conf(A B)min_conf,则称A B为关联规则。3.4.2 关联规则分析法u2关联规则算法的步骤R.Agrawal等人在1993年设计

39、了一个Apriori算法,这是一种最有影响力的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段的频繁项集思想的递推算法。该关联规则属于五种分析方法中的单维、单层、布尔关联规则。该算法将关联规则挖掘分解为以下两个子问题。(1)找出存在于事务数据库中的所有频繁项集,即那些支持度大于用户给定支持度阈值的项集。(2)在找出的频繁项集的基础上产生强关联规则,即产生那些支持度和可信度分别大于或等于用户给定的支持度和可信度阈值的关联规则。在上述两个步骤中,第二步相对容易些,它只需要在已经找出的频繁项集的基础上列出所有可能的关联规则即可。因此,第一步是挖掘关联规则的关键步骤,挖掘关联规则的总体性能由第一步决

40、定。3.4.2 关联规则分析法u3.关联规则分析法在商务数据分析中的应用从大量的数据中挖掘关联规则,在市场定位、决策分析和商业管理等领域具有重要作用。例如,超市利用前端收款机收集并存储了大量的销售数据,这些数据构成一条条购买事务记录,每条记录存储了事务处理时间、顾客购买的物品、物品的数量及交易金额等。根据这些数据分析哪些商品能被顾客同时购买,哪些顾客购买行为相近,从而制定出针对商品和顾客管理的一系列营销策略。关联规则分析在商业数据分析中的主要应用包括以下几个方面。(1)交叉营销。寻找产品销售之间的相关性,基于这些关联的产品推算交叉销售的可能性。(2)目标市场。研究具有共同特征的细分客户,他们可

41、能是特定产品或服务的潜在群体。(3)客户定位和需求分析。针对不同的客户群体制定最优产品搭配销售方案,并分析预测哪些因素能够吸引新的客户。(4)客户流失与预警分析。基于关联规则建立描述性或预测性模型,分析导致客户流失的关联原因,提出规避办法。本章知识小结u 本章学习与商务数据分析相关的模型方法,包括:静态分析指标、动态分析方法、统计指数、抽样推断、相关与回归分析、时间序列分析等内容。这些统计指标、相关分析与时间序列分析方法对于进行商务数据分析都非常重要,应掌握利用Excel工具进行熟练操作。另外,聚类分析、关联规则模型、分类分析等多种数据挖掘方法对发现商务数据中的潜在规则和有价值的模式均有重要的应用价值。本章内容结束!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com