SPSS实验8-二项Logistic回归分析(共23页).doc-得力文库

资源描述

《SPSS实验8-二项Logistic回归分析(共23页).doc》由会员分享，可在线阅读，更多相关《SPSS实验8-二项Logistic回归分析(共23页).doc（23页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。数据项包括是否购买，性别，年龄和收入水平。这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。（一）基本操作：（1）选择菜单AnalyzeRegressionBinary Logistic;（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Ente

2、r方法，结果如下：消费的二项Logistic分析结果（一）（强制进入策略）Categorical Variables CodingsFrequencyParameter coding(1)(2)收入低收入132.000.000中收入1441.000.000高收入155.0001.000性别男191.000女2401.000分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder（1），表示是否

3、女，取值为0时表示为男。消费的二项Logistic分析结果（二）（强制进入策略）Block 0: Beginning BlockClassification Tablea,bObservedPredicted是否购买Percentage Correct不购买购买Step 0是否购买不购买2690100.0购买1620.0Overall Percentage62.4a. Constant is included in the model.b. The cut value is .500分析：上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。可以看到：269人中实际没购

4、买且模型预测正确，正确率为100；162人中实际购买了但模型均预测错误，正确率为0%。模型总的预测正确率为62.4。消费的二项Logistic分析结果（三）（强制进入策略）Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0Constant-.507.09926.0021.000.602分析：上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。由于此时模型中未包含任何解释变量，因此该表没有实际意义。消费的二项Logistic

5、分析结果（四）（强制进入策略）Variables not in the EquationScoredfSig.Step 0Variablesage1.2681.260gender(1)4.6671.031income10.6402.005income(1)2.9351.087income(2)10.6401.001Overall Statistics18.2734.001分析：上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。可以看到，如果下一步Age进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。如果显著性水平

6、a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。消费的二项Logistic分析结果（五）（强制进入策略）Block 1: Method = EnterOmnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step18.4414.001Block18.4414.001Model18.4414.001分析：上表显示了Logistic分析第一步时回归方程显著性检验的总体情况，各数据项的含义依次为似然比卡方的观测值，自由度和概率p值。可以看到

7、，在本步所选变量均进入方程（Method=Enter）。与前一步相比，似然比卡方检验的观测值18.441，概率p值为0.001。如果显著性水平a为0.05，由于概率p值小于显著性水平a，应拒绝零假设，认为所有回归系数不同时为0，解释变量的全体与Logit P之间的线性关系显著，采用该模型是合理的。在这里分别输出了三行似然比卡方值。其中，Step行是本步与前一步相比的似然卡方比；Block行是本块（Block）与前一块相比的似然卡方比；Model行是本模型与前一模型相比的似然卡方比。在本例中，由于没有设置解释变量块，且解释变量是一次性强制进入模型，所以三行结果都相同。消费的二项Logistic分

8、析结果（六）（强制进入策略）Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square1552.208a.042.057a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.分析：上表显示了当前模型拟合优度方面的指标，各数据项的含义依次为-2倍的对数似然函数值，Cox&SnellR2。-2倍的对数似然函数值越小则模型的拟合优度越高。这里该值较大，所以模型的拟合优

9、度并不理想。从NagelkerkeR2也可以看到其值接近零，因此拟合优度比较低。消费的二项Logistic分析结果（七）（强制进入策略）Classification TableaObservedPredicted是否购买Percentage Correct不购买购买Step 1是否购买不购买2363387.7购买1313119.1Overall Percentage61.9a. The cut value is .500分析：上表显示了当前所得模型的错判矩阵。可以看到，脚注中的The Cut value is .500意味着：如果预测概率值大于0.5，则认为被解释变量的分类预测值为1，如果小于

10、0.5，则认为被解释变量的分类预测值为0.；在实际没购买的269人中，模型正确识别了236人，识别错误了131人，正确率为19.1%。模型总的预测正确率为61.9%。与前一步相比，对未购买的预测准确度下降了，对购买的预测准确度上升了，但总体预测精度仍下降了。因此模型预测效果并不十分理想。消费的二项Logistic分析结果（八）（强制进入策略）Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1aage.025.0181.9741.1601.026gender(1).511.2095.9541.0151.667income12.3052.002

11、income(1).101.263.1461.7031.106income(2).787.2539.6761.0022.196Constant-2.112.7547.8431.005.121a. Variable(s) entered on step 1: age, gender, income.分析：上表显示了当前所得模型中各个回归系数方面的指标。可以看出，如果显著性水平a为0.05，由于Age的Wald检验概率p值大于显著性水平a，不应拒绝零假设，认为该回归系数与0无显著差异，它与Logit P的线性关系是不显著的，不应保留在方程中。由于方程中包含了不显著的解释变量，因此该模型是不可用的，

12、应重新建模。下面是对模型做进一步分析，解释变量的筛选采用基于极大似然估计的逐步筛选策略（Forward：LR），分析的具体操作以及结果如下：（二）基本操作：（1）选择菜单AnalyzeRegressionBinary Logistic;（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Forward:LR方法，在Option框中对模型做近一步分析，结果如下：消费的二项Logistic分析结果（一）（逐步筛选策略）Block 1: Method = Forward Stepwise (Likelihood Ratio)Omnibus

13、Tests of Model CoefficientsChi-squaredfSig.Step 1Step10.5432.005Block10.5432.005Model10.5432.005Step 2Step5.9171.015Block16.4593.001Model16.4593.001消费的二项Logistic分析结果（二）（逐步筛选策略）Model if Term RemovedVariableModel Log LikelihoodChange in -2 Log LikelihooddfSig. of the ChangeStep 1income-285.32510.5432.

14、005Step 2gender-280.0535.9171.015income-282.97611.7612.003分析：上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果，用于回归方程的显著性检验。这里略去了第零步分析的结果。结果上面的两个表共同分析。在Step1中，模型中包含常数项和INCOME。如果此时剔除INCOME将使-2LL减少10.543，即10.543是INCOME进入模型引起的，-285.325即为零模型的对数似然比；在Step2中，模型中包含常数项，INCOME，GENDER。此时剔除GENDER，即-2LL将减少5.917，即5.917是在Step1基础上GEN

15、DER所引起的，-280.053即为Step1模型的对数似然比，此时-2*285.325+2*280.053=10.543，即INCOME引起的。其他同理。可以看到，如果显著性水平a为0.05，由于各步的概率p值均小于显著性水平a，因此此时模型中的解释变量全体与Logit P的线性关系是显著，模型合理。消费的二项Logistic分析结果（三）（逐步筛选策略）Variables in the EquationBS.E.WalddfSig.Exp(B)95.0% C.I.for EXP(B)LowerUpperStep 1aincome10.5122.005income(1).006.259.00

16、11.9821.006.6061.670income(2).672.2477.4241.0061.9581.2083.174Constant-.762.18716.6341.000.467Step 2bgender(1).504.2095.8241.0161.6561.0992.493income11.6692.003income(1).096.263.1341.7141.101.6581.843income(2).761.2519.1471.0022.1391.3073.502Constant-1.113.24021.4321.000.329a. Variable(s) entered on

17、 step 1: income.b. Variable(s) entered on step 2: gender.分析：上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到，最终的模型（第二步）中包含了性别和收入变量，各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a，因此均拒绝零假设，意味它们与Logit P的线性关系是显著，应保留在方程中。表中的第七，第八列分别是发生比的95%的置信区间。最终年龄变量没有引入方程，因为如果引入则相应的Score检验的概率p值大于显著性水平a，不应拒绝零假设，它与Logit P的线性关系不显著，不应进入方程。具体结果如下：

18、消费的二项Logistic分析结果（四）（逐步筛选策略）Variables not in the EquationScoredfSig.Step 1Variablesage1.8481.174gender(1)5.8651.015Overall Statistics7.8242.020Step 2Variablesage1.9841.159Overall Statistics1.9841.159消费的二项Logistic分析结果（五）（逐步筛选策略）Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square

19、1560.107a.024.0332554.190b.037.051a. Estimation terminated at iteration number 3 because parameter estimates changed by less than .001.b. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.分析：上表显示了模型拟合优度方面的测度指标。最终模型的-2倍的对数似然函数值为554.190，仍然较高，说明模型的拟合优度不甚理

20、想。同时，NagelkerkeR2距1较远，也说明了模型的拟合优度不高。消费的二项Logistic分析结果（六）（逐步筛选策略）Hosmer and Lemeshow TestStepChi-squaredfSig.1.00011.00028.9434.063消费的二项Logistic分析结果（七）（逐步筛选策略）Contingency Table for Hosmer and Lemeshow Test是否购买 = 不购买是否购买 = 购买TotalObservedExpectedObservedExpectedStep 119090.0004242.00013229898.0004646.

21、00014438181.0007474.000155Step 213532.363810.6374325853.6021519.3987335557.6373431.3638944044.3983126.6027153744.0353830.9657564436.9653643.03580分析：上面是Hosmer-Lemeshow检验的结果。最终模型中，Hosmer-Lemeshow统计量的观测值为8.943，概率p值为0.063，大于显著性水平a，因此不应拒绝零假设，认为该组的划分与被解释变量的取值不相关，说明模型的拟合优度较低。它与NagelkerkeR2分析的结果是一致的。消费的二项Lo

22、gistic分析结果（八）（逐步筛选策略）Classification TableaObservedPredicted是否购买Percentage Correct不购买购买Step 1是否购买不购买2690100.0购买1620.0Overall Percentage62.4Step 2是否购买不购买2254483.6购买1263622.2Overall Percentage60.6a. The cut value is .500Stepnumber:2ObservedGroupsandPredictedProbabilities160FR120EQU1E80111N11111C00111Y0

23、011140000000000000000000000000PredictedProb:0.1.2.3.4.5.6.7.8.91Group:1PredictedProbabilityisofMembershipfor购买TheCutValueis.50Symbols:0-不购买1-购买EachSymbolRepresents10Cases.图：消费的二项Logistic分析预测分类图分析：上表显示了各模型的错判矩阵。第一个模型的总体正确率为62.4%，对不购买人群预测的准确率极高，但对购买人群预测的准确率极低；第二个模型的总体正确率为60.6%，对不购买人群预测的准确率下降了，但对购买人群预测

24、的准确率提高了。从应用角度看第二个模型较第一个模型的应用性略强一些。在上图中，符号0表示实际未购买，1表示实际购买，一个符号代表10个样本。预测概率值大于0.5的样本属于购买类，小于0.5的属于未购买类。可以看出：在模型预测出的购买类中，仍有40个左右（4个0，精确值为44）实际未购买；同样，在模型预测出的未购买类中，仍有110个左右（11个1，精确值为126）实际购买了。模型的预测效果并不很理想。通过以上的分析知道，该模型的预测效果不很理想。也就是说，仅通过性别和收入来预测是否购买商品是不全面的，还应考虑其他因素。但是该模型仍可以用于分析是否购买和收入之间的关系。由上面的分析结果，可以写出L

25、ogistic回归方程：Logit P = 1.11 + 0.504 gender（1）Logit P = 1.11 + 0.504 gender（1）+ 0.096 income（1）Logit P = 1.11 + 0.504 gender（1）+ 0.761 income（2）上面的第一个式子反映了女性与男性在购买上的差异。女性较男性使Logit P平均增长0.504个单位。结合发生比可知，女性的购买发生比是男性的1.656倍，因此女性更倾向购买该商品。进一步分析，上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。对于女性顾客群，中等收入较低等收入使Logit P平均增

26、长0.096个单位。结合发生比可知，女性顾客群中，中等收入的购买发生比是低等收入的1.101倍（有95%的把握在0.658至1.67之间），略高一些，但差异并不十分明显。而通过上面的第三个式子可知，对于女性顾客群，高等收入较低等收入使Logit P平均增长0.761个单位。结合发生比可知，女性顾客群中，高等收入的购买发生比是低等收入的2.139倍（有95%的把握在1.099至2.493之间），显然高出较多。因此分析的结论是：年龄对是否购买该商品并无显著影响，较男性来说，女性成为现实客户的可能性大，且高收入阶层较其他收入阶层有较高的购买可能。原始数据：是否购买年龄性别收入14923041210

27、462304721041231412104023139211442303221035230322104023033210372304521132230432114523040211292303921141231462113923038210262303821030231442113823039210352302621039230452102423040210322303521046231302114023044210382314721142231352104323036210291103421058111382104011038210351104721047110412103311045210

28、401113721037111382103711129210401114021036110352103211044210371103921149111502103811141211361104121042110402104411138210381113621040111372104111039210401104121047111332113911151210381103121043110312104611035211481104621138111392103511047210381104021037111562103211036210291103721141110362113911044210

29、401113621148110402103711138210401103521042111352104211045210381104121046120422104512137210331205521034121412113312133210421213621147120332104312038210351203821043120552113312050210261213121034121372104312137210411203821038120412102512042211451213421037121312103412028210391213521032121392204412039220

30、3912134220301214522036120412204512042220391204622044120422204712033220461214722134121392213812041220311203322034120432213312131220381214322143120452204312148221471204022041121352213712033221381213422038121432213512035220341213122033120482204012136220391203922041120372214412040220371203922041121442204512035220291203322040121342204012050220351214422049120402204012036220381214122041121372203512138220331203822047121412203612036220371204222040121432214412043220481205022143120422204112042220301203822042130332203313039221411314122033131442203713042221421

展开阅读全文