计量经济学大作业(共15页).docx-得力文库

资源描述

《计量经济学大作业(共15页).docx》由会员分享，可在线阅读，更多相关《计量经济学大作业(共15页).docx（15页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上基于线性回归的保险公司员工选拔模型一、研究背景随着中国改革开放的推进，保险行业也迎来了一个新的春天。尤其是加入WTO后以来，中国保险行业市场越来越完善，发展也越来越迅猛。但整体来看，中国保险业由于起步较晚，规模较小1，目前仍处于发展与挑战并存的机遇期。作为行业发展的一个必备力量，人才的选拔和任用将会直接决定一个企业的长远发展。想要使企业在激烈的市场竞争中获得一席之地，就必须把人力资源的管理放在首位，拥有和储备一大批在知识和技能上胜任保险工作需要的员工2（本文主要以保险代理人为研究对象）。因此如何选拔出保险行业最需要的员工成为摆在保险公司人力资源者面前的最主要问题。之前

2、对于人才招聘的研究大多是从人力资源的角度出发，比如最常见的员工胜任力模型、评价中心技术等等。这些研究大多是从传统的人才评价理论出发进行定性研究、问卷统计研究。而另一方面，在招聘的现实情况中，又存在其他一些“潜在招聘规则”。比如某些企业的招聘人员会下意识进行性别选择、户口选择（农业或非农业）、婚育情况选择、学历选择、工作经历要求等等，这些或软性、或硬性的选人指标，被很多人HR认为是最实用、最实际的招聘方法。普遍意义上来说，这些指标是可以提高公司员工的质量，但从另一个角度来考虑，它们也限制了人才的选拔，使得很多简历“不好看”，但是有实际能力的人才被埋没。造成这一现象的最主要原因就是，这些指标都是来

3、源于经验或者主观臆断，没有比较科学、数理的方法来验证。本文将尝试从新的研究角度出发，根据某一保险公司的真实数据，以计量经济学中线性回归模型为研究方法，探究保险公司员工（保险代理人）的保险业绩与哪些因素有关。以此来对保险公司更好地选拔员工和保险代理人提供建议。二、数据说明与文章框架本文中主要选取了泰康公司2014年保险代理人的实际工作业绩为数据。主要使用的数据是“代理人业务数据”和“TSR员工人员信息”表，数据真实可信。本文包括七个部分，除背景介绍外，首先会对数据进行初步处理和描述性统计。之后的模型介绍一节包括了对理论模型和计量经济学模型的原理介绍。随后进行模型结果的分析，包括参数估计、假设检验

4、、马尔科夫假设的验证等。文章还包括对模型反思与修正，以得到更好的模型形式。后一部分进行了以方差分析为主的拓展研究以验证回归分析的结果。最后根据以上的建模过程与结果进行政策建议。三、数据处理（一）数据处理1数据筛选首先将“TSR员工人员信息”中员工“姓名”与“美日泰康9-11月代理人业务数据”中“代理人”姓名一致的记录筛选出来。将“TSR员工人员信息”中的“姓名”、“出生日期”、“性别”、“户口性质”、“最高学历”、“婚姻状况”、“是否复职”、“生育”、“第一次参与工作时间”、“住房情况”属性保留，将“美日泰康9-11月代理人业务数据”中“代理人”、“年化标保”属性保留，将其按照“姓名”及“代理

5、人”的一致关系整理成一张新的表格。2记录剔除新生成表格中存在大量含有空数据的记录，为尽量多地保留各属性中包含的信息，现将含空数据的记录剔除，而不是将含空数据的属性剔除。剔除操作完成后，剩余46条员工信息记录。3变量转换对剔除后的数据按照“姓名”进行排序，然后将每个代理人的“年化标保”求和，生成新的属性“总业绩”。接着，利用“出生日期”数据计算出代理人在2015年的“年龄”，并生成新属性；利用“第一次参与工作时间”数据计算出截至2015年各代理人的“工作时间”，并生成新属性。最后，将“性别”、“户口性质”、“最高学历”、“婚姻状况”、“是否复职”、“生育”、“住房情况”这几个分类变量转化成虚拟变

6、量：“性别”属性转化为变量“是否为男性”；“户口性质”属性转化为变量“是否为非农业户口”；“最高学历”属性转化为变量“最高学历是否为初中”、“最高学历是否为高中”、“最高学历是否为中专”、“最高学历是否为大专”；“婚姻状况”属性转化为变量“是否已婚”；“生育”属性转化为变量“是否未育”；“住房情况”属性转化为变量“是否自有住房”、“是否租赁住房”。上述变量中，“1”代表“是”，“0”代表“否”。（二）数据的预研究首先对数据进行描述性统计针对数值型变量，描绘其直方图观察其大致分布；针对分类变量，绘制饼图观察各类别所占比例。1.直方图总业绩：年龄：工作时间：其中总业绩分布接近于幂律分布，原理应类似

7、于财富分布的“二八法则”；年龄分布接近于正态分布，主要集中在30岁左右；而工作时间并未有突出的分布形态规律。2.饼图（左侧饼图依据不同类别员工数量汇总绘制，右侧饼图依据不同类别员工业绩汇总绘制）：性别：户口：婚姻状况：生育状况：最高学历：住房情况：观察以上各组中的左图，从直观上可得出以下结论：在保险业中，女性员工多于男性员工；农业户口员工所占比例较大；未婚员工多于已婚员工（这从一定程度上与“员工年龄集中在30岁左右”相呼应）；拥有大专以上学历的员工少之又少，大专学历的员工为代理人主要组成部分3。对比上述各组中的左右两图可推知：男性员工业绩优于女性员工业绩；农业户口员工业绩优于非农业户口员工业绩

8、；未婚员工业绩优于已婚员工业绩；已育一子女员工的业绩优于已育两子女员工的业绩优于未育子女员工的业绩；大专学历员工业绩优于其他学历员工业绩；自有住房员工的业绩优于租赁租房员工的业绩。接下来，从跟深层次的角度挖掘各个解释变量与被解释变量之间的联系。四、模型介绍回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究其中一类特殊的关系，即可以用直线或多维直线描述的关系。在本文中，我们建立多元回归模型如下：（一）理论模型经过上一节中对数据的预处理，同时考虑企业招聘中的现实情况，我们将初步建立一个多元回归模型。其中因变量为保险公司代理人的工作业绩，自变量包括性别、户口类型、最高学历、婚姻状况、生育状

9、况、住房情况这些虚拟变量和年龄、工作时间这两个数值型变量。初步设定回归模型都是线性关系。（二）计量经济学模型总结上述研究，建立计量经济学模型如下：y=0+1mid+2seni+3tec+4juni+5marry+6nonbab+7male+8nonagri+9ownh+10renth+11age+12wtime+总计有12个回归变量。其中mid、seni、tec、juni分别表示最高学历是否为初中、高中、中专、大专，marry表示是否已婚，nonbab表示是否未育，male表示是否为男性，nonagri表示是否为非农业户口，ownh表示是否自由住房，trenth表示是否租赁住房，age表示年龄

10、，wtime表示工作时间。1、2 是偏回归系数。举例来说，1表示其他变量保持不变的情况，学历是否为初中对于因变量工作业绩的影响。（三）线性回归方程y=0+1mid+2seni+3tec+4juni+5marry+6nonbab+7male+8nonagri+9age+10wtime+11ownh+12renth由于总体回归参数1、2 未知，所以就必须用样本数据去估计。在这里采用的是最小二乘法估计参数。最小二乘法的简单表述为：找出让残差平方和最小的参数。即：本文主要运用SPSS来进行研究，具体结果与参数检验、显著性检验及模型进一步修正见下一部分。五、回归分析及前提检验（一）计算结果分析根据上述

11、方法，得到回归结果如下：其中参数估计结果为：1=0.081，2=0.12，3=0.351，4=0.5535=0.376，6=0.228，7=0.207，8=0.3419=0.187，10=0.36，11=0.598，12=-0.287但从参数检验（t检验）结果来看，一些自变量对因变量的解释效果并不显著，如：性别（p值为0.317）、最高学历（mid对应p值为0.613，seni对应p值为0.467，tec对应p值为0.169）、生育状况（p值为0.307）、工作时间（p值为0.2）、住房情况（ownh对应p值为0.431，renth对应p值为0.181）。且从整体线性检验（F检验）结果来看，该

12、模型并未通过检验（p值为0.134）。从共线性诊断的检验结果来看，各解释变量的VIF值虽然并不是特别大，均与1有相应偏离，这可能是模型解释能力差的原因。接下来用逐步回归来对模型改进，希图得到解释能力好且不冗杂的回归模型。逐步回归就是依据一定准则，把没有显著影响的变量去掉的方法。具体做法是，让变量经过检验，逐个的进入（标准是使决定系数增加的最大）。变量的增减会使自变量对回归方程的贡献发生变化，所以选最大的决定系数对应的变量个数进入模型。逐步回归结果如下：逐步回归的最终结果是只剩下“年龄”对“总业绩”进行解释。原始的多元线性回归模型变为单元线性回归模型，用公式表达即：y=0+1age+而单元回归中

13、整体线性检验与参数检验效果相同，检验的均是唯一的自变量对被因变量的解释效果。由以上图表可知，模型通过了整体线性检验（p值为0.032），这说明：“年龄”对“总业绩”作用能力显著。而模型的参数估计结果为：1=0.317，这表明：年龄越大的员工，其绩效越高。（二）前提条件检验在此，利用计算结果对回归的前提假设做出检验。1误差项的期望值是0，且方差2相同（方差齐性）；在这里，我们做了标准化预测值和标准化残差的散点图（横轴为标准化预测值，纵轴是标准化残差）如下：可以看出，大部分散点都位于（-3,3）之间，根据文献4，我们可以说基本满足此假设。即随机误差的方差不随解释变量的变化而变化，其方差是相同的。

14、2随机误差项是服从正态分布的随机变量：为验证假设，本文中做了残差的直方图和P-P图如下：可以看出，P-P图中的样本点基本都处在直线的两侧，可以说随机误差符合正态分布。3多重共线性检验由于逐步回归后得到的模型为单元回归模型，满足无完全的多重共线性即解释变量的取值不一样。回归所用数据显然满足这一点（共线性诊断结果VIF=1亦能说明这一点）。综上所述，本研究中的数据基本符合多元回归中的前提假设。六、模型反思与修正（一）对数形式在前述模型中，因变量“总业绩”取值恒正，且数值较大。恒正的因变量往往意味着条件分布是异方差的或者是倾斜的，这与高斯马尔科夫假定不相符合。而取对数可以缩小取值范围，减少异常观测

15、的负面影响。引起，对“总业绩”取对数并将其作为新的因变量可能更加合适。对其进行逐步回归，得到结果如下：最终结果仍为只剩下“年龄”对因变量进行解释。用公式表达即为：logy=0+1age+而参数检验及整体线性检验结果均说明“年龄”对因变量的解释能力仍旧很显著，由此所得结论与此前也无显著差异。（二）二次式形式按照常理来讲，员工开始工作的时间越早，其积累的工作经验越丰富，则绩效也可能相对较高，“工作时间”与“总业绩”在理论上应存在较强关联。而在此前两次逐步回归中，“工作年龄”都未被保留在最终模型当中，这表明“工作时间”对“总业绩”的解释能力并不显著。那么，加入“工作时间”平方项后的模型呢？含“工作时

16、间”的项依然没有进入回归模型，这说明其对“总业绩”的解释效果的确并不明显。七、拓展研究通过上两节中回归模型的模拟，发现很多在现实中常见的选拔指标比如户口类型、性别、学历高低等，对于因变量的影响并不大，并没有通过显著性检验。但是考虑到，这些指标在各大公司中的普遍运用，因此本文将采用其他方法来进行拓展研究。这里主要运用的是方法分析法，单独对某些因素进行研究。方差分析，简单来说就是通过分析研究中不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。这里采用这个方差分析的方法，不仅能够更有针对性地去单独探究某些变量的影响，同时因为不需要数据属性全部齐全，因此可以减少数据筛选，最大程

17、度的利用样本数据。在本问题中，性别、户口性质、最高学历、婚姻状况、生育状况、住房状况属于分类数据，分别对其进行方差分析。结果如下：性别（男、女）：户口性质（非农业户口、农业户口、不详）：最高学历（初中、高中、中专、大专、本科）：婚姻状况（未婚、已婚）：生育状况：（未育、一胎、二胎）住房状况（自由、租赁、其他）：检验结果表明，所有变量对代理人总业绩的影响都不显著（p值大于0.05）。其中F值比较大的就是婚姻状况，即结婚之后的业绩会比较好一些。因此，通过方差分析的方法，也验证了之前线性回归的结论，很多“想当然”的指标也许并不适用于保险行业代理人岗位的人才选拔。八、政策建议保险公司作为现代金融企业三

18、大支柱之一，其对于整个国家的经济发展和社会稳定都具有至关重要的作用。而作为保险公司的前哨，保险代理人员发挥着至关重要的作用。理论上来讲，代理人员需要具有风险识别、财务精算、口才礼仪等基础和基本的要求。但是基于我国“人情社会”的现状，很多都需要从实情出发，因此本文进行了以业绩数据为导向的定量化研究。虽然在很多公司招聘员工时会考虑像学历、性别、工作经历等硬指标，但是当我们聚焦到保险行业，局限在保险代理人员身上时，这些招聘“潜规则”貌似就不那么适用了。从本文的研究结果可以看出，对于代理人员的业绩影响最大的因素是年龄。当我们从身边的实际情况出发就会发现：很多保险业务（除去某些集体性投保）的选择，都是经

19、由熟人或者亲友的推荐。这是普遍存在于中国社会的一个现实： “认人”，而保险这种紧靠社会关系“吃饭”的行业表现的更为突出。保险代理人的年龄分布在25到45之间，而且比较成功的年龄在30到35岁之间。保险销售需要长期的客户积累，并且需要逐渐建立起良好的口碑，所以出现这种工作业绩受年龄显著影响的情况并不难理解。同时我们也看到，农业户口与非农业户口、学历、性别、婚育情况、住房情况等因素，对于代理人的业绩影响都不大。也就是说，中国当前的保险销售事实上对于专业理论知识的要求并不高，也并不存在着某些行业中的“性别玻璃天花板”问题，是否结婚生子对于销售人员的影响也并不大。因此，在选拔一个保险公司的代理人时，没

20、有太大的必要因为一些硬性指标（比如学历、性别）而去筛选掉很多应聘者。代理人行业更看重的是实际能力。同时，保险行业应该尽量留住销售人员，因为销售人员的保险销售能力是与其年龄成正比的。很有可能跳槽或者被辞退的那位“老”代理人，就是有着很多客户资源和社会关系的潜在金牌代理人，而重新培养这样一个员工，需要大量的成本。【参考文献】1. 温波. 中国保险业务创新问题研究天津财经大学 2. 朱琳. 胜任力模型视角下的保险公司员工培训管理研究华中师范大学 2010.113. 李洋. 科学发展观视角下中国保险业发展问题研究 2014.44. 喻开志. 利用SPSS进行线性回归分析的一个实例 2002年4月专心-专注-专业

展开阅读全文