商业银行客户身份的识别.docx-得力文库

资源描述

《商业银行客户身份的识别.docx》由会员分享，可在线阅读，更多相关《商业银行客户身份的识别.docx（8页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、商业银行客户身份的识别（金融论坛杂志）2014年第八期一、定义样本群与自变量选择基于商业银行业务实践，考虑到经济中的R类个人客户群往往具有几种混合的特定常态化金融需求，所以我们将能够通过数据仓库直接查询获得的几种金融需求共同组合作为样本群Y=1的必要条件；同时，考虑不是R类客户的这一类群体：业务场景上我们假定一段时间内不具有或不发生全部特定Y=1金融行为的客户划归为Y=0客户群体。样本群定义示意如图1所示。通过捕捉R类客户群的常态化金融特需求与行为指标寻找到Y=1和Y=0样本群后，考虑模型所需的观察期、表现期及各验证样本组的情况：一般将研究设定样本观察期在表现期之前1年，观察期主要用于基于两客

2、户群甄别挑选自变量；样本表现期为6个月，该期间数据主要用于建模使用。对表现期内的样本客户各预留10%20%，作为模型的同期验证样本；同时，限定被筛出的两样本群客户在商业银行的开户时间在样本观察期以前需有一定的积累，以保证两部分样本群客户有足够可观察的金融行为表现，不影响随后对自变量的挑选。另外，也在不同地区选取了若干营业网点的客户数据，通过客户访谈等方式在已经明确某一客户能否属于R类的情况下，组成网点验证组进行应用效果检验。各样本组的基本属性如表1所示。自变量选择上，如前所述，最终纳入模型的变量不仅能够在商业银行应用与实践阶段保持较好的业务解释能力，也需要在统计层面有较为理想且相对稳定的判别与

3、预测能力。所以本文根据业务与可获得性、双变量分析、多重共线性检验等挑选步骤对模型中拟参加的自变量进行挑选。一业务与可获得性挑选考虑到本文关注对象R类客户群很可能在存贷业务、中间业务、银行卡业务等方面与非R群体存在差异，同时基于一般商业银行数据仓库中客户与产品数据的可获得性，研究中初步拟选了三大类指标，包括：客户产品情况指标；客户基本属性指标；其他辅助指标。在客户产品持有情况一揽子指标中，涵盖了与个人客户相关的存款类、贷款类、中间业务类、银行卡类这四类指标；客户基本属性指标中基本涵盖了客户年龄、性别、开立银行账户时长、开户机构数等指标；在其他辅助类指标中，主要包括了能够显现R群体常态化金融需求特

4、定业务指标。二双变量分析与多重共线性挑选双变量分析见表2是将每一个X变量与“能否为Y=1群体变量之间进行考察。使用这种方法挑选变量基于两种考虑：一是能够通过调整某一变量适当的分段，将X变量转化为分组有序变量、多分类名义变量等，获得更为精细化的识别结果。举例来讲，如客户年龄变量，能够通过适当的分段，将其转换为几个哑变量dummyvariable，进而得到某些年龄段客户比另外一些年龄段客户更容易有R类上的特征；或者讲，在其他条件不变的情况下，能够发现一些年龄段客户要比另外一些年龄段客户在能否为R类的评价上获得更高的可能性。二是有利于观察某一自变量在方程中所起到的作用、加强最终纳入模型的变量在实际业

5、务中的解释能力。操作上，我们从统计意义和已有的商业实践考虑，以为假如某一分段中的总体个数占整体总量5%以上，同时每段中Y=1的样本数量与每段中总体数量比例随每段呈现递增或递减趋势，则以为分段后的X变量通过了双变量分析挑选。之后，观察余下变量的方差膨胀因子VarianceInflationFactor，VIF，VIF越大意味着变量的共线性程度越严重。经历以为当某一变量的VIF10则讲明该变量与其余变量存在多重共线性。需要讲明，当某些高VIF变量非常有助于模型最终的业务解释，可尝试构造某些因子factor来保留这部分变量信息，同时也消除了高VIF变量，限于篇幅，此处不做展开。二、回归、检验与评价构

6、建R类个人客户特征身份识别模型时，主要考虑并解决两个问题：一是得到某一客户绝对的判别概率，获知辖内客户在多大程度上能够以为某一客户是R类或以为非R；二是基于判别概率对客户进行排序，并从模型的覆盖和命中角度综合衡量，拟定明确的R类群体这里R群体能够理解为“业务使用群体。本质上，R群体的业务规模某种程度上是以建模为指导并结合业务需求最终确定的，详细而言，可根据业务实践的不同策略与目的，如客户细分、精准营销、产品规划等，结合定量化建模与模型评价再给出的群体。因而，由于不同策略或目的下的判别概率不同，最终的应用规模或允许误判率也不同。本部分介绍模型的检验及评价，并扼要讲明基于不同业务场景的模型应用。经

7、过定义变量、数据清洗与挑选后，对余下变量采用逐步回归方法StepwiseRegression进行Logistic回归，最终留下的变量及回归结果如表3所示。为便于应用，我们将某一判别概率转化为01000的判别分数。基于客户特征身份识别模型在实践中的不同应用场景如群体规模预测、数据库精准营销等，对模型检验与评价所关注的指标也各有不同。例如，在倾向于数据库营销databasemarketing中的挑选目的客户经过，某种意义上更关注于模型命中率与提升力lift；假如倾向于R群体的规模预测populationforecasting，则更为关注模型覆盖率。同时，对在预测群体中能否能显现足够的差异性上，则能

8、够更多地关注于K-S值、ROC等指标；另外，通过同期与非同期验证的方法考察了模型的稳定性。综合来讲，我们从模型的覆盖、命中、预测群体差异等角度，对模型进行检验与评价。一覆盖与命中从某一判别分数或判别概率p下获得的混淆矩阵Confu-sionMatrix出发，重点考察模型的正例覆盖率Sensitivity，Se与负例覆盖率Specificity，Sp、正例命中率PPV与负例命中率NPV。定义某一判别概率p下的混淆矩阵构造如表4所示。我们定义Se、Sp及PPV、NPV分别为：Se=a/a+b即某一判别概率p下，实际为1且预测为1的数量与实际为1的比例；Sp=d/c+d即某一判别概率p下，实际为0且

9、预测为0的数量与实际为0的比例；PPV=a/a+c即某一判别概率p下，预测为1且实际为1的数量与预测为1的比例；NPV=d/b+d即某一判别概率p下，预测为0且实际为0的数量与预测为0的比例。由此能够通过Se与Sp来考察模型的覆盖情况，通过PPV与NPV衡量模型的命中情况。如前所述，客户潜在身份识别模型的不同之处在于，由于我们采取弱指导性方式通过综合与“复原Y=1与Y=0两个建样子容貌本群体，同时我们的最终目的是为了识别R类群体，即需要了解是R的可能性，也要考虑非R的可能性，因而不仅考察正确的误判率，同时也应同等考察错误的误判率，通过在不同判别分数下权衡这两种单边误判率获得一个相对最低的综合误

10、判率，所以需同时考察Se与Sp、PPV与NPV的情况。基于模型的拟合及识别情况，给出建模组、验证组1同期验证及验证组2网点验证不同判别分数的情况见表5。根据模型不同的使用场景，简单地讲，实践中可能关注三个方面：一是预测使用规模准确性；二是预测个体准确性；三是通过规模获得个体准确性。假如更关注R群体的“使用规模，则应更倾向于了解模型覆盖情况，由表5的PanelAPanelC比拟发现，对样本Y=1和Y=0两群体客户的总覆盖情况基本在200左右到达一个较好的效果，正负覆盖率Se与Sp分别在80%及70%以上，表明无论是建模组、同期验证组还是网点验证组，假如在200分附近应用该模型对R群体进行挑选，最

11、终真实的R与真实的非R被准确覆盖的可能性较好。假如更关注识别R的精准性，可着重关注模型命中情况，如表5显示验证组1、验证组2的总命中在350分左右到达一个较好水平，正负命中率PPV与NPV均在70%以上。另外，可以在既定使用规模下，考察模型覆盖及命中的综合情况，这种应用场景一般出如今数据库营销中，例如，在成本限制下某地区对R客户群仅能营销S规模客户，能够通过判别分数得到S规模，得到这一分数下的覆盖与命中。二ROC曲线接收者操作特征曲线ReceiverOperatingCharacteristicCu-rve，ROC曲线，是分类模型常用的一种坐标分析评价工具。基于某一判别概率下的混淆矩阵，ROC

12、曲线的横、纵坐标分别定义为1-负的覆盖率1-Sp与正的覆盖率Se。由ROC曲线性质可知，与45度对角线随机猜想线，RandomGuessLine相比，越是往ROC空间左上角倾斜，模型明识别或预测的效果越好Fawcett，2006；Gonen，2007。图2给出建模组、验证组1与验证组2的ROC曲线。比照发如今建模组较好的识别效果下，各验证组也有较为稳定的表现。三Kolmogorov-Smir-nov检验K-S检验K-S检验用作样本分布与某一已知分布的差异性检验，检验统计量为KS=sup-xFnx-F0x，F0为已知分布函数。本文使用K-S检验统计量写为KS=maxF1x-F0x，即体现为y=1

13、的累积分布与y=0的累积分布差的最大值，来考察模型区分两群体差异的大小，实践经历以为K-S值在0.30.5之间模型的区分较好。本文将建模组样本以判别分数为基础降序排列，并按等人数把样本组均分为10个子组decile。样本中Y=1与Y=0的累积比例及累计比的差值如表6所示，得到子组5累积比例的差在各组中最大，进而我们得到模型的K-S值为0.3758，也表明模型能够较好区分Y=1与Y=0两个样本群。三、评述与瞻望本文尝试在一种弱指导性质下通过客户行为的多重特征构建了一个可用于商业银行业务实践的Logistic-R类客户潜在特征身份识别模型。根据不同业务目的，通过权衡模型覆盖率与命中率，寻找相对最优的R客户群。该模型在目前实践应用中，平均识别率可到达80%，基本解决了以往无法通过数据仓库准确获取R类客户的问题，为基于R群体进行一揽子金融产品的分析与研发、目的客户的挑选与营销等打下基础。将来，还可尝试结合区域经济特征，将地缘因素纳入模型进行考虑，提升模型的总体精准性。同时，可以考虑利用诸如非参数识别、组合预测等方法进一步优化提升识别率。而在商业银行金融数据仓库建设方面，建议着力考虑将半构造化、非构造化等“碎片式数据信息进行收集与整合，加强对客户行为、情绪、偏好等微观信息的捕捉与研究，为利率市场化、互联网金融和大数据多交融背景下的商业银行产品创新提供有力支撑。

展开阅读全文