基于大数据的金融风险预警机制研究.doc-得力文库

资源描述

《基于大数据的金融风险预警机制研究.doc》由会员分享，可在线阅读，更多相关《基于大数据的金融风险预警机制研究.doc（13页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、运用大数据的金融风险预测模型研究基于行为金融学的视角摘要：近年来互联网金融为代表的金融新业态发展使得金融市场风险表现出新的特征，而大数据也逐渐成为金融市场必要的生产要素。本文利用百度搜索大数据建立金融风险预测模型，通过因子分析法建立包含互联网金融风险与影子银行风险的金融风险指标，并利用金融风险指标滞后项、结构数据变量滞后项以及百度搜索大数据建立多个组合的金融风险预测模型，发现包含百度搜索大数据的风险预测模型有助于提升金融风险预测的准确度，并且在金融风险上升期的预测效果要好于金融风险下降期的预测效果。关键词：互联网金融大数据金融风险预测模型JEL分类号：G33 中图分类号：F832.59文

2、献标识码：A 文章编号：一、前言改革开放以来我国的GDP年均增长10%，服务于实体经济的金融市场也得到高速发展，至2015年末银行信贷占GDP的比重达到136%，股票市场总市值也超过53万亿人民币。与此同时，P2P网贷、众筹融资等为代表的互联网金融新业态层出不穷，2015年P2P融资额达到9825亿元，同比爆发式增长389% 数据根据网贷之家（）的相关资料整理得到。但随着我国宏观经济的持续低迷以及国际市场金融危机的冲击，我国的金融市场风险开始凸显，具体表现为：庞大的影子银行加剧了金融体系的脆弱性；商业银行的不良贷款率持续攀升，2015年末已达到1.67%；2015年6月以来证券市场的高杆杠投资

3、引发的股市暴跌放大了金融市场的波动性；频繁发生的P2P平台跑路事件给市场投资者带来较大的投资损失；房地产市场泡沫则给金融体系带来巨大的债务危机风险。金融市场的系统性风险正在逐步累积，而金融业作为国民经济的核心产业，金融危机一旦爆发将不可避免的对宏观经济产生巨大的负面冲击。因此建立反映互联网金融风险的指标体系，并利用大数据建立更为准确的金融风险预测模型，提前做好金融风险的防范措施就成为本文的研究方向。当前的互联网时代可以将数据区分为结构性数据和非结构性数据，结构性数据是指那些存储在数据库中，可以用二维表结构来逻辑表达实现的数据，统计局发布的统计数据就是典型的结构性数据；非结构性数据是那些不方便用

4、数据库二维逻辑表来表现的数据，大数据就是典型的非结构性数据。大数据（Big Data）是一个较为抽象的概念，它是指一般数据库软件难以获取、储存、管理和分析的巨量复杂数据（Manyika et al，2011），如金融市场参与者的搜索数据、交易数据等等。最早提出大数据概念的是麦肯锡大数据：下一个创新、竞争和生产率的前沿（2011）研究报告，该报告指出数据已经逐渐成为每个行业和职能领域内的基础性资源，对于海量数据的挖掘、分析，预示着新的生产率增长浪潮的到来，给未来经济的发展带来极其深远的影响。大数据不同于传统结构性数据，其存储在以千万或亿为单位的终端设备上，包括各种服务器、微型电脑及移动设备，利用

5、各种数据采集方法如爬虫技术（Crawler Technology）获取大数据，最后通过云计算提炼出有价值的信息，目前大数据在商业领域、工业领域和金融领域等都得到了广泛的应用。大数据已逐渐成为金融行业必要的生产要素，但目前运用大数据对金融风险进行分析预测的研究还处于起步阶段。金融风险本质上由金融市场主体的投融资行为构成，市场主体通过搜索、阅读金融市场的风险信息得到金融风险感知，金融风险感知影响到市场主体的投融资行为并使金融风险发生改变，比如每当有P2P平台发生跑路倒闭时，公众在百度搜索P2P、跑路的频率就开始大幅增加，进而影响到公众的P2P投融资行为。因此通过观察市场主体的投融资行为或者测度金

6、融风险感知能够衡量金融风险，比如观察到股市投资行为具有较强的“羊群效应”则表明股市投资风险在累积。传统的风险预测模型难以度量微观主体的投融资行为，获取公众的金融风险感知则主要依靠调查问卷的形式，但这会带来样本选择偏误以及虚假陈述的问题。随着互联网时代大数据挖掘应用技术、云计算技术的发展，公众的金融风险感知可以通过观察个体的搜索行为、投融资行为等方式被捕捉到，这给我们提供了类似于自然实验的研究环境。因此本文尝试着运用百度搜索大数据建立金融风险预测模型，并和使用传统结构性数据所建立的金融风险预测模型进行比较，探讨包含百度搜索大数据的金融风险预测模型是否具有更好的金融风险预测能力。本文接下来的结构安

7、排如下：第二部分为文献综述；第三部分介绍金融风险预测模型所使用的方法、数据的类型和来源以及数据的统计描述；第四部分利用金融风险滞后项、结构数据变量滞后项以及百度搜索大数据的各种组合建立多个金融风险预测模型，并比较各个预测模型的预测效果；第五部分为结论。二、文献综述国内外学者对金融风险预测模型进行了大量研究，Frankel和Rose（1996）提出的概率模型（FR Model），Sachs et al（1996）开发的横截面回归模型（STV Model），Kaminsky et al（1997）建立的信号分析法（KLR Model）成为主流的预警模型。其后一些学者对上述经典模型进行了补充和扩

8、展，Nag和Mitra（1999）利用人工神经网络（Neutral Network，NN）模型建立了金融风险预测机制，该模型能够较好地捕捉到变量间的关系。Kumar et al（2002）利用金融数据和宏观经济数据建立了Simple Logit模型，但由于该模型选用指标较少，使得该模型的预测能力有限。Gray et al（2007）建立了CCA模型分析框架，该模型基于国民经济各部门的资产负债表，分析宏观经济风险在各部门间传导扩散进而引发系统性风险的机制。Adrian和Brunnermeier（2010）则建立条件在险价值方法（CoVaR）来衡量金融系统性风险，其依据是金融危机中单一金融机构的尾

9、部风险具有溢出效应，最终酿成系统性金融风险。Ahn等（2011）利用支持向量机（Support Vector Machine，SVM）建立金融风险预警系统，并运用SVM模型对韩国的金融市场风险进行了研究。Illing和Liu（2006）建立了金融压力指数（FSI），并认为金融压力的极值就是金融危机，Louzis和Vouldis（2013）将FSI扩展为FSSI（Financial Systemic Stress Index）并对希腊金融市场进行了研究，发现FSSI具有更好的金融危机预警效果。国内学者的研究方面，陈守东等（2006）采用因子分析法研究我国金融风险的来源，发现导致金融风险的主要因素

10、是宏观经济风险、金融市场风险和企业融资风险。史建平和高宇（2009）利用金融危机预警模型KLR模型对新兴国家的金融危机做了实证检验，认为部分新兴国际已经出现了金融形势恶化的趋势，未来发生危机的概率较高。楼文高和乔龙（2011）以金融风险预测单指标区间评价为依据，生成足够多用于BP神经网络（BPNN）建模用的训练样本，建立了泛化能力较好的金融风险预测BPNN模型，实证结果表明BPNN模型能较好地用于金融风险的预测研究。许菁（2013）通过选取12个子指标，构建了开放经济条件下的金融风险预警模型，发现经济增长、股市平稳性与人民币汇率影响到长期金融风险，物价水平和股市稳定性影响到短期金融风险。傅强等

11、（2015）以金融危机发生概率为被解释变量，分别建立了基于静态和动态Logit方法的金融危机预警模型，发现动态Logit方法的金融危机预警能力更优。张曦（2016）使用金融压力指数法（FSI）构建了我国的系统性金融风险指标，发现金融风险呈现整体的周期性和市场间的传染性，并预测2016年初金融风险将有所下降。利用大数据进行经济预测属于一个崭新的方向，已有的研究取得了一定的成果。Vosen和Schmidt（2011）使用网络搜索数据对个人消费行为进行预测，发现预测能力优于传统调查数据。Xin et al（2015）发现对旅游的搜索大数据能够较好地反映出搜索者的旅游偏好，同时也帮助旅游景点预测未来一

12、段时间的游客量。此外，一些学者还利用互联网搜索数据预测传染病的爆发（Carneiro和Mylonakis，2009）；失业率（Askitas和Zimmermann，2009）以及预测宾馆房间需求（Yang et al., 2014）等都取得了较好的预测效果。利用大数据进行金融风险预测的研究方面，杨虎等（2014）总结了互联网大数据的特点，以及大数据金融风险预测系统的设计原则。曾建光（2015）利用百度指数“余额宝被盗”相关搜索词作为余额宝风险感知的代理变量，考察了网络风险感知与互联网金融产品定价问题，发现投资者的网络风险感知越高则要求的风险补偿越高，而且移动端的风险感知所要求的风险补偿要比PC

13、端风险感知要求的风险补偿更高。综合以上研究文献，国内外学者分别从金融脆弱性、金融系统性风险以及资产负债表等多个角度对金融风险进行测度并建立金融风险预测模型。但我国当前的金融风险来源正发生着较大的变化，影子银行业务、互联网金融已经成为金融市场重要的风险来源，但已有文献较少加以考虑。传统研究往往通过调查问卷方法确定公众的投融资行为、金融风险感知，这会带来样本选择偏误以及虚假陈述的缺陷。针对已有文献存在的不足，本文研究从以下几个方面进行改进：将影子银行、互联网金融风险等新的金融风险来源纳入风险预测模型；从行为金融学的角度，利用百度搜索大数据建立风险预测模型，并与使用传统结构性数据建立的风险预测模型进

14、行对比，从金融风险预测准确度的角度评判两种风险预测模型的优劣。三、金融风险预测模型和指标介绍（一）因子分析模型的构建因子分析法是利用降维的思想，根据相关性大小将各变量进行分组，使得同组内的变量相关性较高，不同组的变量相关性较低，将一些具有错综复杂关系的变量归结为少数几个综合因子，使得综合因子具有较强拟合能力的统计方法，因子分析法的优点包括：将复杂的原始变量组简化为少数几个综合因子，并尽可能保留原始变量的解释度；通过斜旋转使得因子变量更具有可解释性，突出每一主因子的共性，以清晰的命名诠释其所代表的变量。因子分析法的上述特点使其得到了广泛应用，本文也将采用因子分析法构建金融风险预测机制。具体的因

15、子分析法可以表示为：，并简化为。其中Xi包含p个原始变量（i=1,2，p），代表公共因子，A为因子载荷矩阵，为特殊因子。其基本的计算步骤如下： 1确认所选择的原始变量是否适合作因子分析。即计算原始变量相关系数矩阵，相关系数小于0.3就不适合作因子分析；2通过计算因子载荷A来构造因子变量，对A进行方差最大正交旋转。 3计算每个样本的因子变量得分，进行变量体系的综合评价。；综合评价函数，式中为的方差贡献率。（二）预测机制指标体系设定指标筛选是金融风险预测机制的核心内容，一个合适的预测机制对指标的选取遵循三个原则：第一是代表性，所选取的度量指标能够覆盖主要的金融市场风险，既包括传统的银行信贷市场和证

16、券市场，又要涵盖新兴的互联网金融市场。二是可得性，相关指标要能快速准确的获得，考虑到当前金融风险进入高发期，本文选取能够获得月度数据的相关指标。第三是前瞻性，所建立的预测机制对金融风险要有较好的预判性，使得市场主体对金融风险能够提前预防。因此在借鉴已有文献结论的基础上，本文尝试着建立传统指标和大数据指标相结合的金融风险预测机制，判断是否优于已有文献采用传统指标建立的金融风险预测机制。1. 传统指标体系。已有文献对指标体系的分类大致是从宏观经济运行和多个金融行业（如银行业风险指标和证券业风险指标）的角度建立预测机制。一些文献还在上述维度的基础上加入外部经济冲击风险，增加了经常账户、FDI等指标。

17、本文则认为当前金融市场的互联网金融、影子银行所带来的的风险已不可忽视，应该适时地将互联网金融和影子银行的相关风险指标纳入风险预测模型中，由此我们将传统指标体系分为宏观经济风险、银行体系风险、互联网金融风险、资产泡沫风险4个维度，具体的指标体系见表1。表1 传统类金融风险指标体系一级指标二级指标三级指标传统指标体系宏观经济类M2增长率：（月末M2-月初M2）/月初M2通货膨胀率：采用消费者物价指数工业增加值：（月末增加值-月初增加值）/月初增加值汇率变动率：（月末汇率-月初汇率）/月初汇率进出口增长率：（月末进出口额-月初进出口额）/月初进出口额银行体系类不良贷款率：月末不良贷款额/信贷总额信

18、贷增长率：（月末信贷额-月初信贷额）/月初信贷额隔夜拆借利率：隔夜拆借利率的月平均值影子银行增长率：银行表外业务规模增长率互联网金融类P2P问题平台比率：当月问题平台数/P2P平台总数P2P利率风险：各P2P平台利率加权值/Shibor月平均利率资产泡沫类创业板市盈率：深交所网站获取股市波动率：采用5期滚动法计算房地产价格增长率：当月房地产销售额/销售面积社会债务比率：社会债务增加额/GDP以上指标尽量选取能获取月度数据的风险变量，对那些确实重要且已有文献共同采用的季度指标体系，我们借鉴相关学者的做法，将季度数据分解为月度数据。其中，通货膨胀率取月度CPI同比数据，隔夜拆借利率为上海同业拆借市

19、场隔夜拆借利率的月平均值。不良贷款率为季度数据，谢冰（2009）认为商业银行不良贷款率和社会消费品零售总额、进出口总额高度负相关，因此我们利用社会消费品零售总额、进出口总额将季度不良贷款率处理为月度不良贷款率。影子银行增长率使用胡利琴等（2016）的方法，将银行的理财业务、信托业务、同业返售资产作为影子银行的代理变量。P2P平台倒闭指标使用（当月新增停业及问题平台数/当月网贷平台总数）衡量P2P平台的违约风险，2014年至2016年的数据来源于网贷之家（）的相关统计，2011至2013年的数据则通过网络搜索获取。P2P利率风险采用各P2P平台利率加权值与当月Shibor平均值的偏离度来衡量。资

20、产泡沫风险指标中，房地产价格增长率采用进行衡量，其中Rt为当月房地产销售额，Dt为当月房地产销售面积。债务比率采用（月度社会融资规模增量/月度GDP）来衡量，由于GDP只有季度数据，本文采用谭政勋（2015）的方法计算得到月度GDP，进而得到月末的债务比率。考虑到上证指数中包含低市盈率的银行股使得整体市盈率失真，我们用创业板市盈率来衡量证券市场金融风险，数据来源于深圳证交所网站。股市波动率的度量借鉴张晓玫和罗鹏（2014）的做法，先计算A股在样本期的平均增长率，平均增长率的计算跨度为5期并使用滚动法计算股指的波动率。2. 大数据金融风险指标体系。互联网金融背景下的金融大数据是巨大而庞杂的数据集

21、，其包含着丰富的金融市场信息。但大数据的缺点表现为数据质量较差且没有统一的数据结构；大数据样本包含着大量噪音，使得大数据往往与目标变量呈弱相关，只能依靠更多的数据维度来加强大数据的描述能力。上述问题的存在制约着对大数据的利用，随着信息技术的发展带来的大数据挖掘技术和应用技术的突飞猛进，对大数据的运用也得到长足的发展。金融市场主体通过百度搜索获取金融风险感知，进而通过投融资行为影响到金融风险。格兰杰因果检验发现金融风险大数据指标BD引起了金融风险，结果见附录B。因此本文尝试着将百度金融风险搜索大数据纳入金融风险预测模型中，探讨包含大数据的金融风险预测模型能否更好地对金融风险做出预测。百度搜索指

22、数以数亿网民的搜索行为作为数据基础，将搜索词作为统计对象，分析各个搜索词在百度上搜索频率的加权值。本文将百度的金融风险搜索词区分为4个维度，分别为宏观经济类风险、银行类风险、非银行类风险、互联网金融类风险，并挑选每一维度具有代表性的搜索词，通过观察搜索词与对应的具体金融风险的关联程度，决定是否纳入到本文的搜索词库中，比如2015年6月开始的股市暴跌，百度上对“股灾”的搜索频率在2015年4月就开始上升，显示出对股市暴跌较好的前瞻性，所以本文将“股灾”纳入搜索词库中。通过专家讨论和小组会议对每一搜索词赋予权重，最终形成金融风险百度搜索指数。在确定搜索词权重时，我们先根据专家小组打分来确定各二

23、级指标的权重，再根据各三级指标的媒体报道频率、专家小组的主观打分、搜索词和具体风险的关联度三个角度赋予权重。本文最终将经济下滑、产能过剩、汇率贬值等25个搜索词代表宏观经济类风险；将不良资产率、影子银行、钱荒等19个搜索词代表银行类风险；将股灾、炒股跳楼、高利贷等16个搜索词代表非银行类风险；将P2P跑路、庞氏骗局、非法集资等14个搜索词代表互联网金融类风险；搜索词数据从百度指数网站（）获取，相关内容见表2。采用GooSeeker软件进行搜索数据的抓取。表2 大数据类金融风险指标体系一级指标二级指标三级指标大数据指标体系(BD)宏观经济类风险（MacroR）经济下滑Z1-债务危机Z25银行类

24、风险（BankR）不良资产率B1-影子银行B19非银行类风险（UbankR）股灾S1-高利贷S16互联网金融类风险（IntR）P2P跑路R1-泛亚倒闭R14 注：三级指标的各搜索词见附录C。宏观经济类风险等四个二级风险指标的确定是通过媒体报道频率、专家和小组成员的主观打分、搜索词和具体金融风险的关联度这三个维度确定各个三级指标的权重，最终得到各个二级风险指标值并取自然对数，随后我们还通过专家打分法将权重赋予4个二级指标值（宏观经济风险权重0.43，银行风险权重0.27，非银行风险权重0.18，互联网金融风险权重0.12），最终得到金融风险大数据指标（BD），相关结果见图1。图1 大数据类金融风

25、险二级指标三、金融风险指标的建立本文选取的指标体系存在着较大的量纲差距，如通货膨胀率在1.1%左右波动，而创业板市盈率在57左右波动，过大的量纲差距使得指数合成失败。因此需要利用公式对原始变量Xit作标准化处理，其中Xit表示第i个变量，为变量i的均值，为变量i的标准差，标准化变量的统计特征见附录A。我们利用SPSS软件进行KMO和Bartlett球形检验判断是否适合进行因子分析，观察变量间相关系数矩阵发现大部分的指标间相关系数高于0.3，表明相关性较大。KMO值越是接近1表明适合进行因子分析，Bartlett检验的零假设为变量间相互独立，不能提取公因子。本文的KMO值为0.858，进一步表明

26、可以采用因子分析法；Bartlett检验P值为0，拒绝原假设，表明可以提取公因子。按照特征值大于1的选取标准，使用主成分分析法决定提取的公因子数量，如图2所示。图2 确定因子数的碎石图特征值因子个数从图2可观察到前4个因子的特征值大于1，并且经方差的极大值旋转后的累积贡献率达到72.452%，表明前4个因子已经包含了16个原始变量的大部分信息，可以利用这4个因子代表原有变量，方差分解结果见表3。表3 总方差分解因子初始特征值正交旋转后特征值方差贡献累积贡献特征值方差贡献累积贡献16.93643.35343.3534.56328.5228.5222.34614.66158.0143.19819

27、.98548.50631.2818.10966.0232.62316.39568.90141.0296.42978.4521.2087.55178.452利用方差极大旋转法可以得到旋转后的因子载荷矩阵，用来反映公共因子和原始变量间的关系，根据因子载荷量对公共因子进行命名，并通过因子得分矩阵求得每个公共因子的得分，最后以各个因子方差占总方差的比重作为权重得到综合因子得分公式。F综=（0.2852F1+0.2F2+0.2F3+0.0955F4）/ 0.78452 (1)旋转后的因子载荷矩阵见表4，可以观察到公因子F1包含CPI、工业产值增长率RI、进出口增长率IE、广义货币增长率M2和P2P借贷利

28、率RPP，可以概括为宏观经济风险因子；F2包含问题平台率PF、不良贷款率NPL、创业板市盈率GPE，可以概括为金融机构风险因子；F3包含社会债务比率SLR、影子银行增长率SHB、信贷增长率Cred，可以概括为融资业务风险因子；F4包含房地产价格增长率PRE、汇率变动率ER代表价格波动风险因子。表4 因子载荷矩阵变量主成分（Zscore）1234-CPI0.877-0.171-0.1620.087-RI0.871-0.4040.0380.029-IE0.850-0.1590.126-0.158X1-0.7890.439-0.213-0.075M20.663-0.0870.256-0.185-R

29、PP0.635-0.6340.294-0.623ER-0.4360.3000.1380.611PF-0.0390.753-0.0480.209NPL-0.4920.735-0.2870.018GPE-0.4220.665-0.400-0.058ON0.317-0.599-0.1630.207FS-0.3490.5770.0690.266SLR0.063-0.0500.9750.061SHB0.079-0.1730.847-0.259-Cred0.0140.1010.6470.461PRE-0.0610.066-0.0110.830 注：Zscore即为标准值根据因子载荷矩阵可以计算各个公因子F

30、1F4的得分，并将结果代入公式(1)得出金融风险指数，相关结果见图3。本文的金融风险指标越高代表风险越大，但选取的部分指标是越低代表风险越大，如工业增加值RI，因此表4的因子载荷矩阵中我们将这类指标取负值。图3 2011-2016年金融风险指数图3表明2011-2016年我国金融风险总体呈上升趋势，尤其从2014年开始金融风险增幅较大，合理的解释是：2014年以来我国宏观经济增速下滑明显，以及由此导致的民间投资下降和银行不良资产率上升；社会资本大量进入证券市场和P2P网贷市场，导致了2015年以来的股灾和P2P平台跑路潮并放大了金融市场风险。四、金融风险预测模型的建立（一）金融风险预测模型的

31、估计金融风险预测模型的价值在于能够依据历史数据预测下一时期的金融风险并据此提前做出防范，本文将金融风险指数作为被解释变量；将金融风险指数的滞后项、金融风险搜索大数据的当期项和滞后项以及结构数据变量滞后项作为解释变量。其中，解释变量滞后项阶数采用AIC、SC准则确定，受到样本时间序列长度的限制，我们将解释变量的最大滞后阶数设定为3，如表5模型2将金融风险指标滞后项和4个结构数据变量的滞后项作为解释变量，共有35即243种模型，我们将AIC值最小的模型予以显示；由于百度搜索数据具有实时可得性，可以用当期搜索数据预测当期的金融风险，因此表5中的大数据金融风险指标为当期项和最大2期的滞后项。金融风险

32、搜索大数据在表5的模型(4)和(5)中使用综合指标BD衡量，模型(3)和(6)中使用搜索大数据二级指标衡量；结构数据变量通过加入变量组，利用t检验、F检验以及变量间的相关系数综合决定对变量的取舍，如果两变量间的相关系数大于0.5，则剔除t检验不通过或给模型带来较大误差项的变量，最终将M2增长率、股市波动率FS、社会债务比率SLR和工业增加值增长率RI的滞后项加入预测模型。模型的预测效果采用标准平均方差（NMSE）进行评价，相较于均方差（MSE）方法，NMSE进行了标准化改进，通过计算预测模型与以均值为基础的模型之间准确性比率来评判模型的优劣，比率越小说明模型越优于以均值进行预测的方法。回归结果

33、见表5。表5 金融风险预测模型回归结果(1) Risk(2) Risk(3) Risk(4) Risk(5) Risk(6) RiskL.Risk0.566*(4.675) 0.312*(2.303)0.382*(3.412)0.443*(3.329)0.399*(2.787)0.291*(1.584)L2.Risk0.359*(2.989)0.158*(1.408)0.303*(2.274)L.M22.052*(3.454)1.7067*(2.572)1.514*(2.018)L.FS5.658*(2.042)3.893(1.407)2.109(0.748)L.SLR3.576*(2.52

34、1)5.665*(3.727)3.285*(1.703)L2.SLR2.836*(1.949)L.RI-3.333*(-4.619)L2.RI-4.042*(-4.726)-4.092*(3.613)L.BD0.269(0.344)0.846*(2.106)L2.BD0.266(0.335)MacroR0.431(0.611)L.MacroR8.147*(1.973)L2.MacroR1.188*(1.637)L.BankR 1.042*(2.461)L2.BankR1.302*(3.738)0.614(1.412)UbankR0.444*(1.903)L.UbankR0.533*(2.772

35、)-0.195(-0.384)L.IntR0.142(0.203)0.221(0.969)AIC准则2.0541.6051.8132.0141.5851.587Ad R20.6840.7810.8580.7440.8750.902NMSE0.14990.11640.13350.19870.11020.0879注：*、*、*分别表示1%、5%、10%水平上显著，括号内为t值，“L.”代表变量的滞后一期，“L2.”代表滞后二期。表5的第1列的解释变量只有金融风险指数Risk自身的滞后项，AIC检验值表明应该纳入Risk的滞后2期，NMSE为0.1499，说明金融风险指数滞后项对其自身具有一定的预测

36、能力。第2列将Risk滞后项和结构数据变量滞后项作为解释变量，在各变量1-3阶滞后项的各种组合中选定AIC值最小的模型，NMSE为0.1164，表明加入结构数据变量滞后项后模型的预测能力得到提升。第3列的解释变量为Risk滞后项和4个大数据金融风险指标的二级指标的当期项和滞后项，NMSE为0.1335，表明模型(3)对金融风险的预测能力弱于的模型(2)结构性数据变量的预测能力。第4列的解释变量为Risk滞后项与大数据金融风险一级指标BD，模型的AIC值最小时的NMSE为0.1987，说明大数据金融风险一级指标BD的预测能力欠佳。第5列将结构数据变量滞后项和大数据金融风险一级指标BD纳入模型，模

37、型的AIC值最小时NMSE为0.1102，与模型(4)相比，模型(5)将大数据金融风险一级指标BD与结构数据变量相结合有助于改善预测能力。第6列将4个大数据金融风险二级指标与结构数据变量共同纳入模型，模型组合最优时的NMSE为0.0879，与其他模型相比，模型(6)对金融风险指标的预测精度达到最优，我们尝试着多次改变大数据金融风险二级指标的权重并形成新的一级指标BD，代入模型(4)和(5)得到的NMSE依然小于模型(6)的NMSE，表明大数据金融风险二级指标更有助于提升风险预测能力，限于篇幅未在文中显示，感兴趣的读者可以索取。结构性解释变量中M2增长率、股市波动率和社会债务比率与金融风险指标

38、正相关，工业增加值增长率与金融风险指标负相关，但股市波动率并不显著。通过将金融风险指标滞后项、结构数据变量滞后项以及大数据金融风险一级指标、二级指标的当期值和滞后项分别组合为表5的6个模型，回归结果未发生显著性变化，表明了本文回归模型的稳健性。（二）金融风险预测模型的应用将相关数据代入表5的模型(6)和模型(2)，分别得到金融风险指标预测值F_Risk和F2_Risk，图4显示了金融风险指标实际值Risk与预测值F_Risk以及F2_Risk的差异，发现模型(6)的预测值F_Risk与实际值Risk的差异较小，表明模型(6)的预测精度更高，即加入大数据搜索数据的金融风险预测模型有助于提升预测精

39、度，因此本文将模型(6)作为金融风险预测的基准模型。我们还分别比较了模型(6)与模型(1)-模型(5)的预测精度，发现模型(6)在所有模型中预测精度最好，篇幅所限，比较的结果在此省略。考虑到金融风险累积上升时对宏观经济的潜在破坏力更大，金融风险预测模型应该更加关注对金融风险累积上升时的提前预测，因此我们将模型(6)的金融风险区分为较上一期上升的金融风险样本组和较上一期下降的金融风险样本组，分别计算对应的NMSE，发现金融风险上升样本期的NMSE为0.0825，金融风险下降样本期的NMSE为0.0896，说明金融风险预测模型(6)能够更好地预测金融风险的上升，从而更加有助于对金融风险的累积上升

40、做出预防措施。图4 金融风险预测模型的预测精度比较图5 滚动法计算得到的各期NMSE值为了考察金融风险预测模型的预测精度随时间发生何种变化，我们还使用向前跨度为10期的滚动法计算各期的NMSE。由于各时期的NMSE值计算需要向前9期值和本期值，故我们得到的NMSE值从2011年12月至2016年5月，相关结果见图5。可以发现2012年前2个季度，2015年第3季度至今的NMSE值较小，说明预测效果较好，但2012年第3季度至2015年第2季度的预测效果相对较弱，可能的原因是2012年开始的紧缩宏观调控政策作为外生冲击难以被预测，从而造成金融风险预测效果较弱。五、结论近年来随着宏观经济的持续探底

41、以及受到外部金融危机的影响，我国的金融市场风险开始凸显并爆发诸如2015年的股灾、P2P平台跑路潮等金融风险事件，给经济社会稳定带来较大的负面影响，提前预测金融风险和防范金融风险事件的发生成为日益紧迫的研究课题。本文基于行为金融学的视角建立了包含百度搜索大数据的金融风险预测模型，发现加入百度搜索大数据的预测模型有助于改善对金融风险的预测效果，且模型在金融风险上升时的预测效果要好于金融风险下降时的预测效果；格兰杰因果关系检验显示百度搜索大数据引起了金融风险，表明存在着公众利用百度搜索获得金融风险感知，进而影响到公众的投融资行为并使得金融风险发生改变的金融风险传导机制，由此我们的建议如下：首先，互

42、联网时代对金融风险的研究要更多的引入大数据。金融风险本质上来源于金融市场微观主体的投融资行为，通过观察微观主体的风险搜索行为可以获得金融风险类大数据，进而能够利用大数据度量和预测金融风险。本文发现微观主体的百度搜索大数据有助于金融风险预测，但大数据是及其庞杂的在线数据，公众在线浏览金融资讯的频率、市场参与者的金融产品偏好等大数据也影响着金融风险，这就需要我们在后续研究中将更多维度的大数据纳入金融风险预测模型中。其次，度量金融风险需要更多地考虑互联网金融风险。传统金融业正在与互联网金融日益融合，互联网金融已经成为金融市场的发展趋势，但互联网金融还处于初期发展阶段并存在诸多金融监管漏洞，P2P平台

43、跑路潮、第三方支付漏洞等互联网金融风险事件密集爆发并成为金融市场重要的风险来源，这就需要我们衡量金融风险时将互联网金融风险纳入到金融风险预测模型中。最后，适度降低广义货币M2增长率和社会债务比率。过高的货币增长率会带来资产泡沫，挤出实体经济领域的投资资本并造成资金在金融领域内的空转，近年来民间投资的断崖式下跌就已经发出风险预警；而过高的社会债务比率则造成经济体系中庞氏借款人过多以及产能过剩的问题进而放大了金融风险，因此适度降低M2增长率和社会债务比率有助于降低金融风险。参考文献Askitas, N., and Zimmermann, K., 2009, “Google Econometrics

44、 and Unemployment Forecasting”, Applied Economics Quarterly, 55(2), 107-120.Adrian, R., and Burnnermeier, M K., 2010, “CoVaR”, NBER Working Paper17454.Ahn, J. J., Oh, K. J., and Kim, D. H., 2011, “Usefulness of Support Vector Machine to Develop an Early Warning System for Financial Crisis”, Expert S

45、ystems with Applications, 38(4), 2966-2973.Carneiro, H. A., and Mylonakis, E., 2009 “Google Trends: a Webbased Tool for Realtime Survellance of Disease Outbreaks”, Clinical Infectious Diseases, 49(10), 1557-1564.Frankel, J., and Rose, A., 1996, “Currency Crashes in Emerging Market: An Empirical Treatment”, Journal of International Economic, 41(11), 351-366.Gray, D., Merton, R., and Bodie, Z., 2007, “Contingent Claims Approach to Measuring and Managing Sovereign Credit Risk”, Journal

展开阅读全文