基于概率后缀树的股票时间序列预测方法研究-程小林.pdf-得力文库

资源描述

《基于概率后缀树的股票时间序列预测方法研究-程小林.pdf》由会员分享，可在线阅读，更多相关《基于概率后缀树的股票时间序列预测方法研究-程小林.pdf（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 M+v（1S） Jan f第卷第期Journal of Sichuan University （ Natural Science Edition） Vol No fdoi ： j issn - qHWZEl，，（四川大学计算机学院，成都）K 1：HW|$，qPST，yHW|qM4 |.d:SMM1BM(ARMA1，TAU4MMARMA，4glmr1oM：!；HW|；qms|： TP DSM： A cI|： - （） - - l： - - ：国家自然科学基金（）Te：程小林（），男，重庆人，硕士生，研究方向为金融时间序列E- mail ： qq comYT：李旭伟 E- mai

2、l ：lixuwei scu edu cn_ r r n p u | s | p x v z r r v r o n r q | | o n o v y v v p s s v r rP U R T e v n | - Y v ， g U R T e v t ， Y V e - d r v（ College of Computer Science ， Sichuan University ， Chengdu ， China）N o n p ： A stock forecasting model was introduced in this paper ， which was based on

3、the combinationof time series symbolization and Probabilistic Suffix Tree （ PST） In addition ， the Markov Model （ MM）and the Auto Regressive Moving Average Model （ ARMA） was compared with the forecasting model ofthis paper The stock of CSI indices was used as the experimental sample The results show

4、 thatthe stock forecasting model proposed in this paper is better than the MM model and the ARMA model ，and prove the validity of the forecasting model proposed in this paper X r | q ： Stock data mining ； Time series symbolization ； Gaussian mixture modeling ； Probabilistic suf-fix tree 近年来，随着人工智能的飞

5、速发展，学科交叉的日益深入，一些在其他它领域应用的技术不断地运用在股票预测中，如随机过程、混淆理论以及小波分析等这些新方法的引入为股票预测研究注入了强大的动力，目前，人工神经网络和支持向量机等计算机技术已经成为研究人员和投资者研究股市的重要方法陈曦在年利用分段线性表示方法（ Piecewise Linear Representation ， PLR）和加权支持向量机（ Weighted Support Vector Machine ，WSVM）相结合来预测股票拐点； Chang等在年提出了一个基于核PCA （ Principal Com-ponent Analysis）方法提取关键特征来

6、提高股票预测准确率模型； Nair等人对股票时间序列进行聚类从而产生股票交易决策；Chang提出了进化趋势反转模型来预测股票交易规则；Liao 等人针对股票交易决策信号问题构建了动态阈值模型来预测未来的交易信号万方数据 +v（1S）在现有研究的基础上，本文构建了一个基于高斯混合模型聚类符号化和概率后缀树PST（ Proba-bilistic Suffix Tree）的股票预测模型，实现对股票下一周期趋势进行预测本文主要的研究工作包含以下几点：（）获取原始交易数据，计算相关股票技术指标，构造模型的特征向量；（）使用高斯混合模型聚类方法将股票序列数据符号化，将同一支股票的特征向量进行多

7、次聚类，获得多组聚类结果，为每次聚类获得的多个簇分配不同的字符，获得多个符号序列，实现股票交易数据符号化；（）使用符号序列构建概率后缀树，通过选择验证集上最佳收益率方法解决高斯混合模型聚类算法的不稳定性；（）通过实验验证本文构建的基于概率后缀树的股票预测模型能有效提高收益率? |? )与传统的时间序列数据相比，股票交易数据时间序列有自身的一些特性，针对股票交易数据的特征，本文设计了以下方法对股票交易序列进行处理，股票交易数据序列符号化流的具体流程步骤如下（）采集股票日交易数据；（）对获取的数据进行复权处理，并以天为周期进行压缩；（）计算相应的技术指标；（）对部分数据进行归一化

8、处理；（）使用高斯混合模型聚类对股票数据进行聚类；（）为每个簇分配符号；（）对聚类结果进行分析，选取最佳的聚类结果为了能在不同角度反映股票趋势变化，研究人员在原始交易数据的基础上提出了技术指标这一概念来反映股票市场的变化，不同的技术指标都是对股票价格趋势的定量分析，以帮助投资者进行投资决策本文选择了部分技术指标，如： RSI（ Rela-tive Strength Index ）相对强弱指数、 WR （ Wil-liams Rate）威廉指数、 MA（ Moving Average）移动平均线指标、 BIAS偏离率指标、 EMA （ Expo-nential Moving Averag

9、e）指数平均数指标等前文介绍的技术指标中都包含有参数（表示天数），投资者通常使用不同参数的技术指标相结合的方式对股票进行分析，不同的参数的指标之间的差异非常重要，不仅可以从多个角度来反映股票的走势，而且其相交点往往是股票走势的关键点例如RSI指标在参数取和参数取的差值上就有着明显的意义，当其值小于时，表明目前人们买入的愿望更强烈，其值越小，则买入愿望越强，反之亦然因此，本文在选择输入特征变量时，不仅使用了技术指标本身的值，还考虑了同一技术指标在不同参数值下的差异和趋势，差异和趋势用式（）和式（）来表示Q v s （ R Z N ，，） R Z N （） R Z N （）（

10、）a q（ index ，，）（ Q v s（ R Z N ，，） Q v s（ R Z N ，，）） * sign（ Q v s（ R Z N ，，））（）其中，式（）表示一个技术指标在不同参数下的差异，，表示不同的参数取值天数；式（）表示技术指标的趋势，其中sign（）为符号函数本文选择投资者常用的WR 、 RSI 、 BIAS三个指标计算其Q v s （ R Z N ，，）和a q （ R Z N ，，），其中对于RSI和BIAS指标，取，取，对于WR指标，取，取在此基础上，本文构建的时间序列如下所示 new （ new ， n

11、ew ， new ， new ，， new ）newt （ pvt ，MA（）t ，RSI（）t ，RSI（）t ，Dif（ RSI ，，）t ，Trd（ RSI ，）t ，WR（）t ，WR（）t ，Dif（ RSI ，，）t ，BIAS（）t ，Dif（ BIAS ，，）t ，Trd（ RSI ，）t ）? ? |聚类算法主要分为四类：层次聚类算法、划分式聚类算法、基于网格和密度的聚类算法以及其他聚类算法，其中高斯混合模型聚类算法被广泛使用，本文选择了高斯混合模型聚类算法对子序列进行聚类处理高斯混合模型聚类方法中的值是需要预先设定的参数，表示最终输出簇的数量

12、，的取值直接关系到聚类结果，需要更具实际情况做相应的选择本文通过遗传算法多次实验得到当取值为时，聚类效果较为理想，各簇数据之间得到了很好的区分聚类完成后，每个数据点都会被归入相应的簇，接下来需要做的工作是为每个点赋予字符符号化的大致思想是为同一簇中的数据赋予相同的字符，每个簇对应同一个字符，然后按照时间先后顺序将每个符号组合起来，即为符号化序列本文通过高斯混合模型聚类将数据划分到个簇中，按万方数据 l，：qHWZE 照每个簇的数据对应一个符号的原则，最终的符号化序列将由个字符组成，该序列即为概率后缀树的输入信息该过程的数学表达如下：输入时间序列 new （ new ， new ， new ，

13、 new ，， new ）（，，，），个符号组成的符号集合Z z ， z ，， z v ，， z （ v ，，，），输出的符号化时间序列为，，， v ，由Z中的元素构成，且元素个数与 new相同在使用概率后缀树预测时，输出信息为下一个可能出现的符号以及概率本文的模型中，不同的符号代表不同的交易信号，每一个字符有其特定的含义，因此在分配字符前需要确定不同簇内的数据代表的含义对于投资者而言，需要获取的交易信号通常有三种，第一种是买入信号，即下一个周期股价会出现上涨；第二种是持有信号，表示下一个周期的股价不会有大的变化，只有小范围的波动；第三种是卖出信号，表示下一个

14、周期股票价格会出现下跌的情况判断以上三种交易信号的最重要特征为交易周期的股票价格变化趋势，即收益率，因此本文使用簇中所有数据的平均收益率来确定每个簇的数据对应的类型现以（万科A）为例，选取时间区间为年月到年月，总共个子序列（万科A在年月日到年月日停牌，因此子序列数量少于正常值）进行聚类和符号化操作并计算平均收益率在最终获取的个符号中，有个平均收益率为正，个平均收益率为负，每个簇的评价收益率和符号分配如表 V |d9VTab The statistical resultsofsymbol对应符号 n o平均收益率 B 数量弿 ? q概率后缀树作为一个树形的存储结构，其存储的主要内

15、容为训练序列中的上下文统计概率，运用这些概率即可对未来的序列进行预测概率后缀树的预测思想如下：从根节点开始，按照序列倒序的方式匹配树中的各层节点，得到概率最大的序列即为预测的下一个符号，如果无法匹配整个序列，则去掉离当前时刻最远的字符，继续从根节点开始匹配序列，直到匹配成功去掉最远的字符就使得当前匹配的阶数发生改变，体现了概率后缀树变阶的思想设定一个待匹配序列，，，，规定suffix（ v ）（ v ）表示序列的后缀，可得出最长后缀suffix（），，，，，最短后缀为suffix（），使用L阶概率后缀树匹配序列的过程如下（）选择序列L阶概率后缀树能够匹配到的最长

16、后缀suffix（ Y ），从根节点开始倒序搜索概率后缀树匹配suffix（ Y ）（）若无法匹配suffix （ Y ），则去掉离时刻最远的数 Y ，此时需要匹配的序列从suf-fix（ Y ）变为suffix （ Y ），若匹配成功，则结束对序列S的搜索，若suffix（ Y ）也无法匹配，则去掉 Y ，此时匹配的目标序列为suffix（），以此类推，直到匹配到原始序列的最长后缀序列suffix（ z ）（ Y z ）为止（）根据匹配成功的最长后缀suffix（ z ）定位到其对应节点，获取该节点对应的概率向量，向量中的概率值即为预测的下一个符号的概率选择其中最大概率值对

17、应的字符为预测的下一个字符，由于本文构建的股票序列中符号种类较少，各符号出现频率相对较高，会导致某节点的概率向量中概率值完全相等的情况出现，此种情况对未来符号的预测就毫无意义针对这一情况，本文规定若某序列在概率后缀树中的匹配结果出现概率向量中概率值完全相等的情况，则认为本次匹配失败，需要将其中历史最久远的字符去除，更改匹配目标，重新获取符合要求的结果，如图所示概率后缀树每次预测的是当前时刻之后的下一时刻的符号概率，即的符号概率，完成对时刻预测后，若需要对时刻进行预测，可以继续使用原有概率后缀树完成预测但是原有概率后缀树中并未包含有时刻的符号信息，对于本文的符号化股票序列而言，当前时刻的符

18、号状态与其上一时刻的符号状态有很大的关系，上一时刻的符号包含影响当前时刻的重要因素因此本文在每次预测完成后都对原有后缀树进行更新，将最新的符号信息添加到概率后缀树中，从而确保每一次预测结果的精确设下一个周期的符号为，更新概率后缀树流程如下（）更新各个符号在新的符号序列中出现的万方数据 +v（1S）概率，即根节点的概率向量；（）搜索所有长度不大于Y且后缀包含的子序列；（）对每一个子序列按照倒序的方式匹配，并更新其节点概率，若原有树中无此子序列导致匹配失败，则判断该序列在原始序列中出现的概率是否大于 min ，若大于则将其作为新节点添加到概率后缀树中，否则不添加到概率后缀树中；更新后的概

19、率后缀树加入了最新的符号信息，使得对未来预测结果更为可靠预测流程图如图所示m qmFig The process of stock data forecasting basedon PSTm mFig The process of forecasting Ls LZ实验方案包括实验数据选取，实验参数选择和投资者策略 ? L|为验证预测模型的有效性，本文选择使用沪深指数包含的支股票对模型进行验证，选择数据的时间跨度从年月日到年月日日交易数据的压缩方式日为周期，数据按照、、的比例划分为训练集、验证集、测试集 L4由于实验中涉及到部分参数，现对所有参数进行统一规定，聚类中的参数设为，

20、构建概率后缀树中的参数设定如表所示V q4Tab The parameters of PST参数Y min min数值烫 8 * ? A g本文提出的模型最终预测得到的是股票下一个周期的符号，根据符号的含义得到该周期的涨跌信号，进而可以得到交易信号，如预测的下一个周期的符号代表的收益率大于时，即为买入信号，以当前周期的收盘价买入，并且在下一个周期结束时以该周期的收盘价卖出为了简化，本文采用简单的固定买入策略：当出现买入信号时，买入固定金额的股票，在周期结束时全部卖出在实际的股票交易中，还需要考虑交易手续费，因此在计算最终收益率时需要考虑交易手续费固定策略的投资收益率计算公式如式（）所示 z

21、v （ S ） * pv （ S o ） * pv（ S o ） * pv）（）其中， S o为买入交易的手续费比率； S 为卖出交易的手续费比率；根据目前的交易规则， S o ；S ， z为交易次数为防止预测结果导致的大幅亏损，本文还使用了相应的止损策略，规定当某个周期买入股票后出现下跌超过的情况时，将买入的股票立即卖出，以达到减少亏损的目的万方数据 l，：qHWZE B NS为评价模型的预测效果，本文选择了预测正确率、趋势预测正确率、持有收益率、收益率、胜率共个指标来分析最终结果其中趋势预测正确率是指每次预测符号代表的收益率与实际收益率正负情况是否一致，若一致，则表明预测正确，反之则预

22、测错误；胜率是指所有交易次数中，获利的交易次数所占比例，表示本文的预测模型每次投资的获利情况 C LTs为了能更好的验证本文模型的有效性，本文引入自回归移动平均模型ARMA（ Auto RegressiveMoving Average Model）和马尔科夫模型MM（ Markov Model）与本文构建的最优概率后缀树PST模型进行对比因为本文的序列为符号序列预测，不适宜选用支持向量机SVM（ Support Vec-tor Machine）或者循环神经网络RNN（ RecurrentNeural Networks）等方法，同时隐马尔科夫模型HMM （ Hidden Markov Model

23、）的假设是当前时刻只与序列前一状态有关，而本文的假设是下一时刻与序列的前面多个状态相关，因此隐马尔科夫模型与本文不符从已经进行实验支股票作为ARMA和MM模型的测试样例 ARMA模型预测的下一个周期的价格，因此最后只统计了收益率一项指标，MM的实验统计指标类别与PST一致， MM模型和ARMA模型预测结果如表，时间为天V TTab The result of forecasing stock data股票代码模型类别准确率（）趋势准确率（）收益率（）胜率（）持有收益率（） ARMA收益率（） PST , t MM , t PST , t MM , t 热 PST , MM ,

24、热 PST , t MM , 剟 PST , 剟 MM , 剟 PST , t MM , PST , t MM , t PST , 剟 MM , 剟 PST , t MM , 剟 PST , 槝 MM , 剟 ) 平均值PST A t MM , 从表可以看出， MM模型预测平均收益率为， ARMA模型预测收益率为，本文构建的PST模型平均收益率达到，超过其余两个模型收益率，同时也远超过买入持有收益率在预测准确率和趋势预测准确率方面，PST模型均高于MM模型在相同周期长度的情况下，MM模型的收益率明显低于PST 其原因是MM模型只匹配了前一个周期的序列，使用较少的信息进行预测无法准确的

25、找到序列中隐藏的规律，而PST模型使用了概率后缀树这一变阶马尔科夫模型，能够动态的匹配不同的长度，因此使用PST可以获得更高的预测准确率万方数据 +v（1S） A 本文首先对原始股票交易信息进行处理，构建一个全新的时间序列作为高斯混合模型聚类的输入信息，然后使用高斯混合模型聚类方法实现时间序列符号化，将符号化的结果作为概率后缀树的输入信息，通过选择验证集上最佳收益率方法解决高斯混合模型聚类算法的不稳定性最后在测试集得到实验结果，证明本文方法的有效性ID：陈曦基于分段线性表示和支持向量机的拐点预测 D 厦门：厦门大学， Chang P C ， Wu J L A critical feature

26、 extraction bykernel PCA in stock trading model J Soft Com-put ，，： Nair B B ， Kumar P K S ， Sakthivel N R ， r n y Clustering stock price time series data to generatestock trading recommendations ： An empirical study J Expert Syst Appl ，，： Zhang X ， Hu Y ， Xie K ， r n y An evolutionary trendrever

27、sion model for stock trading rule discovery J Knowledge- Based Systems ，，： Chang P C ， Liao T W ， Lin J J ， r n y A dynamicthreshold decision system for stock trading signaldetection J Appl Soft Comput ，，：赵超，唐亚勇分位点门限自回归时间序列模型的贝叶斯方法 J 四川大学学报：自然科学版，，： Mazeroff G ， Gregor J ， Thomason M ， r n y

28、Proba-bilistic suffix models for API sequence analysis ofWindows XP applications J Pattern Recognition ，，：孟海东，王淑玲，郝永宽基于簇特征的增量聚类算法设计与实现 J 计算机工程与应用，，： Begleiter R ， El- Yaniv R ， Yona G On prediction u-sing variable order markovmodels J J Artif IntellRes ，，：李丰，高峰，寇鹏基于分段线性表示和高斯过程分类的股票转折点概率预测 J 计算机应用，，：张丹辉基于概率后缀模型的计算机病毒检测方法研究 D 天津：南开大学，：万方数据

展开阅读全文