数据挖掘在股票分析预测中的应用.pdf

上传人:qwe****56 文档编号:69565850 上传时间:2023-01-07 格式:PDF 页数:57 大小:2.67MB
返回 下载 相关 举报
数据挖掘在股票分析预测中的应用.pdf_第1页
第1页 / 共57页
数据挖掘在股票分析预测中的应用.pdf_第2页
第2页 / 共57页
点击查看更多>>
资源描述

《数据挖掘在股票分析预测中的应用.pdf》由会员分享,可在线阅读,更多相关《数据挖掘在股票分析预测中的应用.pdf(57页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、大连理工大学硕士学位论文数据挖掘在股票分析预测中的应用姓名:黄玲琴申请学位级别:硕士专业:测试计量技术及仪器指导教师:邵诚20081201人连理T 大学硕士学位论文摘要如今,数据采集和存储技术的发展使得许多数据库的数据量极其庞大,要从中分析有价值的信息、知识变得越来越困难,而这种分析需求却与日俱增。数据挖掘就是在海量数据中发现那些隐藏的、人们感兴趣的具有特定规律的信息,是一种发现知识、提取有用信息的过程,这些信息可以用来预测和决策。股票市场作为经济的“晴雨表 在我国经济中起着非常重要的作用,有效的股票预测在金融投资领域占有重要地位。但是股市受政策、经济、以及投资者心理等诸多复杂因素的影响,是一

2、个非常复杂的系统,具有典型的复杂不确定性特点,要对它建立模型非常困难:同时股票交易数据规模越来越大,有关股票价格规律性的信息常常蕴涵在这些海量的数据中。而迅速发展起来的新的数据处理技术数据挖掘技术提供了一种从这些海量数据中获得隐含的、有价值的信息的重要手段,因此利用该技术对股票信息进行分析和预测有着非常重大的理论意义和实际意义。本文主要探讨利用数据挖掘中的决策树技术对股票交易数据进行分析、挖掘的方法,生成一套关于股票价格走势的分类规则,投资者可以根据这一规则去分析和预测股票价格走势,减小投资风险。主要工作包括:首先针对股票交易数据特点提出了相应的数据挖掘模型;然后对数据进行预处理、构造分析指标

3、作为测试属性;再利用决策树分类I D 3 算法并适当调整后对数据样本集进行测试分析,生成决策树,形成分类规则,并对其结果进行了检验。通过对股票实际交易数据的运行结果表明:在股票交易数据挖掘模型中使用决策树分类算法对股票进行分析预测是可行的,有效的;最后根据上述挖掘模型和分类规则开发了一套实际的股票分析预测系统,可以对股票交易数据做实时分析预测,为投资者决策提供支持,在采用数据挖掘技术对具有复杂不确定性特点的海量股票信息进行分析和预测上做了一次有意义的尝试。关键词:数据挖掘;决策树;分类规则;交易数据数据挖掘在股票分析预测中的应用T h eA p p l i c a t i o no fD a

4、t aM i n i n gi nS t o c kA n a l y z i n ga n dP r e d i c t i n gA b s t r a c tN o w a d a y s,t h ed e v e l o p m e n to fd a t ac o l l e c t i o na n ds t o r a g et e c h n o l o g ym a k e st h ed a t ai nm a n yd a t a b a s e sv e r yl a r g e,S Oi ti sm o r ea n dm o r ed i f f i c u l t

5、t og e tt h ev a l u a b l ei n f o r m a t i o na n dk n o w l e d g ef r o mt h e s ed a t a,h o w e v e r,t h er e q u i r e m e n to fg e t t i n gt h i si n f o r m a t i o ni sg r o w i n g T h es t u d yp u r p o s eo fd a t am i n i n gi st of i n dt h er e g u l a ri n f o r m a t i o n,w h

6、 i c hi sh i d e di nl a r g ed a t as e ta n dp e o p l ea r ei n t e r e s t e di n D a t am i n i n gi sap r o c e s so ff i n d i n gk n o w l e d g e,e x t r a c t i n gi n f o r m a t i o n,a n dt h e s ek n o w l e d g ea n di n f o r m a t i o nC a nb eu s e df o rp r e d i c t i n ga n dd e

7、 c i s i o n-m a k i n g S t o c km a r k e tp l a y sa ne s s e n t i a lr o l ei ne c o n o m y,e f f e c t i v es t o c kf o r e c a s ti so fg r e a ti m p o r t a n c ei nf i n a n c i a li n v e s t m e n tf i e l d,h o w e v e r,s t o c km a r k e ti si n f l u e n c e db yv a r i o u sc o m

8、p l i c a t e df a c t o r sl i k ep o l i c y,e c o n o m ya n di n v e s t o r s m e n t a l i t ye t c,S Oi ti sav e r yc o m p l i c a t e ds y s t e mw i t hc o m p l e x i t ya n du n c e r t a i n t ya n di ti sv e r yh a r dt ob u i l dam o d e l M o r e o v e r,t h er e g u l a ri n f o r m

9、 a t i o ni sa l w a y sh i d e di nt h o s em a s s i v ea n dd i s o r d e r e ds t o c kd a t a,d a t am i n i n gp r o v i d e sav e r yi m p o r t a n tm e t h o df o rg e t t i n gt h o s eh i d d e na n dv a l u a b l ei n f o r m a t i o nf r o mt h em a s s i v ed a t a H e n c e,s t o c ka

10、 n a l y z i n ga n dp r e d i c t i n gh a se x t r a o r d i n a r yt h e o r e t i cs i g n i f i c a n c ea n dp r a c t i c a lv a l u eb yu s i n gd a t am i n i n g T h i st h e s i sm a i n l yd i s c u s s e sh o wt oa n a l y z ea n df o r e c a s tt h es t o c kb yu s i n gd e c i s i o n

11、t r e et e c h n o l o g y,a n das e to fc l a s s i f i c a t i o nr u l e sf o rs t o c kd a t aa n a l y z i n ga n dp r e d i c t i n gi sg o t t e n T h es t o c ki n v e s t o r sC a np r e d i c tt h es t o c kp r i c eb a s e do nt h er u l e st or e d u c et h ei n v e s t m e n tr i s k T

12、h em a i nw o r ki sa sf o l l o w s:F i r s t,ad a t am i n i n gm o d e lh a sb e e nc o n s t r u c t e db yc o n s i d e r i n gt h ec h a r a c t e r i s t i c so ft h es t o c kd e a l i n gd a t a S e c o n d,t h es t o c kd e a l i n gd a t aa r ep r e t r e a t e da n ds o m ea n a l y s i

13、si n d i c e sh a v eb e e ns t r u c t u r e d T h i r d,t h es t o c kd e a l i n gd a t aa r em i n e db yu s i n gt h eI D 3a l g o r i t h m,w h i c hi sa d j u s t e dt om e e tt h en e e d so ft h i st y p eo fp r o b l e m,ad e c i s i o nt r e ec l a s s i f i e ri sg e n e r a t e da n das

14、 e to fc l a s s i f i c a t i o nr u l e sh a sb e e ng o t t e nf r o mt h ed e c i s i o nt r e e,t h e nt h er e s u l t sa r et e s t e d,t h et e s t i n gr e s u l ts h o w st h a tt h i sm e t h o di sf e a s i b l ea n dv a l i d F i n a l l y,as t o c ka n a l y z i n ga n dp r e d i c t i

15、 n gs y s t e mh a sb e e nd e v e l o p e da c c o r d i n gt ot h ea b o v es t o c kd e a l i n gd a t am i n i n gm o d e la n dc l a s s i f i c a t i o nr u l e s,t h i ss y s t e mC a na n a l y z ea n dp r e d i c tt h es t o c kd e a l i n gd a t ai nr e a lt i m e,a n dg e n e r a t es o m

16、 eh e l p f u li n v e s t m e n ti n f o r m a t i o n K e yW o r d s:D a t am i n i n g;D e c i s i o nt r e e;C l a s s i f i c a t i o nr u l e s;D e a l i n gd a t aI I 人连理T 大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以

17、将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编本学位论文。学位论文题目:主鱼!垦丝丝蕉堂!:鱼互亟垒山扛亟堑塑作者签名:堑:垒生基日期:兰竺壁年匕月j 坌日导师签名:_ j 劬矿日期:阜扛年月尘日大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。学位论文题目:型耍羔篮捏歪丛

18、堡垒盈5 塞垡 塑丝趔作者签名:鬟鹚答日期:咀年厶月上日人连理工人学硕士学位论文1绪论1 1问题的提出及研究意义股票市场是一个具有大量相互作用因素的复杂系统,它受政治形式、金融政策、公司状况和重大消息等多方面因素的影响。股票价格一般要受一国货币、财政政策,物价、利率及汇率,上市公司重大事项,国际经济环境,投资者心理等信息的作用,其内部规律非常复杂,变化周期无序,更使行情的走势变化莫测,难以把握,要理解和掌握这样的一个复杂的动态系统,是当前科学面临的一个挑战。股票是市场经济的产物,股票的发行与交易促进了市场经济的发展。股票自1 7 7 3年在英国率先发行,至今已有2 0 0 多年的历史,我国的起

19、步较晚,在改革开放与现代化建设中发展起来,于1 9 8 5 年发行第一支股票,但近年来股市规模不断扩大,功能不断增加,在国民经济中的地位和作用同益提高,已经成为社会主义市场经济的重要组成部分,显示出强大的生命力,由于股市行情受经济、政治、社会文化等因素的作用,其内部规律非常复杂,变化周期无序,同时我国资本市场投资者结构特殊,个人投资者的比例非常高,投资者个人心理状态各不相同,正是这些不同的心里状态,对股票交易的行为产生了直接的影响,从而导致股价波动。所有这些都给股市分析预测提出了新的课题,早期发展的技术分析理论是股票预测的最初代表,如道氏理论、平均线理论,K 线图分析法、柱状图分析法、点数图分

20、析法、等【l】,随着计算机技术在证券分析领域的普及与应用,发展了众多的技术指标及分析方法,约有一千种之多,如果再加上改进的指标,技术指标称得上不计其数,但严格讲这些方法仅仅是分析手段,还不能直接预测股市的动态。此外,人们也试图用回归分析等统计手段建立模型来预测股市。然而,利用传统的预测技术进行股市预测有一个最根本的困难,那就是待处理的数据量非常巨大,因为股市的行情受到政治、经济等多方面因素的影响,其内部规律非常复杂,某些变化规律的周期可能是一年甚至是几年,因此需要通过对大量数据的分析才能得到,而使用传统的预测技术所预测的效果并不理想。随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大

21、,从而积累了海量的、以不同形式存储的数据资料。在这些海量数据中往往隐含着各种各样的信息,这些信息人们往往凭直觉与经验是难以发现的。如何从大量的数据中获得有价值的信息,单凭传统的数据库技术已不能满足这种需求了,数据的迅速增加与数据分析处理方法滞后的矛盾越来越大,人们面临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚的数据海洋如何有效地利用这些数据,希望能够在对已有的大量数据分析的基础数据挖掘在股票分析预测中的应用上进行科学研究、商业决策或企业管理,从而达到为决策服务的目的。数据挖掘就是为了满足这种需求而迅速发展起来的一种新的数据处理技术,它是一个利用各种分析工具在海量数据中发现模型和数据间

22、关系的过程,这些模型和关系可以用来预测和决策。它也就是一种发现知识的应用,是一个提取有用信息的过程。自2 0 世纪末提出以来,数据挖掘技术引起了许多专家学者的广泛关注,并应用到金融、零售业、工业过程、电力、医疗保健和政府决策等各个领域,取得了良好的社会效益和经济效益,具有广泛的开发和应用前景,并显示出强大的生命力,使数据处理技术进入了一个更高级的阶段。自上世纪9 0 年代以来,计算机技术、尤其是数据库技术在股票市场中得到充分应用,股票数据规模越来越,有关股票价格运行规律性的东西常常蕴涵于那些看似杂乱无章的股票数据中。如前所述,要从这些海量数据中获得隐含其中的有价值的信息,传统的股票分析预测方法

23、无法满足这种需求,而数据挖掘技术正是为了满足这种需求而迅速发展起来的一种新的数据处理技术。在这种情况下,引入代表数据库和人工智能最新技术的数据挖掘技术进行股票分析与预测成为一个必然的选择。基于上述理由,本课题选择数据挖掘技术在股票分析预测中的应用为研究对象,在对数据挖掘技术相关理论及股票交易数据的特点进行具体分析的基础上,对将数据挖掘技术应用于股票分析预测的适用性进行了探讨,提出了股票交易数据挖掘模型,并且利用决策树分类算法中的I D 3 算法并适当调整以对股票交易数据样本集进行测试分析,由此生成决策树作为分类器并对其结果进行了检验,最后根据决策树分类规则开发出一套股票分析预测系统,具有一定的

24、理论意义和应用前景。1 2 国内外研究综述1 2 1数据挖掘应用于股票分析预测的研究综述数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。它是人们长期对数据库技术进行研究和开发的结果。起初各种数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递(对于公丌信息与非公开信息是相同的)。因为支持这种技术的三种基础技术(海量数据搜集,强大的多处理器计算机,

25、数据挖掘算法)已经发展成熟,现在数据挖掘技术已经具备切实的可行性。大连理工大学硕十学位论文1 9 9 1 年,数据挖掘的出现为股票投资分析研究提供了一种新的方式和思路。国内外许多学者纷纷采用数据挖掘技术,对原始的股票数据进行处理,挖掘蕴含在交易数据背后,反应股市变化的潜在规则,以实现对股票市场未来变化趋势进行分析并期望达到指导股票投资者进行理性投资的目的。在国内,香港科技大学的B e a tW u t h r i c h 开发了基于因特网的股票预测系统,这个系统根据金融网站(w w w t f c o m)提供的实时数据,通过基于规则的方法,预测恒生等指数的升斛2 1。国内其他很多著名的学者在

26、股票预测方面作过大量的工作【3 巧j。国际方面,M o r g a n、S t a n n l o g 等人已经开发了A I(A u t o m a t e dI n v e s t o r)系统。该系统通过采用聚类、可视化和预测技术来寻求最佳投资时机【6】。D a l w aS e c u r i t i e s 利用M a t l a b强大的模拟仿真能力建立了一个有价证券管理系统【_ 7 1,旨在分析大量的证券数据。G o l a n R 和Z i a r k o w W 应用R o u g hS e t(粗糙集理论方法)分析了十年间股票的历史数据,研究股票价格和经济指数之间的依赖关系,

27、且所获得的预测规则得到了华尔街证券交易专家的认可(8 9】。L o e kH e e dM a r t i n 公司的人工智能中心开发的R e c o n 系统,利用数据库对数据集合进行离散化、归一化,然后通过专家系统和先验知识获得初始规则,并自动分析、搜索数据库对规则进行调整(加入新规则,合并冗余规则),这个系统可用来辅助预测某种股票的趋势或判断是否可能出现异常变化等【l0 1。因此,对于股票方面的预测,前辈们已经作了很多有价值的工作。给我们提供了很好的借鉴和学习的方面。但是股票市场的复杂性及其不可预测性,注定了股票市场还有很多新的规则等待我们去提取和挖掘。1 2 2 股票分析预测研究综述影

28、响股票市场价格变化的根本原因和直接原因都是买卖关系的变化,也就是供求关系的变化。不同的业内人士有不同的见解。分析方法主要有基本面分析和技术指标分析两种。基本面分析注重发行公司的经营特征、经营状况、财务状况、在同行业中的竞争状况以及红利红股的派发、管理层的决策、销售环节等,还考虑整个市场的政策等因素以及受周边国家股市波动的影响。技术指标分析方法以k 线形态为分析对象,配合技术指标对价格、成交量、换手率、委比、量比等参照技术指标进行量化分析、统计处理。来预测股票价格将来的走势,以求提高投资与收益的投入产出比。因而针对股票市场表现的不同特点,人们又提出了多种多样的分析方法。常用的分析和预测方法有证券

29、投资分析法,也是市场分析人士和证券业内人士所用的最多的方法;时间序列分析法,这种方法主要是通过建立股价与综合指数之间的时间序列相应辨识模型,如自回归移动平均模型(A R M A)、齐次非平稳模型(A R I M A)等来预测未来变化;数据挖掘在股票分析预测中的应用其它预测方法,如专家评估法和市场调查等定性法、季节变动法、马尔可夫法和判别分析法;神经网络预测法,神经网络是一种最新的时间序列分析法。R e f e n e s 等人将神经网络预测方法和多重线性回归方法在股票市场预测中的应用进行了比较和研究。指出神经网络的平滑内插特性,使其能较好的拟合数据,并且能更好的泛化,其预测精度比传统预测方法有

30、较大的提高。D u t t a 和M a r q u e z 等人曾将神经网络与线性回归这两种方法做过比较,其结论是神经网络能得到与线性回归相近或更好的结果【l o】。1 3 本文的结构安排全文共分五章:一,绪论,主要引入了课题研究的背景及其意义,同时简单介绍了国内外研究发展动态、文章的章节安排以及创新点。二,股票市场与数据挖掘技术概述,对股票市场及数据挖掘技术做了概述,简单介绍了股票市场特点、股市分析预测方法、数据挖掘技术的概念、主要技术、挖掘过程,以及探讨了数据挖掘技术应用于股票分析预测的适用性问题。三,数据挖掘技术在股票分析预测中的应用分析,首先介绍交易过程及交易数据的特点,然后建立了基

31、于股票交易数据的挖掘模型,然后详细探讨了决策树分类算法在股市分析预测中的应用,剖析了判定树分类算法的主要思想,对交易数据进行预处理并构造有代表性的指标,利用决策树分类算法中的I D 3 算法并适当调整后对股票交易数据样本集进行测试分析,由此生成决策树作为分类器并对其结果进行了检验,形成分类规则。四,基于数据挖掘技术的股票分析预测系统的分析和设计,主要介绍了股票分析预测系统的分析与开发情况,在对系统的需求分析、框架结构及模块设计进行深入探讨的基础上,完成了各模块代码的编写与调试。五,系统的实现与测试,介绍了系统的运行情况与测试过程和结果。最后是结论,总结了全文并对后续研究进行了展望。1。4 本文

32、的主要工作本课题在借鉴国内外最新成果的基础上,对数据挖掘技术在股票分析预测中的应用这一问题进行了比较深入的应用研究,主要的工作有:第一,从市场有效性,股市特点,股票数据特征方面对数据挖掘技术应用于股票分析预测的适用性进行了探讨。大连理工大学硕士学位论文第二,根据股票数据特点提出了相应的股票数据挖掘模型,然后采用实验验证的方法将决策树分类算法应用于股票交易数据的分析预测中,通过对样本数据进行决策树分类并对结果进行检验,得出了可以用来直接预测股票价格走势的分类规则,并将这一规则应用到了股票分析预测系统的开发当中。第三,通过编程获取到“数畅”信息服务平台的股票交易实时数据,实现对了对股票交易数据进行

33、实时分析,获得最新交易数据后即刻对其进行分析处理,并将处理结果及时反馈给用户,实时提示买卖信号并及时发送到文本以供投资者做及时分析和决策。极大地提高了股票分析预测的时效性。数据挖掘在股票分析预测中的应用2股票市场与数据挖掘技术概述2 1 股票市场概述股票是股份公司为筹集资金而发行给股东作为持股凭证并借以取得股息和红利的一种有价证券。它代表股东对企业拥有的所有权。这种所有权是一种综合权利,如参加股东大会、投票表决、参与公司的重大决策、收取股息或分享红利等。股票作为对股份公司拥有所有权的法律凭证,它证明其持有者对公司的投资行为,从而获得了公司股东的资格,享有规定的权利。每个股东所拥有的公司所有权份

34、额的大小,取决于其持有的股票数量占公司总股本的比重。同时,股票是股份公司资本的构成部分,可以转让、买卖或作价抵押,是资金市场的主要长期信用工具,但不能要求公司返还其出资。股东是公司的所有者,以其出资分额为限对公司负有限责任,承担风险,分享收益。股票最初是一种有形的记名凭证。在股票上印有股份公司的名称、批准文号、发行日期、股票类型、面值、发行数量、编号以及公司章程等事项,并记载股东姓名、地址和转让记录股份公司也备有股东登记名册。股票转让时,持有者须在股票上背书,同时,必须更改股份公司的股东名册。随着计算机技术的发展,大多数国家发行股票实现了无纸化作业。不过,股票形式的进步并没有改变股票的性质。股

35、票市场足股票发行和流通的场所,也可以说是指对己发行的股票进行买卖和转让的场所。股票的交易都是通过股票市场来实现的。一般地,股票市场可以分为股票发行市场和股票交易市场。在市场经济社会中,上市公司通过股票市场发行股票可以将资本从投资者手中流入上市公司,从而为公司筹集资本,这对促进经济发展有着极为重要的意义。此外,有了股票市场,股民就可以随时将持有的股票在股市上转让,按比较公平与合理的价格将股票兑现,从而消除了人们对购买股票的后顾之忧,使股票的发行得以延续。股票市场是市场经济的必然产物,它的变化与整个市场经济的发展是密切相关的,股票市场在市场经济中始终发挥着经济状况晴雨表的作用。通过股票的发行,大量

36、的资金流入到发行股票的企业,促进了资本的集中,提高了企业资本的有机构成,大大加快了商品经济的发展。另一方面,通过股票的流通,使小额的资金汇集了起来,又加快了资本的集中与积累。股市在筹集建设资金时,速度最快,能力最强,成本最低,最符合市场的经济规律,因此它的发展速度也最快。6大连理T 大学硕士学位论文中国股市经历了从最初的试办,到后来的逐步发展,到现在己成为筹集国家重点建设资金的一个重要手段。1 9 8 4 年1 1 月1 8 日,中国第一个公开发行的股票飞乐音响向社会发行l 力股,在海外引起比国内更大的反响,被誉为中国改革开放的一个信号。1 9 9 0 年1 1 月2 6 日,经国务院授权,由

37、中国人民银行批准建立的上海证券交易所正式成立,这是建国以来内地的第一家证券交易所。1 9 9 1 年7 月3 日,深圳证券交易所也宣告成立,标志着我国股票交易市场己全面建成,并开始向规范化方向发展。不可否认,股票市场的发展为中国的经济体制改革注入了巨大的活力,并且成为中国经济高速成长的重要动力源泉;它的迅速发展摧毁了传统经济体制的根基,为新经济体制的建立与成长创造了条件。股市在现代市场经济中具有不可忽视、不能轻视和无法代替的地位和作用,特别是我们这样一个处于体制转轨时期的国家与经济来说,更是如此。没有好的股市就不可能有好的银行,没有好的银行就不可能有好的金融,没有好的金融就不可能有好的经济。目

38、前,股票投资已成为众多家庭及个人理财的一种重要方式,中国股民人数也达到了空前规模。据中国证券登记结算公司统计数据显示,截至2 0 0 8 年8 月底,沪深两市共有A 股账户11,7 9 8 8 0 万户,B 股账户2 3 8 8 3 万户。对于股票投资的把握,决定一个家庭的财产收入。然而,股票市场具有高风险与高收益并存的特性,股票价格的涨跌及变化趋势一直受政府、投资大众的普遍关注。因此,股票价格的分析预测已经成为证券界和学术界的一个重要的研究课题。传统的股票分析预测方法包括基本分析法和技术分析法。基本分析法是根据经济学、金融学、财务管理学及投资学等基本原理,对决定证券价值及价格的基本要素如宏观

39、经济指标、经济政策走势、行业发展状况、产品市场状况、公司销售和财务状况等进行分析,评估证券的投资价值,判断证券的合理价位提出相应的投资建议的一种分析方法。基本分析的内容主要包括宏观经济分析、行业分析与区域分析以及公司分析三大内容。宏观经济分析主要探讨各项经济指标和经济政策对证券价格的影响。行业分析与区域分析是介于经济分析与公司分析之间的中观层次分析。公司分析是基本分析的重点,侧重对公司的竞争能力、盈利能力、经营管理能力、发展潜力、财务状况、经营业绩以及潜在风险等进行分析,借此评估和预测证券的投资价值、价格及其未来变化的趋势。技术分析法是从证券的市场行为来分析证券价格未来变化趋势的方法,通过研究

40、股票过去及现在价格、成交量的变化以及完成这些变化所经历的时间等市场行为的表现形式,透过图表或技术指标的记录来推测未来价格的变动趋势。技术分析理论的内容就是市场行为理论的内容。粗略地进行划分,可以将技术分析理论分为以下几类:K 线理论、切线理论、形态理论、技术指标理论、波浪理论和循环周期理论。数据挖掘在股票分析预测中的应用基本分析法着重于对一般经济情况以及各个公司的经营管理状况、行业动态等因素进行分析,以此来研究股票的价值,衡量股价的高低。而技术分析主要是预测短期内股价的趋势,是透过图表或技术指标的记录,研究市场过去及现在的行为反应来推测未来价格的变动趋势。技术分析只关心证券市场本身的变化,而不

41、考虑可能对其产生的某种影响,例如来自经济、政治方面等外部因素。技术分析法和基本分析法都认为股价是由供求关系所决定。基本分析主要是根据对影响供需关系的种种因素来分析和预测股价走势,而技术分析则是根据股价本身的变化来预测股价走势。随着信息技术及数据处理技术的迅猛发展,股票数据规模正在不断扩大。要从这些海量数据中获得隐含其中的有价值的信息,传统的股票分析预测方法是无能为力的。而数据挖掘技术正是为了满足这种需求而迅速发展起来的一种新的数据处理技术。在这种情况下,引入代表数据库和人工智能最新技术的数据挖掘技术进行股票分析与预测成为一个必然的选择。2 2 数据挖掘技术概述随着计算机与信息技术的飞速发展,数

42、据获取和存储技术得到大幅度了的提升,人类生活的各个领域都随之产生了大量的大型数据库。例如超级市场的交易数据、信用卡的使用记录、通信行业的通话记录、股票市场的交易数据等。人们面临着快速扩张的数据海洋,如何处理这些海量数据,如何从这些存储了海量数据的数据库中提取出对我们有用的信息,已经成为广大信息技术工作者所关注的焦点之一。与同趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自二十世纪8 0 年代开始,数据挖掘技术针对这种需求应运而生。2 2 1 数据挖掘定义数据

43、挖掘的发展历史虽然较短,但从2 0 世纪9 0 年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个严格的定义,人们提出了许多数据挖掘的定义,如S A S 研究所于1 9 9 7 年提出“数据挖掘是在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”;B h a v a n i 于1 9 9 9 年提出数据挖掘的定义:数据挖掘是使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程【l l】;H a n de t a l 于2 0 0 0 年指出:“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程【1 2】。还有的学者将数据挖掘定义为

44、:数据挖掘是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程。这些信息的表现形式为:规则、概念、大连理T 大学硕士学位论文规律及模式等,可帮助决策者分析历史数据及当前数据,从中发现隐藏的关系和模式,进而预测未来可能发生的行为。在综合现有研究成果的基础上,本文对数据挖掘进行如下的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这里所说的知识并不是指崭新的科学定理和数学公式,更不需要什么定理来证明。数据挖掘要解决的问题就是在庞大的数据中寻找有价值的隐藏信息,加以分析,并将这些有意义的信息归

45、纳成结构模式,提供给有关部门在进行决策时参考。实际上,数据挖掘所有发现的知识都是相对的,是有特定的前提和约束条件,并面向特定的领域。数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用己有的数据对未来的活动进行预测。数据挖掘作为一门新的学科,是基于多个充分发展的学科之上而形成的,一般认为统计学、数据库技术、机器学习、信息科学、模式识别、可视化技术乃至经济学都是数据挖掘的基础。如下图2 1 所示。臣亘丑叵I 机器学习数据挖掘I可视化l数据库其他科学图2

46、 1数据挖掘与其他学科的关系F i g 2 1R e l a t i o n s h i pb e t w e e nD a t aM i n i n ga n do t h e rs u b j e c t s但是总的来说,数据挖掘主要由统计学、数据库技术、机器学习发展而来。数据挖掘技术研究和探索的内容也是极其丰富和具有挑战的,目前主要集中在以下几个方面:数据挖掘技术与特定商业逻辑的平滑集成问题;数据挖掘技术与特定数据存储类型的适数据挖掘在股票分析预测中的应用应问题;大型数据的选择与规格化问题;数据挖掘系统的构架与交互式挖掘技术,数据挖掘语言与系统的可视化问题;数据挖掘理论与算法研究。2 2

47、 2 数据挖掘的主要功能从数据挖掘的定义可以看出,数据挖掘主要用于获得决策所需的多种知识,数据挖掘的功能主要有以下几点:(1)数据总结,数据总结的目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。传统的也是最简单的数据总结方法主要是利用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。利用在线分析处理(o L A P)技术实现数据的多维查询也是一种广泛使用的数据总结的方法。(2)分

48、类,分类要解决的问题是为一个事件或对象归类。在使用上,既可以用模型分析已有的数据,也可以用它来预测未来的数据。分类的目的是构造一个分类函数或分类模型(也称作分类器),该模型能把数据库中的数据项映射到给定的某一个类别中。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往下走,走到树叶就能确定类别。(3)关联分析,数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系分为简单关联、时序关联和因果关联三种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函

49、数,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。(4)聚类,聚类是把一组物理或者抽象对象按照相似性归为若干类,也称为“无指导分类”。其目的是使得同一类别中对象间的距离尽可能的小,而不同类别中对象间的距离尽可能的大。数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之问的距离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。(5)预测,预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回

50、归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时问的状态1 1 3】。1 0 大连理工人学硕十学位论文2 2 3 数据挖掘的一般过程数据挖掘是一个完整的过程,该过程需要从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或提炼出知识。数据挖掘的一般过程如图2 2所示,它不是一个简单的线性过程,包括很多的反馈回路在内,其中的每一个步骤都有可能回到前面的一个或者几个步骤往复执行。数据挖掘的一般过程可粗略地分为:问题定义、数据准备、执行数据挖掘算法以及结果的解释和评估4 个步骤。选择和预处理清洗嚼数据挖掘凸V知识原数据目标数据预处理后数据发现规则知识图2 2 数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com