财经新闻话题检测研究.docx

上传人:安*** 文档编号:17889258 上传时间:2022-05-26 格式:DOCX 页数:8 大小:19.58KB
返回 下载 相关 举报
财经新闻话题检测研究.docx_第1页
第1页 / 共8页
财经新闻话题检测研究.docx_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《财经新闻话题检测研究.docx》由会员分享,可在线阅读,更多相关《财经新闻话题检测研究.docx(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、财经新闻话题检测研究互联网媒体的高速发展极大地扩大了财经类新闻的受众面,并因而使得证券市场与财经类新闻的关系变得越来越严密。Mitchell与Mulherin研究发现1,股票市场的股票收益及交易量和道琼斯天天的公告数量直接相关。Fang与Peress的研究表明2遭到高度报道的股票收益率比那些很少被媒体关注的上市公司的收益率低。由此可知,股票的走势较易遭到财经类新闻的影响。因而,为了让投资者在短期内及时获取投资热门,本文提出了基于财经新闻的话题检测研究。传统的话题检测3研究主要有下面几个方向。首先是基于关键词的话题检测,即便用TF-IDF算法或基于TF-IDF算法的改良算法,文献4提出基于VSM

2、改良的DF算法和TF-IDF算法计算文本类似度;文献5在传统的TF-IDF基础上提出TF-IDF-KE算法来解决突发式热门话题在聚类时特征不明显的问题。但是传统的基于关键词的话题检测存在二义性问题,为了解决这个问题,人们提出了语义模型67。最常见的语义模型是LDA模型8,文献9提出使用LDA话题模型检测科技文献话题,并计算冷门或热门话题的影响力,提出趋势分析。文献10提出LDA-K-Means算法实现话题检测,且在网络食品安全问题中验证话题检测的结果;最后是融合关键词和语义模型所做的改良,文献11提出计算融合TF-IDF关键词和LDA主题模型的类似度并基于k-means算法聚类获得话题簇;文献

3、12提出多特征融合TF-IDF关键词,LDA语义模型以及新闻命名实体的类似度并基于Single-Pass算法聚类获取话题簇。上述研究均针对普通新闻,鉴于财经新闻较普通新闻的实时性要求高,且有极强的领域属性。而目前各大金融网站,例如新浪财经,和讯网,东方财富网等,大多针对个股新闻进行检测并分类,基于话题检测实现财经新闻分类的网站却较少。因而,短期内怎样从海量非构造化财经新闻中有效地检测热门投资话题,成为本文研究的要点。文章考虑结合财经新闻的特点,从多个角度提取新闻特征,构建财经新闻话题检测模型。另外,针对新闻报道具有突发性和集中性的特点,为了避免将不同生命周期的新闻聚为一类,通常的做法是使用时间

4、窗来切分新闻流。例如,文献13首先对新闻按时间窗划分,对同一个时间窗内的文档使用HAC算法聚类生成候选话题集合,提出SinglePass-KNN算法进行新话题的聚类;文献14提出在每个时间窗口内根据新闻的特点选取出最有可能议论新闻事件的微博客文本,使用混合聚类算法聚类获得新闻话题;文献15以每个时间窗口上话题的变化情况研究话题内容的演化,并使用ILDA模型根据文本到达时间增量建模。针对以上研究,文章根据财经新闻的特点,基于时间窗切分新闻流,进而提出多特征融合的财经新闻话题检测模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。2财经新闻

5、话题检测模型的构建财经类新闻的报道成为影响股票走势的重要因素之一,为了让投资者在短期内及时获取投资热门,本文提出并构建多特征融合的财经新闻话题检测模型,该模型有下面几个特点:1为了防止聚类时,将不同生命周期的财经新闻聚为一类,构建切分新闻流的时间窗。2根据财经新闻实时性要求高,领域属性强的特点,从多个不同的角度提取文本特征并构建特征向量模型。3鉴于传统凝聚层次聚类算法的时间复杂度高,聚类时耗时长的问题,提出近期邻-凝聚层次聚类算法。3话题检测模型的类似度计算3.1基于时间窗切分的新闻流对于财经新闻来讲,通常在一个事件发生之后的一到两天内,各大媒体会争相报道该新闻事件,相关的新闻报道将呈爆发式增

6、长。但是,随着时间的推移,关于该事件的报道会逐步减少并最后消失。也就是对某个热门股票话题来讲,它是有生命周期的。生命周期的开场是第一篇被断定为该话题的新闻,期间会有相关事件的报道,但是最终将以某个新闻事件的发生来宣告该话题的结束。文献16提出使用时间老化理论为新闻事件建立生命周期模型,该模型包括新闻话题的出生,成长,衰退以及死亡。文献17提出热门话题的生命周期将经过发酵,活跃和消亡的经过,并统计了2017年热门话题的发酵期,活跃期。3.2多特征融合文本类似度计算对于每篇财经新闻文本,本文将建立3.2.1-3.2.4节中的四种模型并分别计算新闻文本间的类似度。其中,常见的类似度计算方式有:欧氏距

7、离,余弦距离,曼哈顿距离等。在文本聚类中,使用余弦公式来衡量文本类似度较为常见,因而本文计算文本间的余弦值。4话题检测中的文本聚类文本聚类算法的选择对于话题簇的生成至关重要。常见的文本聚类算法19,例如k-means算法在聚类前需指定K的值,即话题簇的数目。由于本文中话题簇的数目未知,因而,文章选择凝聚层次聚类算法HAC(HierarchicalAgglomerativeCluster)作为话题检测经过中的聚类算法。但是传统HAC算法的时间复杂度较高为2O(n),不合适处理大量文档,为了改良这个问题,本节提出融合了HAC算法和KNN算法的近期邻-凝聚层次聚类算法NNHAC(NearestNei

8、bour-HierarchicalAgglomerativeCluster)。4.1KNN分类算法的改良KNN算法的主要思想为:若一个样本在特征空间中K个最邻近的样本中的大多数都属于某一个类别,则该样本也属于这个类别。本文中,由于K的值难以确定,因而采用设置阈值的方式对原始的KNN算法进行改良,进而分类经过中便于控制结果簇的数目,加强分类的灵敏性。文章设定一个阈值S1,若某个样本在特征空间中和其他样本的类似度大于S1。4.2近期邻-凝聚层次聚类算法本文在凝聚层次聚类算法的基础上融合改良的KNN分类算法,提出近期邻-凝聚层次聚类算法NNHAC。该算法通过设置两个阈值,逐步缩小聚类范围,最终获得话

9、题簇,实现话题检测的任务。本文的实验数据来源于新浪财经,和讯网以及东方财富网,采用Webmagic爬虫工具进行爬取,所爬取的股票新闻从2017年1月-2017年9月,共34534条。采用中科院的NLPIR分词工具对新闻文本分词并构建停用词表去除停用词。为了避免特殊性,文章从沪深300指数中随机抽取10支股票用作研究对象。沪深300指数是反映沪深两个市场整体走势的“晴雨表。指数样本选自沪深两个证券市场,覆盖了大部分流通市值。成份股为市场中市场代表性好,流动性高,交易活跃的主流投资股票,能够反映市场主流投资的收益情况。5.1评价指标常见的聚类效果评价指标20主要有下面几种:F1-measure,R

10、and指数以及Jaccard指数等。本文选择F1-measure指标对聚类效果进行评价。F1-measure将信息检索中的准确率(precision)和召回率(recall)相结合对聚类结果进行评价。若一个类别的F值越高,则该类别的聚类结果就越好。5.2相关阈值确实定5.2.1LDA最优主题数T确实定由于本实验融合构建LDA语义模型计算类似度,因而需要确定隐含主题topic的数目T,T的取值直接影响到聚类的效果。本实验用HAC算法结合LDA主题模型计算类似度,最优主题数T值从5开场遍历到55,在每个T值下,分别设置凝聚层次聚类算法的阈值0-1(间隔为0.05),获取每个T值下使得F值最大的阈值

11、S2,记录该T值和阈值S2用于确定最佳的主题数目T以及类似度阈值S2。5.2.2最优多特征融合系数确实定由于本文从四个角度提取文本特征并建立模型,根据所建立的四种模型计算其类似度并多特征融合这四种类似度。5.2.3NNHAC算法阈值确实定为了确定文章第4节所提出的近期邻-凝聚层次聚类NNHAC算法的最佳阈值,根据5.2.1节中确定的阈值S2,在S2之下,分别取不同的S1的值(其中S1S2),S1的取值范围为(0.55,1),当阈值S1,S2分别为0.55,0.65时,F值到达最大值0.7449,即近期邻-凝聚层次聚类算法NNHAC的聚类效果到达最好。5.3实验结果分析5.3.1NNHAC算法和

12、HAC算法的比拟为了比拟传统凝聚层次聚类HAC算法和近期邻-凝聚层次聚类NNHAC算法的聚类准确度及耗时,本实验在一样数据集下聚类进而记录相应的F值和耗时。5.3.3各支股票聚类效果比拟为了不失一般性,将本文所提出的多特征融合的财经新闻话题检测模型应用,并分别计算每支股票的准确率,召回率以及F值,综合计算得到各支股票新闻的平均准确率为0.92,平均召回率为0.72,平均F值为0.79。由结果可知,各支股票新闻话题检测的聚类效果相近,因而本文所提出的话题检测模型具有普遍适用性。6结束语文章建立一种基于多特征融合的财经新闻话题检测模型。该模型先从时间窗角度切分新闻流,在每个切分后的新闻流中,不仅从多个角度提取文本特征,并结合所提出的近期邻-凝聚层次聚类算法进行聚类获得话题簇。实验结果表明,融合了多种特征的财经新闻话题检测模型在一定程度上提高了话题检测的准确度,并且本文改良的聚类算法有效降低了聚类的时间复杂度。因而,该模型能够进一步帮助投资者准确地发现短时间内热门股票新闻话题,及时捕捉投资热门,辅助投资决策。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 考试试题 > 升学试题

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com