BBS论文BBS热点话题发现与监控系统.doc

上传人:asd****56 文档编号:70338952 上传时间:2023-01-19 格式:DOC 页数:4 大小:25.50KB
返回 下载 相关 举报
BBS论文BBS热点话题发现与监控系统.doc_第1页
第1页 / 共4页
BBS论文BBS热点话题发现与监控系统.doc_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《BBS论文BBS热点话题发现与监控系统.doc》由会员分享,可在线阅读,更多相关《BBS论文BBS热点话题发现与监控系统.doc(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 BBS论文:BBS热点话题发现与监控系统【中文摘要】互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利

2、用传统网络爬虫的运行原理,并结合论坛的特征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single-Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果.【英文摘要】The rapid development of Internet is a helpful tool for popularizing BBS.

3、At present, BBS has become a popular communication tool. Through the BBS, user could lanch a new topic or reply to existing topics to express ideas of topics. To some extent, BBS is a mirror of real society. The real-time data on BBS can be collected which provides certain data base for the research

4、 of the BBS hot topic detection. In this paper, hot topic detection and monitoring function are based on real-time data of BBS.Based o.【关键词】BBS Web文本挖掘 爬虫 聚类 热点话题发现 话题监控【英文关键词】Web rawler BBS Web text mining clustering algorithms hot topic detection hot topic monitoring【目录】BBS热点话题发现与监控系统致谢5-6中文摘要6-7A

5、BSTRACT71 绪论11-161.1 研究背景和意义11-121.1.1 课题研究的背景11-121.1.2 课题研究的意义121.2 国内外研究现状12-131.3 论文的主要工作及组织结构13-162 相关技术介绍16-332.1 Web文本挖掘技术16-212.1.1 Web文本挖掘过程16-172.1.2 文本挖掘关键技术17-212.2 网络数据采集技术介绍21-282.2.1 网络爬虫技术21-252.2.2 页面信息抽取技术25-262.2.3 URL语法解析及分类算法26-282.3 热点话题发现技术28-312.3.1 话题检测与跟踪相关概念28-292.3.2 热点话题

6、发现相关算法29-312.4 系统开发工具介绍31-322.4.1 HtmlParse介绍312.4.2 正则表达式31-322.4.3 ICTCLAS汉语分词系统322.5 本章小结32-333 BBS热点话题发现与监控系统设计33-383.1 系统总体设计33-343.1.1 系统功能介绍333.1.2 系统总体设计33-343.2 系统模块划分34-373.2.1 信息采集模块34-353.2.2 数据预处理模块35-363.2.3 热点话题发现模块363.2.4 热点话题监控模块36-373.3 本章小结37-384 BBS数据采集及预处理的实现38-554.1 BBS数据爬取38-4

7、14.1.1 BBS逻辑结构分析38-394.1.2 BBS信息采集策略39-404.1.3 版面链接URL的识别40-414.1.4 重复链接的处理414.2 BBS信息预处理41-504.2.1 常见论坛帖子元素分析41-434.2.2 获取数据分类及数据库表的设计43-474.2.3 基于模板的网页信息抽取47-494.2.4 中文词法分析494.2.5 停用词的过滤49-504.3 实验结果及分析50-544.4 本章小结54-555 BBS热点话题发现与监控的实现55-695.1 热点话题发现55-645.1.1 BBS文本表示55-565.1.2 相似度计算56-575.1.3 基于Single-Pass改进算法的话题识别57-585.1.4 聚类结果实现及分析58-625.1.5 热度评估62-645.2 热点话题监控64-685.2.1 话题监控算法分析64-655.2.2 INN增量分类算法65-665.2.3 实验及结果分析66-685.3 本章小结68-696 结论与展望69-716.1 结论696.2 展望69-71参考文献71-73作者简历73-75学位论文数据集75

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com