《浅谈网站影响力.doc》由会员分享,可在线阅读,更多相关《浅谈网站影响力.doc(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流浅谈网站影响力.精品文档.浅谈网站影响力课 程: 数据仓库与数据挖掘 班 级: 信息管理与信息系统1101 学 号: 111104020、111104022 姓 名: 黄 伟、赖振志 指导老师: 孙 剑 斌 老 师 完成日期: 2014 - 6 - 4 目录一、 问题提出2二 、数据采集(来源)2三、统计方法3四统计分析过程31、输数据32、主成分分析43、主成分评价54、聚类分析8五、结论9一、 问题提出随着我国互联网的迅速发展,人们对信息使用的要求也在不断的提高。本文对2012年08月 “网站影响力榜”排行中的网站用户信息的分析与评价问题
2、进行探讨,运用定量与定性分析相结合的方法对网站影响力进行纵横研究,采用主成分分析和聚类分析等多元统计分析对重要变量进行综合分析。二 、数据采集(来源)由数据堂下载而来,由于名人堂中的用户基本经过认证,因此数据较为可信。故挑选了名人堂中在2012年08月间最有影响力的100家网站。影响力由活跃度、传播力和覆盖度三大指标构成,这三项指标各自又有着极为复杂、精密的科学算法。其中,活跃度代表每天主动发博、转发、评论的有效条数;传播力与微博被转发、被评论的有效条数和有效人数相关;覆盖度的高低则取决于微博的活跃粉丝数的多少。数据保存于Excel表WebsiteCloutList20120911_Users
3、.xls之中。三、统计方法主成分分析是设法将原来众多具有一定相关性,重新组合成一组新的互相无关的综合指标来代替原来的指标。聚类分析是根据事物本身的特性研究个体分类的方法。四统计分析过程运用SPSS软件的主成分分析法,对指标体系中各相应数据进行分析,得出6个指标的相关系数矩阵特征根,方差贡献率,累计特征根,累计方差贡献率。SPSS软件分析步骤:1、输数据将Excel表WebsiteCloutList20120911Users.xls中的数据导入到SPSS中,部分数据截图如下:2、 主成分分析1)选择方法:选择菜单分析-降维-因子分析.;2)确定变量:将变量粉丝数、关注数、微博数、收藏数、用户互粉
4、数放入变量框;3)确定统计量:在抽取窗口中选择方法为主成分,在得分窗口中选择保存为变量;4)得结果:按确定按钮执行,步骤和结果如下:解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %11.98239.64839.6481.98239.64839.64821.15923.18762.8351.15923.18762.83531.01120.22783.0621.01120.22783.0624.77115.41998.4815.0761.519100.000提取方法:主成份分析。 由于前三个主成分累计方差贡献率大于80%,说明这三个主成分已基本包含了全部指标具有
5、的信息,故取前三个主成分为综合指标。3、主成分评价以各主要成分的方差贡献率为权,得到综合评价指标函数F=39.648*FAC1_1+23.187* FAC2_1+20.227* FAC3_1这里FAC1_1、FAC2_1、FAC3_1分别为第一、二、三主成分的因子得分,选择菜单转换-计算变量计算综合得分F。公因子方差初始提取粉丝数1.000.683关注数1.000.941微博数1.000.679收藏数1.000.891用户的互粉数1.000.958提取方法:主成份分析。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %11.98239.64839.6481.9
6、8239.64839.64821.15923.18762.8351.15923.18762.83531.01120.22783.0621.01120.22783.0624.77115.41998.4815.0761.519100.000提取方法:主成份分析。成份矩阵a成份123粉丝数-.067.822-.054关注数.961-.063.121微博数.324.563-.507收藏数-.072.401.851用户的互粉数.972-.039.108提取方法 :主成份。a. 已提取了 3 个成份。由成份矩阵和各主成分的表达式可以看出,第一主成分对关注数、用户的互粉数的载荷系数较高,说明第一主成分是对关
7、注数、用户的互粉数的反映;第二主成分对粉丝数、微博数的载荷系数较高,说明第二主成分是对粉丝数、微博数的反映;第三主成分对收藏数的载荷系数较高,说明第三主成分是对收藏数的反映。运用上述各指标线性组合形成的综合指标函数,结合各用户的原始指标数据,可以测算出综合评价指标数值,然后可按综合评价指标数值对各用户进行综合排序。选择菜单转换个案排秩 对综合得分F进行排序,其结果见下表。用户昵称FAC1_1FAC2_1FAC3_1FRF揭露地球-0.177090.25998.48728170.681星座与心理1.192753.290151.38947151.682虎扑足球2.298423.11545-1.60
8、153130.973途牛旅游网2.43822-0.295310.0514890.864优秀网页设计2.69388-1.140050.5185490.865果壳网2.46634-0.36472-0.105287.26手机圈2.248720.11063-0.464982.327普特英语听力网2.30327-0.21664-0.2253481.748驴妈妈旅游网2.21482-0.509610.0944677.919佛教微博2.27285-0.912440.1177771.3410飞常准1.05593-0.661122.0759768.5311淘宝全球购1.65038-0.350050.363426
9、4.6712优酷网1.439660.234870.0271163.0713暴走漫画1.59545-0.06612-0.1524658.6414爱美网1.58524-0.00373-0.2352358.0115虎扑篮球0.933411.77847-1.0237757.5416爱物网-0.383712.957180.081125517猫扑0.177522.78846-0.9182153.1218土豆网0.997020.36643-0.0979146.0519TechWeb1.35698-0.31655-0.121564420同程网-0.07067-0.035662.243941.7621人人网1.
10、3957-0.66249-0.0509438.9522每天学点心理学0.628091.06554-0.5484738.5223韩国行1.26782-0.58286-0.0300436.1424影视音乐网0.156530.819020.5330135.9825美丽说-1.176833.384110.1668535.18264、聚类分析1)选择方法:选择菜单分析分类系统聚类.2)确定变量:将变量用户昵称放入标注个案框,将变量粉丝数、关注数、微博数、收藏数、用户互粉数放入变量框3)确定统计量:方法窗口中选择聚类方法:ward方法 ,区间:平方Eucidean距离4)得结果:按确定按钮执行,结果如下五、结论由以上主成分分析和聚类分析不难看出,影响网站影响力的因素之间关联度较低,各大网站对粉丝数、关注数、微博数、收藏数、用户互粉数所持的态度不尽相同。