跨象乘云大数据分析平台使用手册.docx

上传人:创****公 文档编号:2068709 上传时间:2019-11-22 格式:DOCX 页数:35 大小:3MB
返回 下载 相关 举报
跨象乘云大数据分析平台使用手册.docx_第1页
第1页 / 共35页
跨象乘云大数据分析平台使用手册.docx_第2页
第2页 / 共35页
点击查看更多>>
资源描述

《跨象乘云大数据分析平台使用手册.docx》由会员分享,可在线阅读,更多相关《跨象乘云大数据分析平台使用手册.docx(35页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 跨象乘云大数据分析平台使 用手册目录集群管理.2 数据管理.10 查看文件.11 上传文件.12 删除文件.13Hive 表管理.15 查看表.15 创建表.16 删除表.19 查询表.19HBase 表管理.21 查看表.21 创建表.22 删除表.23禁用表.23 添加数据.23 查询表.24 NBA 投篮分析.24集群管理集群管理1.登录服务器 IP:7180 端口,使用账户登录,即可看到如下界面此页面展示了所有已启动的服务以及集群的性能监控信息 2.点击顶部“主机”菜单,即可看到集群中所有的主机信息这里,我们可以看到所有的节点信息以及它上面所拥有的角色和它的状态等信息。 3.然后,我

2、们点击“Parcel”这里我们可以下载某些包,对我们的环境或某个服务进行升级。 4.点击状态下的 YARN 可以看到yarn 是 hadoop2.x 中引入的,在上面可以运行 MR 以及其他的服务。 5.YARN 的 web ui 提供了两个图形界面,首先,我们看下 jobHistoryUI,如下:这个就是 MR 默认的 job 运行记录6.再来看看 resourceManagerUI这个是 YARN 提供的 application 运行记录 7.在状态下点击 HBase 可以看到:我们可以在状态摘要看到,hbase 安装后拥有的服务。同时,也可以通过此图形化界面进行一些相关的配置。 8.接下

3、来我们看看 table statistic这里展示了 hbase 中表的统计信息。 9.然后,我们看看 hbase web ui,地址为服务器 IP:60010我们可以看到表的列族等信息。 10. 在状态下点击 HDFS 可以看到:我们可以看到 hdfs 的容量状况,读写的情况 11. 我们进入主节点 NameNode,可以浏览 hdfs 中的文件信息,地址为服务器 IP:5007012. 在状态下点击 Hive 可以看到:13. 在状态下点击 Impala 可以看到:impala 与 hive 的区别,一个是在内存中运算,用于实时查询,另一个是启动 MR 运算, 用于离线查询。进入 impa

4、la,可以看到:另外,我们可以点击查询,可以看到我们在 impala-shell 执行过的所有命令,如下:14. zookeeper,动物管理,起到协调作用。进入后,便可看到:数据管理数据管理登录服务器 IP:8888 端口,使用账户登录登录后如下图所示:查查看文件看文件点击左上角的图标,选择 Files即可打开大数据平台的文件系统上上传传文件文件点击右上角的 Upload 按钮这里可以选择文件和压缩文件 下面我们上次一个本地的文件到大数据平台在弹出的窗口中,点击 Select files 按钮,选择要上传的文件。如,我选择 E 盘下一个专利 4.pdf 的文件。双击即可上传删删除文件除文件点

5、击文件前的复选框,然后点击表格上方的 Move to trash 按钮,这里有两个删除选项,第一 项是删除文件到垃圾箱,然后在垃圾箱中可以恢复文件。第二个是永久删除文件。文件其他操作 选中某个文件后,点击表格上方的 Action 按钮,这里我们可以重命名文件,移动文件,复制 文件,下载文件,修改文件权限,文件的概要,设置文件的复制因子等。文件的概要修改文件权限修改文件的复制因子Hive 表管理表管理查查看表看表点击左上角的图标,选择 Tables点击 Tables 后即可看到系统中所有的表当前没有创建表,所以是空的。创创建表建表1.点击表列表的右上角的加号或者左侧菜单中的加号我们可以来添加一张

6、表 2.在这里我们可以基于个文件来创建表3.选择要创建表的数据文件这里我们以 Transactions.csv 文件来创建表,注意:该文件在该手册统计目录中,请自行 上传4.下面需要制定列的分隔符,该文件中的数据是以;分隔的。请填写;然后下面会显示出该文件中解析出来的数据。然后点击下方的 Next 按钮。 5.下面需要指定表名称,表文件的存储类型,表的列。保持默认即可6.点击 Submit 按钮提交 7.之后会在左侧显示表的名称,右侧显示表的详细信息删删除表除表在表信息的右上角有个删除图标可以删除该表查询查询表表1.点击页面上方的 Query 按钮,即可打开查询编辑页面2.在此编辑框内,我们可

7、以对左侧显示的数据表进行查询。 如我们查询 transactions 表的前 10 条数据注意:编辑编辑器右上角的数据器右上角的数据库库的的选择选择,一定要,一定要选择选择好数据好数据库库,否,否则查询则查询的表会找不到的表会找不到。 3.点中要执行的 SQL 语句,点击左下角的运行图标4.查询完成后,会在下方显示查询出的数据HBase 表管理表管理查查看表看表点击左上角的图标,选择 HBase即可查询系统中所有的 HBase 表因为尚未创建表,所以是空的。创创建表建表1.点击右上角的 New Table 来创建2.然后填写表名称,列族3.点击 Submit 提交删删除表除表点击表前方的复选框

8、,然后点击上方的 Drop 按钮即可删除表禁用表禁用表点击表前方的复选框,然后点击上方的 Disable 按钮即可禁用表添加数据添加数据1.点击表名称,可以进入表中,点击右下角 New Row 可以添加新的数据2.输入行键和列信息即可添加数据查询查询表表点击表名称可以查看该表中所有的数据在上方的输入框可以输入条件查询数据。如只查询主键为 0001 的数据NBA 投投篮篮分析分析数据集包括包括了 2014-15 赛季 NBA30 支球队 904 场常规赛 281 名球员将近 13 万的投篮 数据,数据包括比赛双方、主客场、胜负情况、投篮球员、防守球员、投篮距离、命中次数等 21 个变量。数据字段

9、: GAME_ID:比赛 ID MATCHUP:比赛时间及球队 LOCATION:主场(H)/客场(A) W:比赛结果,win/lose FINAL_MARGIN:最终得分差距 SHOT_NUMBER:投篮次数 PERIOD:第几节 GAME_CLOCK:小节比赛时间 SHOT_CLOCK:投篮时间(24 秒)DRIBBLES:运球次数 TOUCH_TIME:触球时间 SHOT_DIST:投篮距离 PTS_TYPE:得分类型,2 分或 3 分 SHOT_RESULT:投篮结果,made/missedCLOSEST_DEFENDER:最佳防守 CLOSEST_DEFENDER_PLAYER_ID

10、, CLOSE_DEF_DIST:防守人距离 FGM:投篮命中次数PTS:得分 points player_name:球员名字 player_id:球员编号1.把 shot_logs.txt 数据文件上传到 HDFS2.创建 hive 表 nbaLogs修改表名称和各列的名称3.点击 submit 提交4.查询每场比赛投篮的次数select count(game_id),game_id from nbaLogs group by game_id;5.查询每场比赛命中次数最多的球员 首先把每场比赛,每个球员命中的次数查询到一个中间表 sqlsavecreate table sqlsave as

11、select game_id,player_name,COUNT(shot_result) cnt from nbaLogs where shot_result=made group by game_id,player_name; 然后对中间表查询 sqlsave,得到最终结果select a.game_id,a.player_name,t from sqlsave a join(select game_id,MAX(cnt) cnt from sqlsave group by game_id) b on a.game_id=b.game_id and t=t;6.查询每场比赛投中 2 分球最

12、多的球员 首选把命中 2 分的记录查询出来到一个中间表 twoPointscreate table twoPoints as select game_id,player_name,COUNT(shot_result) cnt from nbaLogs where shot_result=made AND pts_type=2 group by game_id,player_name;再对中间表 twoPoints 查询,得到最终结果select a.game_id,a.player_name,t from twoPoints a JOIN (select game_id,MAX(cnt) ab

13、c from twoPoints GROUP BY game_id ) b where a.game_id=b.game_id AND t=b.abc;7.查询每场比赛投中 3 分球最多的球员 首选把命中 3 分的记录查询出来到一个中间表 threePointscreate table threePoints as select game_id,player_name,COUNT(shot_result) cnt from nbaLogs where shot_result=made AND pts_type=3 group by game_id,player_name;再对中间表 three

14、Points 查询,得到最终结果select a.game_id,a.player_name,t from threePoints a JOIN (select game_id,MAX(cnt) abc from threePoints GROUP BY game_id ) b where a.game_id=b.game_id AND t=b.abc;8.查询每场比赛防守成功率最高的球员 首先查询每场比赛防守队员的防守的次数create table totalblocks as select game_id,closest_defender,COUNT(shot_result) cnt fr

15、om nbaLogs group by game_id,closest_defender;把防守次数不大于 1 的数据过滤掉create table eliminate as select game_id,closest_defender,cnt from totalblocks where cnt1;计算防守成功的次数create table shotsblocked as select game_id,closest_defender,COUNT(shot_result) cnt from nbaLogs where shot_result=missed group by game_id,

16、closest_defender;计算防守成功率create table third as select a.game_id,a.closest_defender,(t/t)*100 cnt from eliminate a inner join shotsblocked b on a.game_id=b.game_id and a.closest_defender=b.closest_defender;获得防守成功率最高的数据select a.game_id,a.closest_defender,t from third a join (select game_id,MAX(cnt) cnt from third group by game_id) b on a.game_id=b.game_id and t=t;9.获取赛季得分最高的 top 10 获取赛季每个球员的得分create table seasonscore as select player_name,SUM(pts) cnt from nbaLogs group by player_name;计算 top 10select * from seasonscore order by cnt desc limit 10;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 事务文书

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com