大数据实验室数据挖掘平台建设方案.doc

上传人:阿宝 文档编号:4219589 上传时间:2021-06-10 格式:DOC 页数:7 大小:212.45KB
返回 下载 相关 举报
大数据实验室数据挖掘平台建设方案.doc_第1页
第1页 / 共7页
大数据实验室数据挖掘平台建设方案.doc_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《大数据实验室数据挖掘平台建设方案.doc》由会员分享,可在线阅读,更多相关《大数据实验室数据挖掘平台建设方案.doc(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、大数据实验室数据挖掘平台建设方案1.1.1.1 平台简介DataSense数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高处理性能和高可靠性,可不间断接受任务。1.1.1.2 平台设计数据挖掘架构图DataSense数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的ETL工具,

2、能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于业务系统对数据和模型的观察和调用。DataSense数据挖掘核心模块系统架构:DataSense核心模块图 分布式数据挖掘引擎管理本机上同时运行的多个计算任务,协调资源分配。 分布式挖掘运行时独立的数据挖掘程序,负责对切分好的最小单元任务进行处理。 DataSense分布式数据挖掘管理引擎提供对数据挖掘应用的API,同时负责对整个数据挖掘任务的调度管理。 分布式数据挖掘算法库提供对数据挖掘常用的基

3、本挖掘算法,同时用户可以自己任意添加新的挖掘算法。1.1.1.3 主要功能DataSense数据挖掘系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用。共计包含了27个数据挖掘算法。 平台界面DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。 数据导入负责对

4、数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。 数据管理可以查询不同表的数据信息,可以导出原始数据文件。 任务管理由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。 用户管理大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。 系统配置提供系统平台自身的参数信息管理 可视化查询介绍系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL 60%的查询功能。 分类算法分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可

5、以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。分类结束后系统会通过可视化的方式展示系统训练分类后的结果。 聚类算法聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。上图为聚类设计页面,用户可以选择数据源,聚类属性,聚类本身的相关属性等信息。聚类完成后,系统通过可视化的查询,目前提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。1.1.1.4 平台优势特性(1)灵活的高性能硬件配置DeepRack深度学习一体机包含24U

6、半高机柜,很多可配置4台4U高性能服务器;每台服务器CPU选用英特尔E5-2600系列至强处理器;每台服务器很多可插入4块英伟达GPU卡;可选配NVIDIA TITAN X, GeForce GTX 1080、K80等各档次英伟达GPU卡,以满足不同深度学习应用的需求。DeepRack深度学习一体机为用户提供很大每秒176万亿次的单精度计算能力,满配时相当于160台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑了7*24小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。(2)集成知名的深度学习软件系统DeepRack深度学习一体机预装CentOS操作系统,集成了两套位于行业前沿开源工具软件Google的TensorFlow以及伯克利大学的Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。(3)提供基础训练数据DeepRack深度学习一体机提供了MNIST、CIFAR-10、ImageNet等图像数据集,以满足实验与模型塑造过程中的训练数据需求。(4)即买即用,周到服务DeepRack深度学习一体机预装CentOS操作系统,安装配置了TensorFlow、Caffe等主流深度学习开源工具软件,并免费提供大量的可训练数据,用户根据操作手册,可快速搭建属于自己的深度学习应用。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 施工组织

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com