Chapter 13案例探讨.ppt

上传人:hyn****60 文档编号:71437265 上传时间:2023-02-03 格式:PPT 页数:25 大小:960.50KB
返回 下载 相关 举报
Chapter 13案例探讨.ppt_第1页
第1页 / 共25页
Chapter 13案例探讨.ppt_第2页
第2页 / 共25页
点击查看更多>>
资源描述

《Chapter 13案例探讨.ppt》由会员分享,可在线阅读,更多相关《Chapter 13案例探讨.ppt(25页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1http:/ 四个数据表四个数据表数据表名称数据表名称原始资料总笔数原始资料总笔数字段个数字段个数Book36429922Department3239Reader3731831History(借阅历史资料借阅历史资料)113264836内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结7第一阶段数据前置处理第一阶段数据前置处理(1)l原始数据利用数据转换汇入原始数据利用数据转换汇入SQL Serverl将将 Reader与与 Department 数据表合成新的数据表合成新的 Reader 数据表数据表。l在在Re

2、ader 数据表内:数据表内:n增加增加college字段,建立:系所字段,建立:系所学院学院 概念阶层。概念阶层。n依学号分类,新增依学号分类,新增grade字段,记录用户年级,区分为字段,记录用户年级,区分为freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher等七个类别。等七个类别。n只保留只保留 rno(读者读者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部删除。字段,其余字段全部删除。8第一阶段数据前置处理第一阶段数据前置处理(2)l在在B

3、ook 数据表内的:数据表内的:n根据中西文图书分类,在索书号上新增根据中西文图书分类,在索书号上新增sub_class及及class属性,建立书籍种类的概念阶层属性,建立书籍种类的概念阶层。n将将language字段重新分类,保留最多的中文、英文、日字段重新分类,保留最多的中文、英文、日文三类,将其余语言归类为文三类,将其余语言归类为other。n建立建立publsih_interval字段,出版年以五年为一区间,作字段,出版年以五年为一区间,作为出版年代的概念阶层之用。为出版年代的概念阶层之用。n仅留下仅留下marc_id(书籍书籍id)、title、author、publisher、pu

4、blish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。等字段。9第一阶段数据前置处理第一阶段数据前置处理(3)l利用中西文图书分类检表,将书分为利用中西文图书分类检表,将书分为4大类,大类,大类再细分成子项目。大类再细分成子项目。10第一阶段数据前置处理第一阶段数据前置处理(4)l在在History 数据表内:数据表内:n将借阅日期拆成三个字段:借阅年、借阅月、借将借阅日期拆成三个字段:借阅年、借阅月、借阅日,作为将来时间的概念阶层。阅日,作为将来时间的概念阶层。n加入加入amount 字段,代表借

5、书的本数,一般都为字段,代表借书的本数,一般都为 1,作为事实数据表的量值。,作为事实数据表的量值。n仅留下仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其字段,其中中amount字段为量值。字段为量值。11第二阶段数据前置处理第二阶段数据前置处理(1)l在在 Reader 数据表,分析对象为正常学制学生,删除数据表,分析对象为正常学制学生,删除外校人士、行政人员、在职专班、转系、大五、大六、外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。系所空白者、身分无法辨认者。l在在 Book 数据表

6、内,删除索书号不完全者;删除期刊数据表内,删除索书号不完全者;删除期刊数据及校内论文、不能外借之书籍(如当期杂志)、数据及校内论文、不能外借之书籍(如当期杂志)、视听资料(如视听资料(如CD、LD、tape)等。)等。l在在 History 数据表内,删除索书号不完整之纪录;删数据表内,删除索书号不完整之纪录;删除除rno(user id)无法在整理过的无法在整理过的Reader 数据表找到之数据表找到之纪录;删除索书号无法在整理过的纪录;删除索书号无法在整理过的Book 数据表找到数据表找到之纪录。之纪录。12第二阶段数据前置处理第二阶段数据前置处理(2)l资料整理前后数据表内容变化比较资料

7、整理前后数据表内容变化比较数据表数据表名称名称原始资料原始资料总笔数总笔数资料整理后资料整理后的总笔数的总笔数原始字原始字段个数段个数整理过后整理过后字段个数字段个数Book364299752142211Reader373188587315History 11326486120753613内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结14数据仓储设计数据仓储设计(1)l事实数据表:事实数据表:History 为事实数据表,为事实数据表,amount 量值。量值。l维度:维度:Reader、Book与与Time三个

8、维度。三个维度。15数据仓储设计数据仓储设计(2)l在在Reader 维度数据表内找到两种概念阶层:维度数据表内找到两种概念阶层:n年级:年级:rno graden学院系所:学院系所:rno dept_name college_namel在在Book 维度数据表内找到三种概念阶层:维度数据表内找到三种概念阶层:n语言:语言:title languagen主题分类:主题分类:title sub_class classn出版年:出版年:publish_year publish_intervall在在 Time 维度找到一种概念阶层:维度找到一种概念阶层:n借阅日期:借阅日期:borrow_date

9、borrow_monthborrow_year16数据仓储设计数据仓储设计(3)l星状式架构的资料仓储星状式架构的资料仓储17内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结18判定树资料探勘分析判定树资料探勘分析预预 测测 项项 目目书籍、学生、语言类别书籍、学生、语言类别百百 分分 比比(预测借书类别预测借书类别)人文社会学院博人文社会学院博士班学生士班学生Art 13.56%General1.69%Geography/History1.69%Language/Literature1.69%Natural Sc

10、iences59.32%Philosophy/Psychology6.78%Religion1.69%Social Sciences11.86%Missing1.69%(预测借阅读者预测借阅读者的身分的身分)心理哲学方面心理哲学方面的英文书的英文书Candidate for PhD11.08%Freshman7.06%Junior16.67%Postgraduate34.58%Senior15.59%Sophomore14.25%Teacher0.75%Missing0.03%(预测借阅书籍预测借阅书籍的语言的语言)语言文学方面语言文学方面被借的书籍被借的书籍Chinese66.58%Engl

11、ish33.32%Japan0.09%Others0.01%Missing0.00%19分群资料探勘分析分群资料探勘分析(1)群组一:不同时间借书比例群组一:不同时间借书比例Cluster 1 总计总计3064.04100.00%2001/Dec242.447.91%2001/Apr236.857.73%2002/Apr225.347.35%2002/May223.597.30%2002/Mar220.517.20%2001/Nov218.387.13%2001/Oct198.856.49%2002/Jan196.186.40%2001/Mar190.566.22%2001/May188.30

12、6.15%2002/Feb173.925.68%2001/Feb169.105.52%2001/Jun146.564.78%2001/Sep145.134.74%2001/Jan118.293.86%2001/Aug90.892.97%2001/Jul79.152.58%Missing00.00%群组二:不同时间借书比例群组二:不同时间借书比例Cluster 2 总计总计2951.87100.00%2002/May318.2110.78%2001/Dec225.627.64%2001/Jan221.287.50%2002/Apr203.856.91%2001/Nov197.876.70%200

13、1/Feb190.026.44%2002/Jan184.676.26%2002/Mar180.36.11%2001/May179.826.09%2001/Oct179.096.07%2001/Mar174.695.92%2001/Apr154.055.22%2001/Jun150.355.09%2002/Feb141.994.81%2001/Sep127.514.32%2001/Jul69.082.34%2001/Aug53.461.81%Missing00.00%20分群资料探勘分析分群资料探勘分析(2)群组一:不同年级、类别借书比例群组一:不同年级、类别借书比例Cluster 1 总计总计

14、3064.04100.00%Postgraduate 1347.7543.99%Candidate for PhD 427.3713.95%Sophomore 375.9612.27%Junior318.1110.38%Freshman 300.599.81%Senior287.559.38%Teacher6.720.22%Missing00.00%群组二:不同年级、类别借书比例群组二:不同年级、类别借书比例Cluster 2 总计总计2951.87100.00%Postgraduate 1322.5644.80%Freshman 489.1216.57%Candidate for PhD 4

15、27.7714.49%Sophomore 339.0911.49%Junior217.247.36%Senior139.524.73%Teacher16.570.56%Missing00.00%21分群资料探勘分析分群资料探勘分析(3)群组一:不同类别书籍被借比例群组一:不同类别书籍被借比例Cluster 1 总计总计3064.04100.00%Natural Sciences 1611.5152.59%Language/Literature 411.5513.43%Social Sciences 352.2311.50%General240.927.86%Art178.235.82%Geog

16、raphy/History 142.674.66%Philosophy/Psychology108.163.53%Religion18.760.61%Missing00.00%群组二:不同类别书籍被借比例群组二:不同类别书籍被借比例Cluster 2 总计总计2951.87100.00%Natural Sciences 1864.7663.17%Language/Literature 355.0212.03%Social Sciences 275.099.32%General155.555.27%Geography/History 119.214.04%Art104.283.53%Philos

17、ophy/Psychology61.622.09%Religion16.340.55%Missing00.00%22关连法则资料探勘分析关连法则资料探勘分析(1)项次项次学学 生生 类类 别别Imply书籍类别书籍类别支持度支持度(%)信赖度信赖度(%)1College=Electrical Engineering and Computer Science ANDPeople=Candidate for PhD.Natural Science12.290.02College=Electrical Engineering and Computer Science ANDPeople=Postgr

18、aduateNatural Science23.896.23College=Engineering ANDPeople=PostgraduateNatural Science12.796.24College=Science ANDPeople=PostgraduateNatural Science10.885.75College=Electrical Engineering AND Computer ScienceNatural Science40.592.76College=EngineeringNatural Science22.593.37College=ScienceNaturalSc

19、ience21.278.98People=Candidate for PhD.NaturalScience26.291.09People=PostgraduateNatural Science48.589.823结果分析结果分析 l发现借阅率较高的书,大多是发现借阅率较高的书,大多是1988年到年到1999年,建议多购新年,建议多购新版的书,或者调查新书流动率不高的原因。版的书,或者调查新书流动率不高的原因。l每个系所借阅书籍的种类,和所学科系有相关,建议借阅方每个系所借阅书籍的种类,和所学科系有相关,建议借阅方式可以更弹性。例如,提高电子系学生借阅电子类别书目的式可以更弹性。例如,提高电子系

20、学生借阅电子类别书目的册数,以方便学生阅读与研究。册数,以方便学生阅读与研究。l书籍书籍 subject字段字段(表示书的类别表示书的类别),此类别为人工手动建置,此类别为人工手动建置,n所以字段格式并不统一,例如:有所以字段格式并不统一,例如:有Computer Language Makeup Language、Computer_Language_Makeup_ Language、Computer Language:Extensible Makeup Language等,建议将分类机制由手动输入改为类似下拉式等,建议将分类机制由手动输入改为类似下拉式选单挑选,以提高书目资料的准确度。选单挑选,以提高书目资料的准确度。24内容内容l简介简介l原始数据源原始数据源l资料前置处理资料前置处理l资料仓储设计资料仓储设计l资料探勘结果资料探勘结果l总结总结25总结总结l以图书借阅数据说明数据探勘的处理过程。以图书借阅数据说明数据探勘的处理过程。l需求分析与资料整理的工作量不小。需求分析与资料整理的工作量不小。l细节细节(参数调整等参数调整等)必须靠读者自行练习。必须靠读者自行练习。l帮助读者建立资料探勘具体的印象与观念。帮助读者建立资料探勘具体的印象与观念。l找贵校的图书馆合作,进行类似数据探勘。找贵校的图书馆合作,进行类似数据探勘。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com