基于时空数据挖掘的生鲜配送中心选址研究-刘立亚.pdf

上传人:1890****070 文档编号:107723 上传时间:2018-05-13 格式:PDF 页数:59 大小:5.98MB
返回 下载 相关 举报
基于时空数据挖掘的生鲜配送中心选址研究-刘立亚.pdf_第1页
第1页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于时空数据挖掘的生鲜配送中心选址研究-刘立亚.pdf》由会员分享,可在线阅读,更多相关《基于时空数据挖掘的生鲜配送中心选址研究-刘立亚.pdf(59页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、中图分类号:P28UDC: 900密级:函=;必:学校代码:诃4解为尤学硕士学位论文(学历硕士)公开10094基于时空数据挖掘的生鲜配送中心选址研究Study on Site Selection of Fresh Distribution CenterBased on Spatiotemporal Data Mining作者姓名:指导教师:学科专业:研究方向:论文开题日期:刘立亚胡引翠副教授地图学与地理信息系统空间数据挖掘与可视化2016年9月1日万方数据学位论文原创性声明本人所提交的学位论文基于数据挖掘的生鲜配送中心选址研究一一以石家庄为例,是在导师的指导下,独立进行研究工作所取得的原创性成

2、果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中标明。本声明的法律后果由本人承担。论文作者(签名):矽1年岁月眵日三恤赴学位论文版权使用授权书本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在 年解密后适用本授权书)万方数据摘要伴随着我国经济和生活水平的不断提高,生鲜产品已经成为人们饮食生活中不可或缺

3、的食品之一,它是人身体中各种维生素和微量元素的重要来源,其生鲜品质问题越来越受到关注。生鲜产品易腐败的特点致使它在运输过程中使用冷藏车进行运输,也就是需要在冷链的条件下进行配送。为了保证客户能够买到新鲜的生鲜产品,大多数企业和生鲜零售网点均自建生鲜产品配送中心进行生鲜产品的统一配送来满足客户的需求,因此,生鲜配送中心的选址的优劣直接关系到企业或者生鲜销售网点的盈利和发展,如何科学合理的选择生鲜配送中心的建设地点是本文研究的重点问题。首先,阐述了生鲜配送中心、生鲜生命周期、数据挖掘、数据清洗和配送中心选址的相关基础理论。对生鲜配送中心的功能和类型做了详细的解释,阐述了生鲜产品生命周期函数的基础内

4、容,介绍了数据清洗原理、数据挖掘的主要方法及一般流程,描述了配送中心的选址原则、影响因素以及步骤等,这些基础研究给生鲜订单数据源的挖掘和生鲜配送中心选址模型的创建提供了理论支撑。其次,论述了数据清洗处理的步骤与方法,对空间聚类分析与时间特征分析的算法进行了探讨。在此基础上,利用非等覆盖半径模型确定配送中心的候选可建区域。再利用规划方法以生鲜配送系统的最小成本目标函数构建选址模型,其中成本包括能耗费用、设施费用、用地费用、运输费用和因新鲜度降低造成的损失等几项成本,并提出了模型求解方法。最后,对实例进行应用分析和求解。该部分首先对石家庄生鲜销售网点提供的020(Online To Offline

5、)平台的订单数据进行清洗和挖掘,利用空间聚类分析和时间特征分析两种方法分析客户在不同时间段的需求量变化情况和不同区域客户需求量的特点。通过构建生鲜配送中心的选址优化模型,结合数据挖掘得出的客户需求量结果和实地调研得到的数据,使用非等覆盖模型和最小成本目标函数的编程解算,求解出实例的最终结果,验证了选址模型的可行性。然后对现有生鲜网点进行分析评价,从而给生鲜销售网点提供生鲜进货量的决策支持,避免了配送中心库存出现不合理的情况,从而减少不必要的成本损失。本文研究结果从理论性和实践性两个方面给生鲜网点提供了的策略参考。l万方数据本文基于020大数据定量分析,以时间特征、空间特征和客户需求特征等时空多

6、维特征构建了选址模型,具有一定的创新性。但是,本文还略有不足,生鲜腐败函数和选址模型的解算还需要更进一步地细化研究。V关键词:生鲜配送中心空间聚类时间特征选址模型万方数据AbstractWith the continuous improvement of our countryS economy and living standards,舭sh products have become one of the essential daily necessities in peopleS livesIt isan important source of vitamins and trace ele

7、ments in human body,and its qualityproblems are gaining more and more attentionFresh products谢m short shelf life,perishable and other characteristics,in the transport process generally use refrigeratedtrucks,that is,it is need to be transported in cold chain conditionsIn order to ensurethat customer

8、s can buy fresh products,most enterprises and fresh retail outlets establishtheir own骶sh product distribution center to unified distribution fresh productsTherefore,the location of the fresh distribution center is directly related to theprofitability and development of the enterprise or fresh retail

9、 outlets。How to choosethe location of the fresh distribution center scientifically and rationally is the keyproblem of this paperFirst of all,the article describes the basic theory of fresh distribution center,freshlife cycle,data mining,data cleaning and distribution center locationThe function and

10、type of fresh distribution center are explained in detailThis paper expounds the basisof the content of the fresh product life cycle function,introduces the principle of datacleaning,the main method of data mining and general process,describes thedistribution center location principle,influence fact

11、ors and steps,etcThese basicresearch for the data of fresh orders mining and fresh distribution center location modelto create provides the theoretical supportSecondly,the steps and methods of data cleaning are discoursedThe algorithm ofspatial clustering analysis and time feature analysis are discu

12、ssedOn this basis,the USeofnonequal coverage radius model to determine the distribution center ofthe candidateCan be built areaAnd then use the planning method to build the site model with theminirnui1 cost objective function of the flesh delivery system,which includes severalcosts such as energy co

13、nsumption,facility cost,land cost,transportation cost and losscaused by freshness reduction,and put forward Model solving methodFinally,the application of the analysis and solutionFirst of all,cleaning and万方数据digging the order data of 020(Online To Offiine)platform provided by S蝎iazhuangfresh sales

14、network,analyzes the change of customer demand in different time periodsand characteristics of customer demand in different regions by spatial clusteringanalysis and time feature analysisBy constructing the location optimization model ofthe fresh distribution center,combining、析tll the data obtained

15、from the data miningand the data obtained from the field research,the final result of the example is solvedby using the programming solution of the non-equal coverage model and the minimumcost objective functionWhich verifies the feasibility of the location modelAnd thenthe existing fresh outlets fo

16、r analysis and evaluation,SO as to give fresh sales outlets toprovide fresh purchase ofthe decision support,to avoid the distribution center inventoryunreasonable situation,thereby reducing unnecessary cost lossThe results ofthis studyprovide a reference to the freshness of the network from both the

17、oretical and practicalaspectsThis article is based on 020 big data quantitative analysis,丽tll time and spacecharacteristics and customer demand characteristics of temporal and spatiM multi-dimensional feature location model is constructed and has certain innovationHowever,There is also slightly insu

18、fficient,fresh corruption function and calculation of siteselection model still need further detailed researchKey Words:Fresh distribution center,Spatial clustering,Time feature,locationmodel万方数据目 录摘要IIIAbstract、f1绪论111研究背景112研究目的及意义213相关问题的研究现状i2131数据挖掘问题的国内外研究现状2132配送中心选址问题的国内外研究现状414论文研究内容515主要技术

19、路线52相关理论与方法721生鲜配送中心功能与类型7211生鲜配送中心的定义7212生鲜配送中心功能7213生鲜配送中心类型822生鲜产品生命周期评估方法9221常数型生鲜腐败连续型生命周期函数9222指数型生鲜腐败连续型生命周期函数923数据清洗基础理论10231数据清洗定义10232数据清洗的原理1124数据挖掘方法11241数据挖掘概念11242数据挖掘的主要方法11243数据挖掘一般流程1225配送中心选址分析方法13251配送中心选址原则13万方数据252配送中心选址的步骤143数据处理与时空分析1731数据处理17311数据来源17312数据清洗方法1732时空分析方法18321空

20、间聚类分析18322时间特征分析204配送中心选址模型的构建2241构建模型的基本思路2242选址模型建立的条件2243选址模型建立的过程24431配送中心区域筛选24432配送中心位置确定2544模型求解算法27441配送中心区域筛选中的模型求解算法28442配送中心位置确定中的模型求解算法285石家庄生鲜配送中心选址实例3051数据来源与清洗30511实例数据来源30512实例数据清洗3052配送中心选址33521 网点客户空间聚集性分析33522生鲜产品需求量的时间特征分析35523模型选址仿真求解386本文结论与展望4361结论4362创新点4363展望43V万方数据X59O445=一

21、一一单l一,一一清一一果nr,一一成rP一一研,一一利一一的一一得一一取f一一问一一期献一位文谢学考读参致攻万方数据1 绪论11 研究背景近些年来,在现代化生活和高速经济发展浪潮的推动下,人们在生活中对生鲜产品的需求量日渐剧增,生鲜的品质越来越受到大众的关注,人们对生鲜的关注点主要是生鲜是否新鲜、生鲜是否美味、生鲜是否富含营养等n1。生鲜产品是一种腐败率高、生命周期短而且需求不确定性比较大的产品,它包含肉类、水产品、水果蔬菜、熟食、西式糕点等,通常被人们称为“生鲜五品。“生鲜五品”的前三种是主要的生鲜品类,即人们在日常饮食中经常购买的生鲜产品,被称为“生鲜三品。生鲜产品是我国消费品市场中最重要

22、的品类之一,是我们身体除粮食产品之外的最主要的营养和能量来源,在“民以食为天”的中国占据重要的地位口】。生鲜产品采购的传统途径是通过生鲜市场购买,随着电商的飞速发展,许多生鲜销售网点把店铺转移到了网上,利用020(Online To Offline)模式作为重要的销售渠道口1。目前,支付宝支付、微信支付等网络支付方式逐渐成为一种主流行为,人们的消费习惯也发生了巨大的变化,从线下转移到了线上。据中商情报网数据显示,国内生鲜电商交易总额在2016年达到了900亿元,比2015年增幅了80左右,可见生鲜销售的020模式的发展潜力是巨大的。但是,由于生鲜产品自身易腐败的特点和储存配送相对困难等问题,使

23、得生鲜销售的020模式很难盈利和发展。生鲜配送属于冷链运输领域,与西方发达国家对比,我国生鲜的物流运输系统还不够完善,体系结构中的步骤管理不规范,在配送过程中的高损耗、低效率的现象比较明显H1。我国多数经营状况举步维艰的生鲜销售网点缺乏对客户的需求偏好信息的实时获取渠道,造成大量生鲜产品囤积浪费或者某些产品供应不足,使得销售业绩不佳,生意亏损乃至经营失败。解决该问题的关键在于了解客户的需求量和对产品的偏好,要有依据的进行生鲜产品批量订货,其中配送中心布局是否科学合理直接影响到生鲜产品是否能快速、完好的送达客户手中,由此可见,研究如何正确合理地选取配送中心的建设地点对生鲜销售商的发展有着重要的意

24、义,。万方数据数据挖掘是一种将传统的数据挖掘方法与处理大量数据的复杂算法相融合的热门技术,它常被用于在大型数据库中总结发现有用的信息和规律3。数据挖掘是多学科交叉的新兴学科,它融合了很多有关学科的理论与技术。与此同时,最优化、进化算法、信息论、信号处理、可视化以及信息检索等领域也在时刻的影响着数据挖掘技术的发展。伴随着数据挖掘技术的进步和成熟,数据挖掘技术已经被成功的运用到了各行各业,也为生鲜销售网点的发展指明了一个方向。生鲜销售网点订单数据随时都在产生,大量的生鲜销售数据被束之高阁,造成资源浪费。利用数据挖掘技术析取这些订单数据中的有价值信息将会让生鲜销售网点获取到更多的可利用资料,为生鲜卖

25、家提供决策支持,并给生鲜配送中心的选址提供有效数据参考。12研究目的及意义生鲜配送中心的选址直接影响到生鲜的配送流通成本和配送过程中的效率,也会关系到提供给客户的服务质量。此外,建设生鲜配送中心具有周期长、成本大、难迁址等特点,因此在进行生鲜配送中心选址决策时应做到客观、科学、合理。由于生鲜产品自身保质期短和易腐败的特点,即使在配送过程中一直处于低温状态,生鲜产品还是会有新鲜度的损失。生鲜产品新鲜度的损失和运输的距离、时间呈正相关的关系。如果生鲜产品的新鲜度损失过大,以致于腐败,会造成很大的成本损失。可见,配送中心建设地点选取不合理是造成新鲜度下降的首要因素。因此基于大量用户需求数据的配送中心

26、选址具有重要的实践意义。随着选址研究方法的不断进步,选址理论也日趋成熟,但是关于生鲜配送中心的选址研究较少。国内外关于配送中心选址方法的研究方法一般仅考虑新鲜度、时效性、低成本等因素,较少考虑到用户在空间分布上的不均性和时空上的动态变化性。因此,如何通过时空数据挖掘定量分析进行科学选址,具有重要的理论价值。13相关问题的研究现状131数据挖掘问题的国内外研究现状在欧美地区,数据挖掘技术的运用相对来说较早,很多年前已经被应用到各个领域。在体育领域中,IBM公司用数据挖掘方法对NBA比赛数据进行分析,挖,万方数据掘出不同的球员上场组合来改善球队的战略组合口1;在零售业领域,Alexberson利用

27、数据挖掘方法中的决策树和聚类技术对零售业中的客户进行类别划分和销售量的研究睛3。George MMarakas将关联关系分析用到了购物篮的数据分析中,从而得出超市内商品之间的联系凹3;Lee w H提出了一种信号覆盖空洞和弱覆盖区发现模型n们,这种模型是基于位置服务时空数据挖掘,将LBS应用的通信数据转换为移动网络通信质量监测信息,优化了位置服务。Leong Km提出了一种时空动态模式的分析框架,通过对犯罪易发点的数据库进行数据挖掘,帮助警察局进行警务人员的合理分配;Jianqiang L In21依据大量电厂数据,提出了一种利用模糊关联规则的方法来探寻电厂的运行优化方式来帮助电厂进行运作改良

28、;Chong Zhangn31将数据挖掘技术与学校教学实践相结合,实现了基于数据挖掘的成绩管理系统,为教学提供决策依据并提高了教学质量;Zhen Yangn邮提出基于时空数据挖掘的自适应移动地图的研究可以提高自适应移动地图服务,实现从大量的数据有效地获得有用的信息,以满足不同用户的不同需求。目前,国外的学者们在数据挖掘领域有着最新的研究方向,对数据挖掘的算法做进一步研究和改进,并且在开创新的算法,对模型应用领域进行扩充n副。比如对膜计算和蚂蚁群等算法的持续探索改善等。许多大型公司和学术机构对数据挖掘的应用研发都非常重视,均建立了相应的研究中心n 6】。我国对数据挖掘的研究与国外相比稍晚,近年来

29、,数据挖掘显然已经成为学术界的一个热点,该领域的论文数量一直处于高速增长状态。朱超n刀将关联规则算法运用到了旅游范畴,分析了四川省旅游行业的特征,找出了旅游者与景点间的联系特点,从而有目的性的制订销售战略;在教育方面,宋丽萍、韦建国n町以阜阳职业技术学院近年来积累的大量毕业生就业数据为依托,进行了数据挖掘,并建立了学生信息挖掘系统,以促进专业课程的改革;郭敏、雷建云n们使用数据关联数据挖掘技术对民族高校长期积累的学生成绩数据进行挖掘,寻找真正影响学生成绩的因素,找出其中的关联规则,得到不同民族的学生成绩确实有着一定的差距等结论;在企业客户分类方面,葛春燕啪1在研究保险业务特征以及探究保险业务中

30、客户评价因子的基础上,构建了保险公司客户评价指标体系,并采用数据挖掘理论和技术构建了BP神经网络客户评价模型,对保险公司客户进行评价和归类,为保险公司规避经营风险提供决策支撑;在企业营3万方数据销中,冯超口妇以银行的各个业务系统存储的大量客户数据为基础,使用数据挖掘方法对银行客户数据进行归类,从而有目的性的对不同的客户进行业务的准确营销;在税务领域,刘爽、刘晓悦瞳21研究了数据挖掘技术在税务工作中的具体应用,帮助税务管理部门进行对税源和税收收入的预测,对人员分类进行信誉评级以及对税收部门的业绩进行综合评价;在图书馆管理方面,吴阳燕口踟探讨了数据挖掘在合理调整期刊馆藏布局以及提供个性化服务等方面

31、的应用;在资源管理领域,韩阜益、陈建荣等乜41通过采用数据挖掘技术中的决策树算法对学校的资源进行合理分配,通过使用数据挖掘的方法对学校资产管理的优化配置提供决策支撑;在网络安全领域,陈丽珊乜翻在大数据技术理念引导下,结合网络数据技术研究结果,将数据挖掘技术应用到网络安全管理领域;在医院信息化方面,陆鹏瞳印通过分析医院的信息系统,采用数据挖掘技术对相关数据进行分析,增强医院的工作效率。132配送中心选址问题的国内外研究现状国外早在20世纪就有研究人员提出配送中心选址的问题,在1909年韦伯瞳71提出如何决定一个配送中心的选址,使客户与所建设配送中心之间的距离最短。其后,有很多研究人员将配送中心建

32、设地点选择问题进行了更深入的探讨,并且从微观的生鲜产品角度考虑配送中心的选址研究。BrimBerg J,Hansen P,Mlanenovic啪1三位学者使用重心法构建了配送中心的选址模型,并采用相应算法对模型进行了求解;Kaj Holmberg乜明在文章中主要研究了非线性关系配送运输费用的配送中心选址,然后运用了分支定界法对所构建的模型进行了求解;Owensh Daskin跚1结合现实环境条件下的配送中心地点选取问题,构建了动态和随机两种选址模型;Gong和Li等研究了容易腐败产品配送中心的选址模型m1,采用粒子群算法选址,并对模型进行了求解;Barahona FJensen口23在文中通过

33、研究商品在配送过程中的运输成本和固定成本,使用混合整数规划法建立配送中心选址模型;Masood A Bb33采用地理信息系统的二次开发技术研发出相应的配送中心选址的决策支持系统,通过优选比对在几个备选配送中心之间挑选出最佳建设地点。国内对生鲜配送中心选址问题的研究主要集中在以定性数据为基础的选址构建方法和算法的研究方面。兰洪杰口43结合了国内外生鲜产品物流的含义,再结合我国的实际情况,对生4万方数据鲜产品送配送中心的结构、功能等进行研究,同时引入案例分析,总结出生鲜配送的协同发展战略;龙迎红口朝等人创建了有效的生鲜配送中心选址模型,对算法做出了改良,提高了求解速度;高学东口们等人对Baumol

34、&Wolef提出的算法做了进一步改善,经过构建模型对配送中心选址做优化配置;孙焰刀在配送中心选址的问题上应用了层次分析法和中心法两种方法的综合方法,研究出了被称作两阶段的配送中心选址方法;陈丽啪1利用了需求量预测模型对客户的需求量进行了预测,在此预测需求量的基础上建立生鲜配送中心选址模型并进行求解;李梦寻陷鲫采用了生鲜产品的新鲜度对距离变化的函数,并创建了以总成本为目标函数,通过函数的求解来选取最佳配送中心建设地点。李振宁、杨松林运用地理信息系统中的网络分析技术,探究人口耦合模型与客户点的关系,并利用Dijkstra算法对配送中心选址提供方法支持。综上所述,国内外关于生鲜配送中心选址的研究主要

35、存在以下问题:(1)数据以基础样本调查为主,多为定性数据分析,且实时性较差。(2)在模型的构建中,极少考虑用户需求量的空间异质性和时间动态性。14论文研究内容本文主要是从数据基础和模型构建两个方面对生鲜配送中心选址优化配置问题进行了探究。在数据基础方面,探讨了从生鲜销售网点020平台的客户订单数据的空间特征、时间特征和需求量等多维定量特征的处理方法和步骤,包括数据清洗方法和信息提取算法。在模型构建方面,以020订单定量分析数据为基础,析取用户需求的空间异质性和时空动态性,以时间特征、空间特征和客户需求特征等多维特征,建立了生鲜配送中心选址模型。最后以石家庄市为例,根据数据挖掘的成果,再结合实地

36、调研数据和模型算法求解出生鲜配送中心建立的最优地点,并对结果进行分析和评价。15主要技术路线本文技术路线如图11所示:万方数据图11论文的技术路线图万方数据2相关理论与方法21 生鲜配送中心功能与类型211生鲜配送中心的定义生鲜配送中心,即以不同客户对产品的订购为基础,从产品原始供应地以及供货商处统一订购,接着由配送中心进行整体检验、冷却、加工、重新包装、分级送达每个需求点的机构。生鲜配送中心是整体产品物流系统活动的核心,具有承上启下功能。212生鲜配送中心功能生鲜配送中心职能是根据订单配货、送达产品完成生鲜物品的终极配置。对于不同的生鲜配送中心,在其配置和建设上均有差异;综合来看,依照配送中

37、心自身特点以及内在特征来划分,大致上涵盖了基本及增值两种功能。(1)基本功能图21生鲜配送中心基本功能结构图配送中心的基本功能包括生鲜产品购买、仓库贮藏、产品分配、货物拣取、货物集散、流通及再生产、信息处理等,如图21所示。产品分配是基本功能中一项重要特点,生鲜配送中心根据客户提出的不同需求来分配和拣取生鲜产品,极大改进了传统意义上贮藏模式产生的弊端。信息处理功能可以快速而准确的为配送中心和上下相关的公司提供信息情报,以便于公司及时更新制度和售卖政策。(2)增值功能7万方数据图22配送中心增值功能结构图配送中心的增值功能是指在完成物流基本功能的基础上,根据客户需求提供的各种延伸业务活动,图22

38、展示了配送中心增值功能的结构图。其中需求预测功能,能够估算出客户一段时间内生鲜货物的购买力。库存量的多少直接影响到库存管理经费,存留过多和过少都会造成损失,因此要合理控制配送中心的库存。需求预测功能可以依照配送中心生鲜产品的进出货信息大致估算在将来一定时段中的生鲜产品进出库存量,因此可以充分利用仓库。正因为此,需求预测已经逐渐变为配送中心一项关键增值功能。213生鲜配送中心类型本文把生鲜配送中心分类成下列三大类型:(1)初级生鲜食品配送中心初级生鲜食品配送中心是指主要对肉蛋、水产品、蔬菜进行配送,即“生鲜三品”的配送,并且这些食品在配送中心不再需要加工,只需要简单的整理和包装。(2)冷冻冷藏食

39、品配送中心冷冻冷藏生鲜配送中心,将生鲜产品冷藏后进行配送,或者是对冷藏状态下的产品重新包装后再配送。例如,冷冻羊肉卷和速冻饺子的配送。(3)生鲜加工配送中心生鲜加工配送中心主要负责配送糕点、熟食等加工食品,这些生鲜产品在配送前需要热加工等程序的处理。本文主要研究的是初级生鲜产品配送的中心选址问题。8万方数据22生鲜产品生命周期评估方法221常数型生鲜腐败连续型生命周期函数常数型生鲜腐败函数腐败的特点是在腐败过程中己腐败生鲜不会对其他未腐败生鲜造成影响,随着时间推移,生鲜产品的腐败速率保持恒定。图23展示了生鲜品质与时间的函数关系,常数型腐败连续型的生命周期函数是一个线性函数,可以写成公式(21

40、);r 时闯(f)图23常数型生鲜腐败连续型生命周期函数生鲜品质与时间的关系图FQCt)=FQofit(21)公式(21)中FQo是生鲜产品起初没有腐败的品质,FQ(t)是t时刻生鲜产品的品质,卢是指生鲜的腐败系数,不同种类的生鲜产品的口值不同。222指数型生鲜腐败连续型生命周期函数指数型生鲜腐败连续型的生命周期函数在生鲜、冷链产品中非常适用,此函数与上述常数型生鲜腐败连续型的生命周期函数的不同点是,指数型生鲜腐败连续型的生命周期函数中腐败的生鲜产品会对没有腐败的生鲜产品造成不同程度的影响,并且随着时间的变化,生鲜的腐败度也在加快。图24表示该函数生鲜产品品质与时间的关系,该函数可以表示成公式

41、(22)。9万方数据图24指数型生鲜腐败连续型生命周期函数生鲜品质与时间的关系图Fq(t)=FQoe一日(22)公式(22)中,FQo表示生鲜产品起初没有腐败时的品质,Fq(t)表示t时刻生鲜产品品质,8表示生鲜产品对于时间的腐败系数,日取值与生鲜产品对事件的敏感度成反比,该指数型函数在生鲜产品中的适用性较大,故本文中的研究是以指数型生鲜腐败连续型的生命周期函数作为腐败函数来研究生鲜品质随时间的变化关系。23数据清洗基础理论231数据清洗定义清洗也称清理和净化,即把数据进行审查和校验的操作。不同的领域对数据清洗有不同的解释,到目前为止,数据清洗还没有公认的定义H。下面分别在数据仓库、挖掘、综合

42、质量管理三个方面对其定义进行介绍。(1)数据清洗在数据仓库领域中的定义在数据仓库领域,需要汇集各种不同类型的数据,再对其集成;在此阶段着重要查找并清除不一致数据和错误数据,解决、标记重复问题。然而,数据清洗还需要涉及其分解以及重组,而不是简单地使用优质数据来代替原来的数据。(2)数据清洗在数据挖掘领域中的定义在数据挖掘这个领域,数据清洗是重要步骤,于此同时也是第一个步骤,也就是对其进行预处理的操作。所有的KDD(Knowledge Discovery in Database)10万方数据系统都有其专有的应用领域,并对该领域的数据进行清洗。(3)数据清洗在数据质量管理领域中的定义每个人都对数据质

43、量管理感兴趣。全面数据质量管理能更好的处理全体信息业务流程当中出现的质量和集成问题。就该领域而言,截止到现在都没有对数据清洗过程进行直接概括。王日芬H21提出从数据质量这方面而言,把该清洗过程概括成为能够衡量数据准确性以及提高数据质量的流程。232数据清洗的原理经过对“脏数据”的出现原由进行归纳总结,利用现存的理论、手段和措施,如数理统计、数据挖掘和剔除、规则模式等处理技术把“脏数据处理成比较符合要求的数据。数据清洗大致上采用回溯的构想,由“脏数据”出现的根本上逐步进行分析,依据设定的规则对所有数据集流经的所有环节逐一检查,依据这样的方式提取合适的清洗规则和策略,并把已得的方法及手段运用到“脏

44、数据的检测和处理之中。清洗方法和手段的好坏极大的影响了被处理数据的质量。24数据挖掘方法241数据挖掘概念Piateski G等学者提出了比较系统性的数据挖掘概念,即从海量的数据中发掘潜在的、有用的、能被用户理解和使用的模式和信息H3l。数据挖掘狭义的概念被认为主要是为了实现算法的衍生、推理、建模和实现等,被认为是知识发现的一个核心步骤H引。242数据挖掘的主要方法数据挖掘的方法主要包括:聚类分析、时间序列分析、关联规则分析、决策树分析、人工神经网络等,下面主要解释这些方法的主要含义。(1)聚类分析聚类分析(Cluster Analysis)是依据个体或者样本之间联系的亲疏度进行分类,目的是使

45、得同种类别的个体或样本之间的距离尽量的小,而不同类别的个体或样本间的距离尽可能的大,该方法可为不同的信息用户提供不同类别的信息集。聚类分析被应用于很多不同的学科上,如地理信息科学、统计学、自然地理学、计算机科学等H5l。(2)时间序列分析万方数据时间序列分析(Time Series Analysis)是在研究数据时间特征的基础上,对事物的发展演化过程开展分析,从含有时间特征的数据中获取隐含有效信息的分析方法,即从海量的时间序列数据中获取有效的知识内容,同时与时间特性紧密相连的规则m1。其目标是在没有先验知识的条件下通过建模对数据数列的基本属性进行分析得到符合对系统的长期行为特征的描述,准确地推

46、算出系统的未来变化规律。(3)关联规则分析关联规则分析(Association Rules Analysis)是为了找寻同一行为中不同个体之间的关联性,即人们通过分析,可以根据某一行为的产生来预测出另一行为的产生,能够对事物的变化规律理解的更加清晰明了H 7J。(4)决策树分析决策树(Decision Tree)是一种简单而普遍使用的分类器。通过对数据的训练来实现决策树的构建,从而对不明数据的分类可以做到更加高效、精确。(5)人工神经网络神经网络分析法(Neural Network Analysis)是指在应用数学的基础上,以神经心理学和认知科学研究成果为背景的一种拥有高度自学能力、容错能力和并行计算等特征的数据处理方法。神经网络分析法通过不问断的学习,可以从许多未知的复杂数据中找出一般性的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com