基于数据挖掘的航班延误的分析与预测_闵捷(1).docx

上传人:蟋*** 文档编号:2958150 上传时间:2020-06-05 格式:DOCX 页数:66 大小:982.55KB
返回 下载 相关 举报
基于数据挖掘的航班延误的分析与预测_闵捷(1).docx_第1页
第1页 / 共66页
基于数据挖掘的航班延误的分析与预测_闵捷(1).docx_第2页
第2页 / 共66页
点击查看更多>>
资源描述

《基于数据挖掘的航班延误的分析与预测_闵捷(1).docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的航班延误的分析与预测_闵捷(1).docx(66页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、中图分类号:TP181学科分类号:082303论文编号:1028707 18-S030硕士学位论文基于数据挖掘的航班延误的分析与预测研宄生姓名闵捷学科、专业交通运输规划与管理研宄方向交通运输系统优化指导教师高强副教授南京航會航天大学Nanjing University of Aeronautics and AstronauticsThe Graduate SchoolCollege of Civil AviationAnalysis and Prediction of Flight DelayBased on Data MiningA Thesis inTransportation Plann

2、ing and ManagementbyMin JieAdvised byAssociate Prof. Gao QiangSubmitted in Partial Fulfillmentof the Requirementsfor the Degree ofMaster of EngineeringMarch, 2018承诺书本人声明所呈交的硕士学位论文是本人在导师指导下进 行的研宄工作及取得的研究成果。除了文中特别加以标注和致 谢的地方外,论文中不包含其他人己经发表或撰写过的研究成 果,也不包含为获得南京航空航天大学或其他教育机构的学位 或证书而使用过的材料。本人授权南京航空航天大学可以将

3、学位论文的全部或部 分内容编入冇关数据库进行检索,吋以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本承诺书)n 期 t aULiE近年来,伴随着民航出行需求的快速增长,航班量逐年递增,航班延误问题也日渐严重。 当航班延误不可避免时,分析和总结航班延误的相关规律可以为减轻航班延误提供有效建议和 有益参考。本文收集了某航空公司和OAG数据库的大量历史数据,采用统计学和数据挖掘相 关方法发现海量数据背后潜藏的规律和知识。本文通过统计历年航班数据找出导致航班延误的主要原因。利用决策树模型找到对当前航 班延误类型影响最大的因素,同时分析了不同航班延误类型的出现条件,并

4、得到了置信度在0.9 以上的决策规则。通过统计和分析不同因素下首航班和非首航班的航班延误率的变化,找到了影响首航班延 误率和非首航班延误率的因素。采用TAN贝叶斯网络模型对首航班和非首航班的延误状态进行 建模,得到了影响首航班和非首航班延误状态的主要因素,并且从定量角度分析了主要因素对 于航班延误状态的影响程度,同时发现部分因素之间存在关联。通过计算航班实际延误时间的均值、中位数、偏度等统计学指标,分析其变化趋势和极值 代表的意义,得出了实际延误时间在不同月份和不同小时的变化规律。借助改进后的KNN模 型建立了一种预测航班实际延误时间的模型,并根据RMSE和MAE选择使预测精度最高的 最佳K值

5、。本文借助统计学和数据挖掘的方法得到了航班延误原因、航班延误率和航班延误时间的相 关规律。这些研究结果对于航空公司认识航班延误规律和减少航班延误具有一定的参考价值。关键词:航班延误,数据挖掘,决策树,TAN贝叶斯网络,KNN南京航空航天大学硕士学位论文ABSTRACTDue to the growth of travel demand from passengers, flight delay has been a serious problem with the annual increase of flights in recent years. The research on the d

6、elayed flights would offer helpful advice to the decrease of flight delay when flight delay is inevitable. This dissertation employed the methods of statistics and data mining to seek the rules and knowledge hidden in the massive data collected from an airline company and OAG database.The main reaso

7、ns for flight delay were analyzed from statistics of massive data of recent years. The most influencing factor which leaded to the current flight delay type was discovered by using the Decision-Tree model. Moreover, the condition for each type of flight delays and decision rules with confidence degr

8、ee over 0.9 were also concluded from Decision-Tree model.The factors affecting the flight delay rates were sought out by analyzing the variance of delay rates for the first flight and non-first flights in a flight-string. The main factors, which had impact on the delays of first flight and non-first

9、 flights in a flight-string, and its influence levels were analyzed by applying the TAN Bayesian Network model. In addition, some factors were discovered to be dependent on other factors.The meanings of the changing tendency and extreme value about actual delay time in different months or hours were

10、 analyzed by calculating the Mean, Median, Skewness and other descriptive statistics of actual delay time. An improved model based on KNN for predicting actual delay time was proposed and then optimized by choosing an appropriate parameter K according to RMSE and MAE.In this dissertation some rules

11、about flight delay reasons, flight delay rates and flight delay time were found by the methods of statistics and data mining. These research findings would provide reference for the airline company to recognize the regulations of flight delays and to reduce flight delays.Key Words: flight delay, Dat

12、a Mining, Decision-Tree, TAN Bayesians Network, KNNm基于数据挖掘的航班延误的分析与预测目录H縣11.1本文的选题背景和研究意义11.1.1选题背景11.1.2研究意义21.2国内外研究现状21.2.1关于航班延误原因分析的研究现状和存在问题21.2.2关于航班延误预测的研究现状和存在问题31.3本文的研究内容与研究方法61.3.1研究内容61.3.2研究方法71.3.3技术路线7第二章航班延误原因分析82.1航班的延误原因分析82.2不同类型的航班延误发生条件分析102.2.1决策树102.2.2决策树的特点112.2.3决策树的构造112.

13、2.4构造航班延误类型的决策树132.3本章小结19第三章航班延误率的分析和预测213.1航班延误率的定义213.2影响航班延误率的不同因素213.3不同因素对航班延误状态的影响263.3.1贝叶斯网络263.3.2 TAN贝叶斯网络分析不同因素对航班延误状态的影响283.4本章小结35第四章航班实际延误时间的分析和预测374.1航班实际延误时间的定义37IV南京航空航天大学硕士学位论文4.2航班实际延误时间的分析374.2.1按照月份统计374.2.2按照小时统计404.3航班延误时间的预测414.3.1 KNN 算法414.3.2用KNN算法进行航班实际延误时间的预测424.4本章小结47

14、第五章总结和展望485.1研究工作总结485.2创新之处495.3研究展望49純文50至女i 射54在学期间的研究成果及发表的学术论文55V基于数据挖掘的航班延误的分析与预测图表清单图1.12006年一2016年中国民航运输业的航班量和航班正常率统计1图1.2本文的技术路线7图2.1不同原因引起的延误在每个月的频数9图2.2决策树的示意图11图2.3C5.0得到的解释变量对目标变量重要性18图2.4CART得到的解释变量对目标变量重要性19图2.5CHAID得到的解释变量对目标变量重要性19图3.1不同航线类型的航班延误率22图3.2不同月份的航班延误率23图3.3首航班的贝叶斯网络图33图3

15、.4不同因素对于首航班延误状态的影响大小33图3.5非首航班的贝叶斯网络图34图3.6不同因素对于非首航班延误状态的影响大小35表2.1不同延误原因引起的航班延误数占当月延误航班总数的比例(:) 9表2.2空管和流量引起的延误航班数与航班总量的相关性检验结果10表2.3决策规则的示意图11表2.4决策树不同算法的比较13表2.5机型分类方法14表2.6延误原因分类14表2.7起降机场分类14表2.8进行分类处理后的数据14表2.8进行分类处理后的数据(:续)15表2.9目标变量的不同类别的原始比例15表2.10平衡采样后目标变量的不同类别的比例15表 2.11C5.0、CART、CHAID、Q

16、UEST 的分类准确性16表2.12关于实际延误时间的决策规则16表2.12关于实际延误时间的决策规则(:续)17VI南京航空航天大学硕士学位论文表2.13延误原因和前序航班延误原因的列联表分析结果18表3.1 9种航线类型21表3.2不同机型的航班延误率23表3.3前序航班延误状态不同时的航班延误率23表3.4前序航班延误时间不同时当前航班的延误率24表3.5 不同计戈丨J过站时间的航班延误率24表3.5不同计划过站时间的航班延误率(:续)25表3.6所有航班串的比例25表3.7航班总数为4的航班串的不同航段顺序的航班延误率26表3.8航班总数为5的航班串的不同航段顺序的航班延误率26表3.

17、9航班总数为6的航班串的不同航段顺序的航班延误率26表3.10贝叶斯网络的四种学习算法28表3.11前序航班延误时间的分类29表3.12计划过站时间的分类29表3.13航线类型分类30表3.14月份分类30表3.15机型分类30表3.16前序航班延误状态的分类31表3.17航段顺序的分类31表3.18经过处理后的建立贝叶斯网络的数据31表3.19首航班的航线类型的条件概率34表3.20非首航班的前序航班延误时间的条件概率35表4.1实际延误时间按照月份统计的统计量38表4.2实际延误时间的均值、中值和延误航班数的相关系数检验结果39表4.3实际延误时间按照小时统计的统计量40表4.4机型分类方

18、法42表4.4机型分类方法(:续)43表4.5延误原因分类43表4.6起降机场分类43表4.7训练集数据44表4.8测试集数据44VII基于数据挖掘的航班延误的分析与预测表4.9 K取不同值时的RMSE和MAE46表4.9 K取不同值时的RMSE和MAE (:续)47VIII南京航空航天大学硕士学位论文缩略词缩略词英文全称TANTree Augmented NaiveCHAIDChi-squared Automatic InteractionCARTClassification and Regression TreesMAPMaximum a Posteriori EstimationEMEx

19、pectation MaximizationMCMCMarkov Chain Monte CarloPCAPrincipal Component AnalysisSVRSupport Vector RegressionKNNK-Nearest NeighborRMSERoot-Mean-Square ErrorMAEMean Absolute Error南京航空航天大学硕士学位论文第一章绪论1.1本文的选题背景和研究意义1丄1选题背景2006年以来,随着经济和社会的发展,我国民航旅客运输量逐年递增。据全国民航航班 运行效率报告统计(见图1.1),2006-2016年期间,我国民航业的航班量以年

20、均10.8%的速度 快速增加。与此相对的,航班正常率从总体上看表现为下降趋势(由于2016年航班正常率统计 方法改变,所以该年航班正常率略有回升)。2006年一2009年的航班正常率尚能保持80%以上, 从2009年之后航班正常率总体上呈下降趋势,2015年甚至降到了 68.33%。航班延误不但影响 旅客的出行计划,造成旅客时间和经济上的损失,引发旅客和航空公司、机场之间的矛盾,还 会增加航空公司的运营成本,干扰机场、空管等部门的正常运作。目前航班延误问题已经成为 旅客、航空公司和空管等民航业相关部门重点关注的问题。虽然由于种种原因,无法完全消除航班延误,但是可以采取种种措施来减少航班延误的发

21、 生,或者提前预测出延误并尽早通知旅客和相关部门,让各方都做好应对工作也是一种解决航 班延误的方法。图1.1 2006年一2016年中国民航运输业的航班量和航班正常率统计1基于数据挖掘的航班延误的分析与预测1.1.2研究意义一、充分发掘数据价值随着信息技术的发展,目前航空公司、空管部门、机场已经累积了海量的航班数据。以前 这些数据仅仅用于记录和查询,并未充分发掘出数据背后的价值。利用数据挖掘的方法,可以 对这些数据进行再加工,以期发现之前没有发现的规律和知识。二、为航空公司降低航班延误提供有益参考通过数据挖掘的各种方法寻找到该航空公司航班延误的主要原因和规律,帮助该公司的航 班进一步优化航班计

22、划,减少延误发生次数和延误时间。三、拓展数据挖掘方法在民航的应用目前数据挖掘方法已在各行各业广泛应用,在民航领域的应用尚处于初步阶段。现在国内 已有部分公司(例如飞常准、航班管家等公司)从服务旅客角度出发,利用数据方法得出航班 准点概率、计划起飞时间、计划到达时间等信息提供给广大旅客。本文将从服务航空公司的角 度出发,通过数据挖掘的方法,找出航空公司需要的有关航班延误的有益信息,为航空公司的 减少航班延误提供参考。1.2国内外研究现状1.2.1关于航班延误原因分析的研究现状和存在问题一、关于航班延误原因的定性分析邱红平(2011)根据某航空公司内部资料进行统计,将延误原因分为承运人原因(飞机晚

23、 到、机组原因、航班计划等)、非承运人原因(天气原因、流量控制、机场保障、自然灾害等)、 交叉原因(航班起降时段集中、旅客晚到和流量控制等原因同时发生、旅客因为延误霸占飞机 等)1。王娟娟等人(2012)根据行业经验总结出导致航班延误的原因为:天气原因、空域管 制(流量控制和军事活动)、飞机故障、飞机调配(飞机晚到)、旅客原因(旅客晚到、旅客霸 机等)2。曹卫东等人(2012)、邵荃等人(2013)、杨秀云等人(2014)、丁建立等人(2008)、 徐涛等人(2009)将航班延误原因主要分为天气原因(大风、暴雨、雷电、雪、雾霾等)、流量 原因(军事演习、空中航路拥挤等)、航空公司原因(飞机故障

24、、运力调配、机组调配等)、旅 客原因(旅客迟到、旅客拒绝登机等)、机场原因(地勤保障能力不足、安检不及时等)、其他 原因(地震、火山爆发等)3-7。文献1从航空公司角度出发来划分航班延误原因,并且考虑了多原因造成的航班延误这种 情况,具有一定的合理性。但是只分成了三类原因,略显粗糙,不能准确反映航班延误的相关 情况。文献2只找出了部分的延误原因,忽略了机场保障不力等重要的延误原因。文献372南京航空航天大学硕士学位论文对于航班延误原因的分类方法也是民航业普遍采用的延误原因分类方法,该分类方法基本覆盖 了导致航班延误的责任主体,较为全面和科学,但遇到多种原因共同导致航班延误的情况时, 可能无法准

25、确区分责任主体。二、关于航班延误原因的定量分析曹卫东等人(2012)将禁忌搜索、遗传算法和贝叶斯网络相结合,针对大型枢纽机场构建 了航班起飞延误的贝叶斯网络模型,揭示了机型、航站楼、航空公司等因素与航班延误时间之 间的因果关系3。邵荃等人(2012)利用贝叶斯网络得到了天气、起飞时间、到达航班延误等 级等因素对航班起飞延误等级的影响程度4。杨秀云等人(2014)找出了航班延误的指数分布, 通过建立航班延误的排队模型,找到了对航班延误影响最大的因素及其出现频数,并且研究了 这些因素对航班延误数的影响大小5。ParkerEC等人(2016)运用线性回归模型研究了机场容 量、天气、星期对于航班起飞延

26、误时间和航班到达延误时间的影响大小8。房芗浓等人(2007) 通过贝叶斯网络模型确定了天气、流量、机场等因素对航班延误时间的影响程度,得出了影响 航班延误时间的主要因素和这些因素的影响大小9。李俊生等人(2008)利用贝叶斯网络重点 研究了在北京机场过站的航班的到达延误、天气、禁飞等因素对起飞延误的波及影响,发现飞 机晚到对起飞延误影响最大K1。张亮(2008)将多种延误原因细分为23个具体指标,选用层次 分析法和物元分析法来计算不同指标的权重建立了航班延误等级模糊综合评价模型,根据航空 公司的实际数据验证了该模型的准确性11。张静(2012)分别利用排队论和模糊线性回归方法 对航班到达延误等

27、级建模,建立了基于天气因素的航班延误的评估模型,并采用具体数据验证 了该模型的可行性12。WesongaR等人(2014)通过建立自回归积分滑动平均模型,发现不同 航线会产生不同的航班延误13。文献35、文献8 13采用了贝叶斯网络、线性回归等模型,从定量的角度研究了不同 因素对于航班延误的影响大小,但是对于这些因素的出现原因很少涉及,也没有进一步研究不 同因素之间的相互作用。1.2.2关于航班延误预测的研究现状和存在问题一、关于航班延误时间的研究Schaefer L等人(2001)利用DPAT (Detailed Policy Assessment Tool)方法研究了机场对延误 的影响,发

28、现航班起飞延误时间与起飞机场每小时的起降需求存在相关性,同时航班降落延误 时间与降落机场每小时的起降需求也存在相关性tW。RongY等人(2009)基于飞机、机组、过 站时间、航班状态、时隙、机场数量等因素建立了航班延误仿真模型,发现过站时间是影响航 班延误时间的主要因素15。王奇(2010)利用时间序列分析方法中的ARIMA (Autoregressive3基于数据挖掘的航班延误的分析与预测Integrated Moving Average Model)模型预测每月航班起飞平均延误时间,并验证了该模型的合 理性。Wong JT等人(2012)调查了航空公司的航班延误传播情况,通过Cox比例风

29、险回归 方法建立了起飞延误时间和到达延误时间的预测模型,并研究了过站时间、机型、延误原因、 季节等因素对起飞延误时间和到达延误时间的影响程度17。陈海燕等人(2012)采用SVR (Support Vector Regression)对机场不同时段的航班起飞延误时间和航班空中等待时间进行预 测,并且验证了该预测模型的有效性18。陈海燕等人(2012)通过卡尔曼滤波方法研究了航班 串中前一个航班的到达延误时间对后一个航班的起飞延误时间的影响大小19。杨文东等人 (20B)通过非参数估计方法找到了首都机场每天的航班延误时间所服从的分布。吴薇薇等 人(2014)将波及树和贝叶斯网络相结合,基于机场、

30、计划起飞时间、计划到达时间、机场随 机因素引起的延误时间、松弛时间等因素建立了航班延误时间的预测模型P1。程洁(2015)建 立了包含天气、假期、起飞时段、航空公司、随机因素的时间序列模型预测航班的起飞延误时 间和起飞延误率22。罗赞骞等人(2015)综合考虑了上一个航班和下一个航班的运行情况,采 用支持向量回归方法建立了当前航班的到达延误时间预测模型23。文献20是直接找出延误时间的概率分布,基于该分布预测航班延误时间,但是不一定所 有航班延误数据都能找到恰当的分布来描述。文献14一 19、文献21 23首先确立了导致航班 延误的关键因素,然后利用统计分析、系统仿真、时间序列、Cox比例风险

31、回归、支持向量回 归、贝叶斯网络等方法,建立了航班延误时间的分析和预测模型,并且对模型预测效果进行检 验,这些模型和方法具有一定参考作用,但是考虑到每种模型都有其适用范围,在实际运用时, 应该结合数据的特点选择合适的方法。二、关于航班延误次数的研究Mueller E等人(2002)通过研究美国10个主要机场的航班起降情况找到了航班起飞延误时 间和到达延误时间所服从的分布,并且通过时间序列模型得到离港延误数和到港延误数的规律 24。TuY等人(2008)利用非参数方法得到了每天和每个季节航班起飞延误的分布,通过起飞 延误分布来预测航班起飞延误时间25。Klein A等人(2010)利用已有的WI

32、TI (Weather Impacted Traffic Index)确定天气和空中交通流量对枢纽机场的延误的影响程度,帮助航空公司根据机场 延误状况决定航班取消数量26。丁建立等人(2011)采用生物免疫否定算法对枢纽机场在不同 时段的航班延误数进行预测,实现对机场的繁忙程度的实时判断P7。丁建立等人(2011)将模 糊数学和简单免疫方法相结合,建立了模糊免疫策略模型来预测不同时间段的航班起飞延误数 28。丁建立等人(2015)借助免疫否定算法对15个机场主要运营时段的航班延误数进行预测, 帮助机场预先判断航班运行情况P9。丁建立等人(2010)采用包含免疫识别算法和灰色预测的 混合模型来预

33、测某机场每个时段的航班延误数,并验证了该模型的可靠性和有效性31。Ding J4南京航空航天大学硕士学位论文等人(2012)利用危险模型和灰色模型和混合加权模型来预测某枢纽机场不同时段的航班延误 数,并且验证该模型可以较好反映该机场的航班延误趋势31。Flynn L等人(2003)基于起飞机 场情况、到达机场情况、机型等因素建立起飞延误航班数和到达延误航班数的实时预测模型32。 刘小飞(2010)采用时间序列模型来预测航班延误率,利用一元线性回归、多元线性回归、BP 神经网络、加入节假日因素的SVR (Support Vector Regression)模型对航班延误数进行预测并 验证其准确性

34、和有效性33。罗凤娥等人(2014)将隐含马尔科夫统计模型和指数平滑法引入时 间序列模型预测不同时间点的航班延误数34。吴抗抗(2012)基于已有的航班延误数据通过加 权马尔科夫链预测指定时间段内的航班延误数35。刘乙超(2016)基于航空公司、月份、星期、 节假日等因素,采用了机器学习中的C5.0、随机森林、支持向量机、KNN等几种主流方法对航 班延误数进行预测,其中支持向量机预测准确率最高36。文献2425通过统计学方法找到了航班延误数的分布,但是更多的数据并不能直接找到 其统计分布,所以通过寻找统计分布来研究航班延误数在实际研究中可行性不高。文献26采 用的方法主要针对空管系统采集的数据

35、,适用性较小。文献2729都采用了生物免疫算法, 该方法容易陷入局部收敛和提前收敛,在使用时需要采取一定的策略改善收敛效果提高预测精 度。文献3031采用了灰色模型来进行预测,灰色模型一般用于样本量较小、信息不确定数 据,如果有其他更好的办法,一般不提倡采用灰色系统来进行预测,对于样本量较大的航班延 误数据,其实可以采取其他方法来进行分析。文献32M都用到了时间序列方法,时间序列 方法将时间因素作为预测的关键因素,但是导致航班延误的因素不一定都和时间有关,另外使 用时间序列方法前需要进行平稳性检验并将非平稳数据转化成平稳数据,这个过程可能使数据 失去部分重要的信息。文献3536都使用了支持向量

36、回归方法来进行预测,而支持向量回归 方法主要适用于样本量较小的数据,当样本量较大时运算速度较慢,同时支持向量回归方法的 预测效果依赖于参数设置和核函数的选择,需要多次试验才能找出预测效果最好的参数和核函 数。三、关于航班延误等级的研究徐涛等人(2009)建立了进港延误等级和离港延误等级的简单贝叶斯模型,分析不同的天 气类型、机型、时段、航空公司、航线对于进港延误等级和离港延误的影响大小7。Zonglei L 等人(2008)以延误时间来划分延误等级,采用K-means聚类方法找到了最佳的延误等级划分 方式,利用决策树模型建立了不同延误等级的预测模型37。Yu-Jie Liu等人(2008)借助

37、贝叶斯 网络构建了航班延误时间的诊断模型,分析了不同时段和不同起飞延误等级对于到达延误等级 的影响大小以及航班取消和航班延误等级之间的关系38。曹卫东等人(2009)采用贝叶斯网络 方法分别研究了航班延误原因、过站时间等级、起飞时段对航班串中每个航班的到达延误等级5基于数据挖掘的航班延误的分析与预测的影响大小39。刘玉洁(2009)利用多个贝叶斯网络和SVM组成的混合学习模型对一个机场的 航班起飞延误等级进行预测,辅助机场和航空公司进行航班延误状况预判4。牛亦(2010)采 用数据挖掘和数据库技术构建了航班延误等级的分析预测系统41。陈海燕等人(2012)利用航 班及时数据,采用动态数据驱动方

38、法进行航班延误时间的预测42。CaoW等人(2012)将遗传 算法和模拟退火算法引入到贝叶斯网络中,利用这个改进后的贝叶斯网络研究了航站楼、航空 公司、机型、起飞时间、航线类型等因素对航班起飞延误等级的影响程度43。扶雪浇(2013) 以航班着陆率来表示机场的航班延误等级,采用SVM方法预测航班着陆率,进而对机场延误等 级进行预警44。罗谦等人(2014)首先使用主成分分析对月份、星期、航空公司、飞行距离等 航班自身提取的因素进行降维,然后利用支持向量回归方法建立了航班进港延误等级和离港延 误等级的预测模型45。李频等人(2014)将自相关系数作为权重,采用包含权重的动态马尔科 夫模型进行航班

39、延误等级的预测46。岳仁田等人(2014)构建了物元可拓模型研究了由一个航 班联系起来的两个机场的航班延误等级的相关性47。Cheng H等人(2014)基于改进的C4.5决 策树算法构建了航班延误等级的预测模型,研究不同机场、机型、航空公司、航班数等因素对 航班延误等级的影响,并通过实验证明该模型的预测准确率优于朴素贝叶斯和贝叶斯网络模型 48。Sun C等人(2016)基于已有的天气数据,采用数据挖掘中的决策树、随机森林和KNN方 法对单个航班的延误等级进行分析和预测,并选出了预测准确效果最好的方法49。Baluch M (2017)等人采用聚类和分类算法分析和预测了不同等级的航班延误的发

40、生条件。文献7、文献3750都是关于航班延误等级的研究,航班延误等级通常是按照延误时间 长度或者延误率来进行划分,但是这种划分往往是根据样本数据量来确定的,具有一定主观性。 同时有些划分比较粗糙,比如文献46将延误时间按照以下方式划分:小于25分钟为等级0, 25 分钟一60分钟为等级1,60分钟一 120分钟为等级2, 120分钟以上为等级3,等级划分比较粗糙会 降低其对于航班管理和机场运行的指导价值。综上所述,目前国内外对于航班延误原因的研究较多,但主要集中在延误因素对航班延误 的影响上,缺乏对多种延误因素的交互影响及该因素出现原因的研究,本文将在此方面作进一 步的研究。关于航班延误预测的

41、问题,目前国内外学者已经提出了不少好的方法,但不一定完 全适用于本文的数据,需要根据实际情况作一定的改进,以便发现更多有价值的规律和知识。1.3本文的研究内容与研究方法1.3.1研究内容一、从海量的数据中找到航班延误的主要原因,探索各原因内部是否具有关联性,从定量 角度分析各原因对延误的影响大小,分析这些延误原因的出现条件。6南京航空航天大学硕士学位论文二、找出影响航班整体延误率和单个航班延误状态的主要因素,并分析每种因素对航班延 误率的具体影响。通过数据挖掘模型分析这些因素对于航班整体延误率和单个航班延误状态的 影响大小。三、分析航班实际延误时间随着月份和小时的变化规律,找出航班实际延误时间

42、各统计指 标潜藏的规律,选择合适的数据挖掘模型来预测单个航班的实际延误时间。1.3.2研究方法一、采用统计的方法寻找航班延误的主要原因,利用决策树模型分析不同航班延误类型出 现的条件,并找到对其影响最大的因素。二、通过统计筛选出航班延误率的影响因素,通过比较处于不同因素状态下的航班延误率 来分析每种因素对航班延误率的具体影响。通过TAN贝叶斯网络模型来研究不同因素对于单个 航班延误状态的影响大小,并找出对单个航班延误状态影响最大的因素。三、利用SPSS软件统计出不同月份和不同小时下航班实际延误时间的中值、均值、变异 系数等统计量指标,并分析出这些统计量指标的异常值和变动趋势的隐含规律。利用改进

43、后的 KNN模型对单个航班的实际延误时间进行预测。1.3.3技术路线图1.2本文的技术路线7基于数据挖掘的航班延误的分析与预测第二章航班延误原因分析本文统计了某航空公司在2014年1月1日至2014年12月31日期间的所有航班延误数据, 每条数据包括航班日期、航班号、机号、机型、代理、航班性质、实际起飞站、实际降落站、 计划起飞站、计划降落站、计飞时刻、计到时刻、实飞时刻、实到时刻等字段。本部分将基于 这个数据进行分析。按照民航航班正常统计办法文件规定:晚于计划到达时刻15分钟以上的航班视为延误 航班。但是根据2014年1月1日至2014年12月31日的所有航班延误数据统计显示,如果不 考虑减

44、去15分钟,延误时间大于0的航班数为423300个,而延误时间为0-15分钟的航班数为 150290个,所占比例为35%。因此忽略延误时间为0 15分钟的航班,会减少约三分之一的延 误航班数,可能遗漏重要信息。为了更全面地反映延误航班的相关性质,这里对延误航班作以 下定义:当航班的实际到达时刻晚于计划到达时刻,即认为该航班属于延误航班。2.1航班的延误原因分析按照民航航班正常统计办法文件规定,航班延误原因可以分为天气、空管、流量、航 空公司、机场、航班时刻安排、军事活动、联检、油料、离港系统、旅客、公共安全共计12 类。统计某航空公司在2014年每个月内不同延误原因导致的航班延误数,相关结果见

45、图2.1和 表2.1。因为空管和流量这两个因素关联性较大,所以合并为一个因素即空管和流量。从图2.1 可以发现空管和流量控制、天气、航空公司导致的航班延误数较多,因此这三个因素是导致该 公司航班延误的主要原因。由于军事活动、联检、油料等导致航班延误的因素出现次数较少, 且具有很大偶然性,因此本文将略过这些不太重要的原因,只分析对于航班延误影响最大的三 个主要原因。下面将对流量控制、天气、航空公司这三个因素逐一进行分析。8南京航空航天大学硕士学位论文图2.1不同原因引起的延误在每个月的频数表2.1不同延误原因引起的航班延误数占当月延误航班总数的比例()1月2月3月4月5月6月7月8月9月10月1

46、1月12月天气29.529.525.826.226.025.727.527.723.223.622.626.4空管和流量54.256.158.959.458.858.861.461.460.962.160.658.2航空公司12.911.212.111.112.312.18.78.412.111.112.210.6机场0.91.11.01.00.91.30.81.11.21.22.01.6旅客1.41.31.01.31.11.11.00.91.51.11.51.7其他1.10.91.11.00.91.00.70.51.11.01.31.5合计100.0100.0100.0100.0100.0100.0100.0100.0100.0100.0100.0100.0一、空管和流量控制空管和流量控制包含了流量控制、流量影响、航路禁航等多个因素。从表2.1可以看到, 空管和流量控制是航班延误的主要原因。由空管和流量控制引起的延误航班数占每月延误航班 数的54% 62%。从月份来看,空管和流量控

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 可研报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com