《(5.4)--5.4 终止与剪枝机器学习与模式识别.ppt》由会员分享,可在线阅读,更多相关《(5.4)--5.4 终止与剪枝机器学习与模式识别.ppt(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、Stopping and Pruning终止与剪枝止与剪枝CHAPTER ONE终止Stopping一、终止一、终止分裂终止条件无需分裂当前节点内样本同属一类无法分裂当前节点内所有样本的特征向量完全相同采用任何特征都无法将当前样本集分为多个子类无数据可分当前节点内没有样本已达到 的分解目标。CHAPTER TWO剪枝Pruning二、剪枝二、剪枝过拟合与正则化(三)决策树过拟合的表象决策树的规模过大,导致模型容量激增;决策树过拟合的内在原因终止条件苛刻决策树较深基于离散属性的分裂算法子节点较多、单节点数据变少正则化思路泛化性能估计节点数据数量小,分裂结果随机性大;考虑决策树结构考虑决策树生成过
2、拟合剪枝二、剪枝二、剪枝剪枝问题剪枝原因决策树的生成过程只考虑在训练数据上的性能单纯依赖生长算法的决策树模型容量较大,容易过拟合。剪枝算法删去某些节点,简化决策树结构。满足树状结构;减去哪些节点;提高泛化性能解决优化问题的核心要素目标函数设计优化策略设计有约束的离散优化问题泛化能力难以保证二、剪枝二、剪枝损失函数考虑因素决策树在训练数据上的性能模型容量损失函数|表示决策树所有叶子节点的数量。其中 是第个叶子节点的样本类标签集合,;=|与叶子节点有关经验损失 结构风险叶子节点数量所有叶子节点的加权平均经验熵二、剪枝二、剪枝剪枝目标存在的问题:通过剪枝获取决策树使得目标函数值 最小化()只是对决策
3、树泛化能力的一种间接评价,不一定可靠。()目标函数的权重参数和 的确定过分依赖于经验交叉验证法用决策树在验证集上的分类性能指标评价决策树的泛化能力多用于实际工程项目二、剪枝二、剪枝剪枝策略前剪枝在决策树的生成生成过程中程中同步进行剪枝在节点进行分裂前,对比节点分裂前后决策树的泛化性能指标,若泛化性能在分裂后得到提升,执行分裂;否则不执行分裂。后剪枝在决策树完全生成后逐步剪去叶子节点常采用启发式方法从最深层的叶子节点或具有最高不纯度的叶子节点开始剪枝通过对比剪枝前后的泛化指标,决定是否剪去该叶子节点。二、剪枝二、剪枝剪枝策略通常后剪枝比前剪枝保留的决策树规模更大前/后剪枝策略对比:策略策略时间拟合合风险泛化能力泛化能力前剪枝训练时间较少测试时间较少过拟合风险较低欠拟合风险较高泛化能力一般后剪枝训练时间较长测试时间较少过拟合风险较低欠拟合风险稳定泛化能力较好总结终止与剪枝终止与剪枝终止剪枝无需分裂无法分裂无数据可分前剪枝后剪枝剪枝策略对比剪枝原因剪枝算法核心要素过拟合与正则化(三)剪枝问题损失函数剪枝目标剪枝策略风险最小化交叉验证法LM&PRMADE BY DONGYUE CHENTHANK YOU感谢聆听