第七章 logistic回归课件.pptx

上传人:春哥&#****71; 文档编号:12722565 上传时间:2022-04-25 格式:PPTX 页数:24 大小:311.38KB
返回 下载 相关 举报
第七章 logistic回归课件.pptx_第1页
第1页 / 共24页
第七章 logistic回归课件.pptx_第2页
第2页 / 共24页
点击查看更多>>
资源描述

《第七章 logistic回归课件.pptx》由会员分享,可在线阅读,更多相关《第七章 logistic回归课件.pptx(24页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1数据科学导论刘苗 Nov.11, 2019 第七章 logistic回归logistic 回归可以看成是普通线性回归的拓展模型.本章介绍利用广义线性模型中的logistic 回归方法应对二分类问题. 虽然近年来已经涌现出很多预测精度很高的分类方法, Logistic 回归仍然是一个十分优秀的分类方法.23主要内容一 基本概念二 logistic 回归及ROC 曲线三 本章的python代码4一 基本概念广义线性模型(generalized linear model) 最小二乘法线性回归:因变量连续, 且被假定成正态分布. 广义线性模型:广义指因变量可以假定为任何指数族分布变量的情况. 因变量

2、为离散的或者是分类变量时, 利用传统的线性模型就会出现问题. 5一个简单的例子6广义线性模型连接函数7高血压的例子(hbp.csv). 这是一份有66 个观测值的未发表的数据:因变量为hbp(是否有高血压, 水平为: 1 高血压, 2 血压正常) 自变量仅为age. 观察散点图.8分组处理看规律 看不同年龄组的发病概率(p)的变化. 考虑因变量hbp 有参数为p 的Bernoulli 分布. 9不同的组数对比 图7.2左右两图分别按照年龄划分为7 组和11 组, 点出每组中高血压发病比例及年龄. 的平均值, 并用光滑曲线去呈现这些点之间的关系. 从这些图可以看出它们与图7.1右图的 某些相似点

3、.10两种连接函数11两种连接函数对比两种连接形式都有近似“S” 型曲线的样式, 且模型的拟合结果非常接近. 因为logit连接形式数学上计算方便,早期应用广泛些. 不过现在计算机普及之后, probit 回归的计算不再成为问题.1213二 logistic 回归及ROC 曲线dataR2.csv乳腺癌数据描述 该数据有10 个预测变量(自变量), 都是数量变量 因变量是二元分类变量, 表明乳腺癌的存在与否. 自变量:Age (年龄, 单位: 年), BMI (单位: kg/m2), Glucose (葡萄糖, 单位mg/dL),Insulin (胰岛素, 单位: U/mL), HOMA (稳

4、态模型评估指数) Leptin (瘦素, 单位:ng/mL),Adiponectin (脂联素, 单位: g/mL)等等数据下载: http:/archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra.14Logistic回归 w=read.csv(dataR2.csv);w,10=factor(w,10) Z=10;D=10;n=nrow(w) mm=Fold(Z,w,D) pred=rep(0,n) #在数据中增加一列准备放预测的值 for(i in 1:Z) predmmi=glm(Classification.,w-mmi,family

5、=binomial)% predict(wmmi,type=response) table(w$Classification,pred0.5) #如果用0.5分割15混淆矩阵 table(w$Classification,pred.5) FALSE TRUE1 39 132 16 4816混淆矩阵P(Y=1|X)0.5True Response12Predict-ion1391321648混淆矩阵中四个格子中的数字对结果的影响相同吗?0.5是唯一的选择吗?是最佳的选择吗?两种不同的分类错误 假阳性率(false positive rate) :实际是正类被预测为负类的占总的负类样本的比例, F

6、PR = FP/(TN +FP); 真阳性率(true positive rate, TPR):被正确预测的正类占总的正类样本的比例, TPR = TP/(TP + FN). ROC曲线临界值不同时,计算不同临界值水平下的混淆矩阵,得到FPR,TPR数值,并以FPR为横轴,TPR为纵轴, 绘制ROC曲线.19R实现代码library(ROCR)par(mfrow=c(1,2),mar=c(4,4,3,2)ROCRpred - prediction(pred, w$Classification)ROCRperf - performance(ROCRpred, tpr,fpr)plot(ROCRp

7、erf, colorize = TRUE, text.adj = c(-0.2,1.7)abline(0, 1, lty = 2)title(ROC curve)plot(performance(ROCRpred, acc)title(Accuracy - Cutoffs plot)auc - performance(ROCRpred, measure = auc)aucy.values1 #0.7797476 AUC值是值是ROC曲线下的面积曲线下的面积20注意分类问题中, 因变量的取值不平衡(各个水平的样本占比悬殊), 要特别注意临界值的界定问题. 不同的临界值选择给出的结果差异较大.针对不平衡问题, 也有一些学者采用抽样的技术调整不平衡性对于结果的影响. 有兴趣的同学可以深入关注过采样及欠采样等问题. 对于因变量为多种类型的情况, 可以采用baseline logit模型, 当然也可以采用后面章节介绍的有监督学习的分类方法. 特别地: 当自变量有很多定性变量, 或者定性变量的水平很多时, logistic 回归或probit回归可能无法实行.2122三 本章的python代码本章代码 .DS python codeDSchap7.ipynb2324谢谢敬请指正!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com