多元统计分析 (2)讲稿.ppt

上传人:石*** 文档编号:47753627 上传时间:2022-10-03 格式:PPT 页数:113 大小:3.86MB
返回 下载 相关 举报
多元统计分析 (2)讲稿.ppt_第1页
第1页 / 共113页
多元统计分析 (2)讲稿.ppt_第2页
第2页 / 共113页
点击查看更多>>
资源描述

《多元统计分析 (2)讲稿.ppt》由会员分享,可在线阅读,更多相关《多元统计分析 (2)讲稿.ppt(113页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、多元统计分析第一页,讲稿共一百一十三页哦多多元元统统计计分分析析简简介介客观世界中的任何事物的形成,变化和发展都是受多种因素的影响。各种因素之间又存在着广泛而又错综复杂的联系.例如疾病的产生就受到多种因素的支配,各种病因之间也常存在着一定的内在联系和相互制约.需要分析哪些是主要的,本质的,哪些是次要的,片面的,它们之间的相互关系怎样等问题.多元统计分析正是为了解决这些问题而产生的。第二页,讲稿共一百一十三页哦统计学基础知识的回顾统计学是一门关于如何收集、分析、解释和表达数据的科学。-WebstersInternationalDictionary统计学是研究随机现象规律性的方法学。什么是统计学?

2、温故而知新第三页,讲稿共一百一十三页哦三类现象自然界和人类社会活动中,普遍存在三类现象。现象。确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。如美人与丑人。第四页,讲稿共一百一十三页哦不同现象与研究方法研究方法现象研究方法现象研究方法确定性现象经典数学随机性现象概率统计学模糊性现象模糊数学第五页,讲稿共一百一十三页哦统计学两个方面的作用一.是培养统计思维方法二.学以至用,解决实际问题统计学的知识已渗透到自然科学、社会科

3、学以及人类生活的各个领域。第六页,讲稿共一百一十三页哦统计学应用的普适性自由落体运动规律:公式:h=1/2g*t2重力加速度常数重力加速度常数g=9.80665米米/秒秒2公式是怎样产生的公式是怎样产生的?h经典应用1:牛顿的自由落体运动第七页,讲稿共一百一十三页哦牛顿的自由落体运动实验多次重复实验,测量计录每次下落的高度与时间数据:采用什么方法找规律呢?运用了统计学思想运用了统计学思想回归分析回归分析直线回归方程:y=a+b*xh1/2gth牛顿发现定律方法的探究时间t高度h14.9239.1388.3.第八页,讲稿共一百一十三页哦h。01234t散点图第九页,讲稿共一百一十三页哦牛顿的自由

4、落体定律的产生回归方程的构造回归方程的构造:回归方程:y=a+b*xh01/2gt2h自由落体定律的探究影响定律公式的因素影响定律公式的因素:灵感测量误差测量误差模型的选择模型的选择第十页,讲稿共一百一十三页哦肾脏体积的经验公式肾脏为不规则体肾脏为不规则体,怎样测量怎样测量?立方体体积规律:公式:V=长*宽*高=abca经典应用2:肾脏体积的测量bc肾脏体积计算公式:经验公式:V=/4*长*宽*高公式怎样产生的公式怎样产生的?第十一页,讲稿共一百一十三页哦肾脏体积测量实验用20个肾脏标本,测量计录每个体积及其长,宽,高的数据:采用什么方法找规律呢?回归方程的构造回归方程的构造:y=a+b*xV

5、=/4*长*宽*高实验的回顾编编编编号号号号体积体积体积体积V V长长长长aa宽宽宽宽b b高高高高cc1 10010 52.52 11010 62.63 10511 52.1.影响公式的因素影响公式的因素:测量误差测量误差模型的选择模型的选择第十二页,讲稿共一百一十三页哦历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。护理学的奠基人Nightingale学习和研究统计,出版世界上第一部医院统计的专著医院统计与医

6、院规划。不同科学间相互协作的重要性第十三页,讲稿共一百一十三页哦统计学是“对令人困惑费解的问题做出数字设想的艺术。”-美国美国DavidFreedman统计学是一门处理数据中变异性的科学和艺术。-JohnM.LastA Dictionary of EpidemiologyA Dictionary of Epidemiology 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果第十四页,讲稿共一百一十三页哦现代统计学的基本内容现代统计学的基本内容一、一、试验设计试验设计二、二、数据管理数据管理三、三、统计分析统计分析实验设计临床试验设计调查研究设计数据管理质量控制统计描述统计推断第十

7、五页,讲稿共一百一十三页哦一、一、试验设计试验设计进行一项科研如同建造一座大厦,其设计、进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制,治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科研就会失败,得出错误的结果,对后来的科研产生误导作用。产生误导作用。科研设计如同建筑设计一样举足轻重。科研设计如同建筑设计一样举足

8、轻重。第十六页,讲稿共一百一十三页哦1 试验设计的三要素1)、试验因素2)、试验对象3)、试验效应第十七页,讲稿共一百一十三页哦2 实验设计的三原则随机随机对照对照重复重复(均衡均衡)第十八页,讲稿共一百一十三页哦二、二、数据管理数据管理数据管理数据管理质量控制质量控制第十九页,讲稿共一百一十三页哦三、三、数据分析数据分析统计描述统计描述统计推断统计推断第二十页,讲稿共一百一十三页哦通通过过统统计计描描述述不不仅仅可可以以对对数数据据的的概概貌貌,分分布布,变变量量间间的的关关系系等等有有大大致致的的了了解解,而而且且可可发发现现数数据据中中的的异异常常现现象象。因因此此,统统计计描述描述在统

9、计分析中占有相当重要的地位。在统计分析中占有相当重要的地位。1统计描述统计描述第二十一页,讲稿共一百一十三页哦率、构成比率、构成比统计量统计量均数、中位数均数、中位数相关回归系数相关回归系数统计表统计表统计图统计图条图、直方图、线图等条图、直方图、线图等第二十二页,讲稿共一百一十三页哦用用样样本本的的信信息息来来推推断断总总体体的的特特征征叫叫统统计推断计推断.统统计计分分析析的的目目的的是是由由样样本本推推断断总总体体,故统计学的主体是统计推断故统计学的主体是统计推断2统计推断统计推断第二十三页,讲稿共一百一十三页哦 实验设计的模型1试验因素试验效应(自变量)(因变量)XY试验对象 F y=

10、f(x)+e 1 因果关系:第二十四页,讲稿共一百一十三页哦 实验设计的模型2A因素B因素(X1变量)(X2变量)X1X2试验对象 F X2=f(x1)+e 2 相互关联:第二十五页,讲稿共一百一十三页哦参数参数点估计点估计估计估计区间估计区间估计统统u检验检验计计参数参数t检验检验推推F检验检验断断假设假设相关与回归相关与回归检验检验卡方检验卡方检验非参非参秩和检验秩和检验秩相关检验秩相关检验第二十六页,讲稿共一百一十三页哦统计软件的重要作用“计算机软件给统计学带来革命性变化”发表论文或进行科研课题时,注明统计软件和采用的统计分析方法.统计分析工具的选择:CHISSSAS,SPSS,STAT

11、A第二十七页,讲稿共一百一十三页哦实例解析实例解析3携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?混杂因素混杂因素这中间存在混杂因素-吸烟客观事实,携带火柴不可能引起肺癌。第二十八页,讲稿共一百一十三页哦混杂因素的影响混杂因素的影响图1.1危险因素、混杂因素和结果的关系携带火柴肺癌吸烟第二十九页,讲稿共一百一十三页哦实例解析实例解析4喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系的研究。关系的研究。有有人人观观察察发发现现喝喝咖咖啡啡的的人人,很很多多人人患患MI,这这种现象是表象还是内在因果关系的?种现象是表象还是内在因果关系的?数

12、数据据来来自自2000年年,小小儿儿科科邀邀请请一一位位美美国国医医学学及及生生物物统统计计学学教授来院讲学的例子。教授来院讲学的例子。第三十页,讲稿共一百一十三页哦研究者调查研究者调查MI及非及非MI病人各病人各150例,得到如下例,得到如下数据。表数据。表1.1MINoMI%Coffee906060Nocoffee609040优势比优势比:OR=90*90/(60*60)=2.25Pearsonchi2(1)=12.0,P=0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?第三十一页,讲稿共一百一十三页哦研究者怀

13、虑结论,考虑到其中可能混杂其它因研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞素,如吸烟对喝咖啡与心肌梗塞MI间关系的影响,间关系的影响,进一步分层分析得到。进一步分层分析得到。表表控制吸烟因素的干扰后结果控制吸烟因素的干扰后结果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033优势比优势比OR=1,OR=1P=1.00,P=1.00第三十二页,讲稿共一百一十三页哦表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系关系说明当存在混杂

14、因素时说明当存在混杂因素时,单因素分单因素分析结论并不科学。析结论并不科学。第三十三页,讲稿共一百一十三页哦案例案例:研究生招生与性别的关系研究研究生招生与性别的关系研究第三十四页,讲稿共一百一十三页哦案例讨论研究生招生与案例讨论研究生招生与性别的关系研究性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表.结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。第三十五页,讲稿共一百一十三页哦混杂因素的定义混杂因素的定义当某一危险因素和结果的

15、相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。l上两例中,混杂因素是吸烟第三十六页,讲稿共一百一十三页哦排除混杂因素的两种方法1、分层分析、分层分析2、多元统计分析、多元统计分析第三十七页,讲稿共一百一十三页哦分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。1分层分析方法-控制混杂因素对结果的影响第三十八页,讲稿共一百一十三页哦分层分析的优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时

16、无法实现。第三十九页,讲稿共一百一十三页哦生命在于运动。运动有利于长寿流水不腐。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?实例解析实例解析5运动与寿命关系的研究第四十页,讲稿共一百一十三页哦许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。运动与人的寿命的关系第四十一页,讲稿共一百一十三页哦美国美国Aerobics中心的追踪研究中心的追踪研究在19701989年间,它们追踪观察25,341男性和7084女性,研究运动和死亡率的关系。男性参加者被追踪观察

17、平均8.4年,女性平均7.5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。Blair,S.N.,Kampert,J.B.,Kohl,H.W.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinmenandwomen.”JAMA1996;276:205-10第四十二页,讲稿共一百一十三页哦表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组)指标生存死亡(n

18、=24,740)(n=601)年龄(SD)42.7(9.7)52.1(11.4)*体重指数26.0(3.6)26.3(3.5)收缩压121.1(13.5)130.4(19.1)*总胆固醇213.1(40.6)228.9(45.4)空腹血糖100.4(16.3)108.1(32.0)第四十三页,讲稿共一百一十三页哦l运动量(%)l低20.141.6l中42.039.1l高37.919.3*l冠心病家族史25.433.8*l吸烟26.336.9*l异常心电图6.926.3*l慢性病18.440.3*第四十四页,讲稿共一百一十三页哦分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压

19、较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。但表1.1并没有回答我们的基本问题:运动是否独立地延长寿命?它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。我们应排除排除混杂因素的影响。第四十五页,讲稿共一百一十三页哦分层分析法表1.4Aerobics中心追踪研究中全因死亡患者吸烟和体质的分层分析每万人年分层相对危险度死亡数(CI)吸烟低运动量48.01.63(1.26-2.13)*中/高运动量29.41.0(参照组)不吸烟低运动量44.02.19(1.77-2.70)*中/高运动量20.11.0(参照组)可见低

20、运动量组死亡率高于中/高运动量组的死亡率,这一分层分析表明运动的作用不依赖于吸烟状态。第四十六页,讲稿共一百一十三页哦但是,有可能影响运动和长寿之间关系的其它变量是怎样的?你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量吸烟状态、年龄、体重(正常/异常),你将需要在8个组中分析运动和死亡率的关系。如果分层分析6个变量吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是不是),你将需要在64个组中分析运动和死亡率的关系。第四十七页,讲稿共一百一十三页哦多因素分析法为判断运动是否独立地与死亡有关,研究者们运用了CO

21、X比例风险分析(proportionalhazardsanalysis)的多元分析方法,结果如表1.2。准 许 引 自:Blair,S.N.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinwomen.”JAMA 1996;276:205-10.Copyright 1996,AmericanMedicalAssociation.Additionaldataprovidedbyauthors.第四十八页,讲稿共一百一十三页哦表1.5A

22、erobics中心追踪研究全死亡率危险因素的多元分析自变量死亡率调整相对危险度RR(百万分数)(95%CI)运动量低38.11.52(1.28-1.82)*中/高25.01.0(参照组)吸烟状况吸烟39.41.65(1.39-1.97)*不吸烟23.91.0(参照组)第四十九页,讲稿共一百一十三页哦收缩压140mmHg35.61.30(1.08-1.58)*140mmHg26.11.0(参照组)胆固醇240mg/dl35.11.34(1.13-1.59)*240mg/dl26.11.0(参照组)冠心病家族史有29.91.07(0.90-1.29)无27.81.0(参照组)体重指数27Kg/m2

23、28.81.02(0.86-1.22)27Kg/m228.21.0(参照组)第五十页,讲稿共一百一十三页哦空腹血糖120mg/dl34.41.24(0.98-1.56)120mg/dl27.91.0(参照组)异常心电图有44.41.64(1.34-2.01)*无27.11.0(参照组)慢性疾病有41.21.63(1.37-1.95)*无25.31.0(参照组)第五十一页,讲稿共一百一十三页哦表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52

24、倍。这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。运动与人的寿命的关系第五十二页,讲稿共一百一十三页哦实例解析6吸烟和冠状血管疾病再通术后的预后间的关系Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.5Hasdai,D.,Garratt,K.N.,Grill,D.E.,Lerman,A.,Homes,D.R.“Effectofsamokingstatusonthelong-termoutcom

25、eaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl,J.Med.1997;336:755-61.第五十三页,讲稿共一百一十三页哦表1.6吸烟状况和死亡危险性的两变量关系组别死亡相对危险度RR(95%CI)不吸烟1.0(参照组)以前吸烟1.08(0.92-1.26)刚戒烟0.56(0.40-0.77)*持续吸烟0.74(0.59-0.94)*引自:D.,etal.“Effectofsmokingstatusonthelong-termoutcomeaftersuccessfulpercutaneouscoronaryreva

26、scularization.”N.Engl.J.Med.1997;336:755-61.第五十四页,讲稿共一百一十三页哦持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望)在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论”是 什 么 原 因 导 致 这 一“悖 论”呢?Barbash,G.L.,Reiner,J.,White,H.D.,Et al.“Evaluation of paradoxicalbeneficial effects of smoking in patients receiving

27、thrombolytic therapy foracutemyocardialinfarction:MechanismsofthesmokersparadoxfromtheGUSTO-I trial,with angiographic insights.”J.Am.Coll.Cardiol.1995;26:1222-9.第五十五页,讲稿共一百一十三页哦表1.5人口学及临床因素与吸烟状况的关系不吸烟以前吸烟刚戒烟持续吸烟年龄SD(年)6711651056105511心绞痛病程(月)4166517221462955糖尿病,%2118810高血压,%54483839冠状动脉疾病,%一枝血管50515

28、755二枝血管36363436三枝血管1413109第五十六页,讲稿共一百一十三页哦表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。第五十七页,讲稿共一百一十三页哦表1.6比较一元统计与多元统计吸烟状况与死亡危险性的关系不吸烟以前吸烟刚戒烟持续吸烟一元统计的危险相对度1.01.080.560.7495%CI(参照组)(0.92-1.26)(0.40-0.77)(0.59-0.94

29、)多元统计的相对危险度1.01.341.211.7695%CI(参照组)(1.14-1.57)(0.87-1.70)(1.37-2.26)第五十八页,讲稿共一百一十三页哦表1.6将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比.在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者更加灵敏的结果。一元统计和多元分析的差别表明混杂因素是存在的。第五十九页,讲稿共一百一十三页哦多因素分析与分层分析的比较当你用分层分析每增加一个变量,你将倍增分组的数量。一方面产生大量的打印结果、需要整本书报告你的

30、结果。另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。第六十页,讲稿共一百一十三页哦多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。多因素分析与分层分析的比较第六十一页,讲稿共一百一十三页哦*混杂因素与干预因素关系 当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。一个干预因素是出现结果的原因。第六十二页,讲稿共一百一十三页哦Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、

31、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不?这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。第六十三页,讲稿共一百一十三页哦血压升高体重指数增加高胆固醇血症心肌梗塞酒精消费第六十四页,讲稿共一百一十三页哦统计学不能区别混杂和干预变量统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,

32、混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。第六十五页,讲稿共一百一十三页哦一一多元统计分析的概念多元统计分析的概念多多元元统统计计分分析析是是研研究究客客观观事事物物中中多多种种指指标标间间相相互互依依赖赖,相相互互影影响响的的统统计计规规律律性性的的一一个数理统计学分支个数理统计学分支.医医用用多多元元统统计计分分析析是是多多元元统统计计分分析在医学领域的应用析在医学领域的应用.第六十六页,讲稿共一百一十三页哦二、学习多元统计分析的重要性二、学习多元统计分析的重要性为什么开这门

33、课?为什么开这门课?多多元元统统计计分分析析与与已已学学的的医医学学统统计计学学的的区区别别在哪呢?在哪呢?第六十七页,讲稿共一百一十三页哦多多元元统统计计分分析析能能使使我我们们对对所所研研究究的的问问题题更更全全面面,更更深深刻刻的的认认识识.帮帮助助我我们们透透过过现现象象看看本本质质,发发观观事事物物之之间间内内在在的的本本质质规规律律,从从而而推推动动医医学学科科学的发展。学的发展。第六十八页,讲稿共一百一十三页哦三三.多元统计分析的特点多元统计分析的特点优点有两个优点有两个:一一多元统计分析的资料较容易取得多元统计分析的资料较容易取得;二二多元统计分析可以从整体上分析结果多元统计分

34、析可以从整体上分析结果.第六十九页,讲稿共一百一十三页哦四、开展多元统计教学的可能性四、开展多元统计教学的可能性多元统计分析的数学理论十分复杂多元统计分析的数学理论十分复杂;多元统计分析的计算量很大多元统计分析的计算量很大;教学工作开展不够教学工作开展不够.个个人人电电子子计计算算机机的的飞飞速速发发展展,对对多多元统计学产生重大影响。元统计学产生重大影响。常常 用用 的的 统统 计计 软软 件件 包包 有有 CHISS,SAS、SPSS、STATISTCA,Stata等等.第七十页,讲稿共一百一十三页哦五 关于多元统计选修课一选修课的目的二课时按排,30学时,1.5学分第七十一页,讲稿共一百

35、一十三页哦六 多元统计的教与学一一了解各种多元统计学方法的适用前提条件和用应范了解各种多元统计学方法的适用前提条件和用应范围围二二掌握一种统计软件掌握一种统计软件三三正确解释软件输出结果及结论正确解释软件输出结果及结论讲授与上机实习结合讲授与上机实习结合三三成绩考核成绩考核第七十二页,讲稿共一百一十三页哦七七.多元统计分析的前提条件多元统计分析的前提条件1.多元统计对资料的分布有一定的要求;2.需要有足够大的样本,一般认为,例数m是研究因素个数P的10倍左右。第七十三页,讲稿共一百一十三页哦为什么在统计学常常需要足够多的观测例数呢?第七十四页,讲稿共一百一十三页哦例甲、乙两研究者分别例甲、乙两

36、研究者分别用某新药治疗用某新药治疗10例和例和403例老例老年性气管炎患者年性气管炎患者,其疗效如下表。其疗效如下表。甲治疗结果例数%临床治愈770未治愈330合计10100乙治疗结果例数%临床治愈8320未治愈32080合计403100第七十五页,讲稿共一百一十三页哦临床上感兴趣的问题是新药治疗老年性气管炎治愈率是多少,而不是10和403例的治愈频率,那么应用20%,还是70%,以估计新药治疗老年性气管炎治愈率呢?第七十六页,讲稿共一百一十三页哦概率与频率的关系概率与频率的关系什么是概率?什么是概率?概概率率是是度度量量随随机机事事件件A发发生生可可能能性性大大小小的一个数量的一个数量.记为

37、记为P(A)。)。什么是频率?什么是频率?频频率率若若在在n次次同同样样的的随随机机试试验验,事事件件A发生了发生了k次次,则比值则比值k/n称为频率称为频率第七十七页,讲稿共一百一十三页哦频率与概率的关系:频率与概率的关系:频率与概率的关系:频率与概率的关系:抛掷硬币的试验结果抛掷硬币的试验结果试验者抛掷次数(n)正面次数(k)频率(k/n)lTONG331.00l540.80l1030.30l2070.35l50270.54l100520.52l5002460.492第七十八页,讲稿共一百一十三页哦历历史史上上许许多多著著名名科科学学家家做做过过抛抛掷掷硬硬币币的的试验试验,抛掷硬币试验结

38、果如表抛掷硬币试验结果如表l试验者抛掷次数(n)正面次数(k)频率(k/n)llDeMorgan204810610.518lBuffon4,0402,0480.5069lPearson12,0006,0190.5016lPearson24,00012,0120.5005l第七十九页,讲稿共一百一十三页哦观测例数越少,抽样误差越大,样本的对研究总体的代表性就小。所以,医学试验中需要足够多的例数。第八十页,讲稿共一百一十三页哦定理定理:若当试验次数n充分大以后,频率k/n稳定地在某一确定值P的附近摆动。即:Lim(k/n)=P n 实际工作中实际工作中,常常用频率求概率的近似值用频率求概率的近似值

39、:P(A)f(A)=k/n.频率与概率的关系频率与概率的关系第八十一页,讲稿共一百一十三页哦八八.变量类型及数量化方法变量类型及数量化方法 在在医医学学研研究究中中,常常常常存存在在许许多多反反映映个个体体变变异异性性的的指指标标,统统计计学学上上称称为为变变量量,如年龄、病情、性别等。可分三类。如年龄、病情、性别等。可分三类。第八十二页,讲稿共一百一十三页哦定量变量是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量,或定量变量。对于定量指标,在通常情况下以原始观察值的形式出现。有时可分段处理。如年龄分60以上、以下。第八十三页,讲稿共一百

40、一十三页哦定性变量是对研究单位的定性特征的描述,有类别。亦称分类变量.如性别分男、女为二分类变量。血型可分为A、B、AB、O四类型,为四分类变量。第八十四页,讲稿共一百一十三页哦二项分类变量如性别,用一个变量表示,一般可赋值为0和1,或1和2。1女X=0男第八十五页,讲稿共一百一十三页哦无序多分类 变量如血型分为A、B、AB、O四类型。需用三个哑变量来区分。1A型1B型1O型X1=X2=X3=0其它0其它0其它当X1=0,X2=0,X3=0时,为AB型一般N分类,需要N-1个哑变量表示。第八十六页,讲稿共一百一十三页哦等级变量:是对研究单位的等级特征的描述。如病情分轻、中,重三个等级。数值化法

41、:数值化法:只只须须用用一一个个X X作作为为分分类类变变量量,然然后后按按等等级级顺顺序序分分别别赋赋值值。b例例如如,用用X X表表示示病病情情,其其赋值方法分为赋值方法分为:0轻轻X=1中中2重重第八十七页,讲稿共一百一十三页哦九,九,如何收集和整理多元分析资料如何收集和整理多元分析资料设研究问题中含有p个指标变量x1,x2,xp.及n个观察对象.其数据结构为:编号X1X2X3.XP1x11x21x31x1p2x12x22x32x2p3x13x23x33x3pnx1nx2nx3nxnp第八十八页,讲稿共一百一十三页哦l实验数据要求完整、准确、真实。实验数据要求完整、准确、真实。l若若某某

42、一一观观测测指指标标的的值值,有有空空缺缺,应应注注明明。在在SASSAS中中用用“.”表表示示空空缺缺。切切忌忌凭凭主主观观愿望填写,愿望填写,l在在计计算算机机中中,常常采采用用EPI,CHISSDBASE、ExcelExcel、SASSAS等建立数据库等建立数据库.第八十九页,讲稿共一百一十三页哦十十常用的多元统计方法常用的多元统计方法第九十页,讲稿共一百一十三页哦1 多元回归分析多元回归分析第九十一页,讲稿共一百一十三页哦多元回归分析简介直线回归分析一个自变量和一个因变量间的关系,在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病

43、床周转次数,床位数等有关.多元回归分析正是为解决这些问题而产生的。第九十二页,讲稿共一百一十三页哦多元回归分析多元回归分析多元线性回归是研究多个自变多元线性回归是研究多个自变量与一个因变量之间数量关系量与一个因变量之间数量关系的一种统计方法。的一种统计方法。第九十三页,讲稿共一百一十三页哦实例分析实例分析肾小球滤过率的影响因素研究肾小球滤过率的影响因素研究临临床床观观测测61例例患患者者的的肾肾小小球球滤滤过过率率y,及及10种种观观察察指指标标:年年龄龄X1,糖糖化化血血红红蛋蛋白白X2,饭饭后后两两小小时时血血糖糖X3,胰胰岛岛素素X4,胆胆固固醇醇X5,肌肌肝肝X6,平平均均动动脉脉压压

44、X7,体体重重X8,肾肾脏脏体体积积X9,尿白蛋白排泄率尿白蛋白排泄率X10。病例病例X1X2X3X4X5X6X7X8X9X10y1369163155310130435511772391424177699025310231303421429748296242933101.6145202210310190203101116试分析这试分析这10项指标与肾小球滤过率间的关系。项指标与肾小球滤过率间的关系。第九十四页,讲稿共一百一十三页哦 变量 系数 标准误 t值 P值 截距 71.02 27.66 2.567 0.0133 X1 0.14 0.27 0.510 0.6124 X2 -0.62 0.9

45、5 -0.656 0.5149 X3 1.01 0.48 2.084 0.0423*X4 0.06 0.16 0.382 0.7039 X5 2.33 1.86 1.255 0.2153 X6 -0.64 0.19 -3.369 0.0015*X7 0.02 0.18 0.157 0.8757 X8 -0.24 0.78 -0.308 0.7594 X9 0.23 0.04 5.008 0.0001*X10 -0.21 0.14 -1.524 0.1337P值可以看出,在十个变量中,X3饭后两小时血糖,X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显著性意义,其它的7个变量没有显著性意义。

46、第九十五页,讲稿共一百一十三页哦2曲线拟合1)多项式曲线多项式曲线一般多项式曲线的方程为n时,二次多项式曲线,即抛物线.第九十六页,讲稿共一百一十三页哦3Logistic回归分析回归分析第九十七页,讲稿共一百一十三页哦Logistic回归分分析析简简介介在医学研究中,经常要分析某种结果的产生与哪些因素有关。例如:生存与死亡,发病与未发病,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢?Logistic回归分析能较好地解决这类问题。第九十八页,讲稿共一百一十三页哦Logistic回归是一种概率模型,它是以疾病、死亡

47、等结果发生的概率为因变量,影响疾病发生的因素为自变量建立模型。它适用于因变量为二项,多项分类的资料。在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病预后有关的因素等。第九十九页,讲稿共一百一十三页哦例号是否患病性别吸烟年龄地区101030020014613001301.2910025030100261第一百页,讲稿共一百一十三页哦单因素Logistic回归分析结果模型变量系数标准误卡方P值1X11.7040.804.530.03322X22.5640.937.500.00623X30.1420.049.340.00224X4-0.2710.730.130.7128结果表明,性别,吸烟

48、,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.第一百零一页,讲稿共一百一十三页哦多元Logistic回归分析结果变量系数标准误Wald卡方P值INTERCPT-9.754.095.660.02X12.521.821.920.17X23.981.984.060.04X30.190.085.670.02X4-1.301.580.680.41由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.Log

49、istic回归模型可以用于进行预测和判断工作.第一百零二页,讲稿共一百一十三页哦SurvivalAnalysisSurvivalAnalysis4.4.生存分析生存分析生存分析生存分析第一百零三页,讲稿共一百一十三页哦生生存存分分析析简简介介疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,这类资料一般通过随访收集。随访资料常因中途退出,失访,中止观察等原因造成某些数据观察不完全,须要用专门的方法进行统计处理,这类方法起源于对寿命资料的统计分析,故称为生存分析。第一百零四页,讲稿共一百一十三页哦Multi-ANOVAAnalysisMulti-ANOVAAnal

50、ysis5.5.多元方差分析多元方差分析多元方差分析多元方差分析*第一百零五页,讲稿共一百一十三页哦多元方差分分析析简简介介医医学学工工作作中中常常从从多多个个指指标标不不同同的的角角度度去去研研究究同同一一个个问问题题。若若用用一一元元方方差差分分析析时时,当当不不同同的的指指标标所所表表现现的的趋趋势势不不一一致致时时,就就得得不不出出一一个个概概括括性性的的结结论论,难难以以作作出出明明确确的的判判断断。若若用用多多元元方方差差分分析析则则能能作作出出明明确确的的判判断断。使使我我们们对对所所研研究究的的问问题题更更全全面面、更更深深刻刻的的认认识识。所所得得到到的的结结论论更更可可靠靠

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com