05-概率分布-正态分布教程课件.ppt

上传人:醉**** 文档编号:15156674 上传时间:2022-05-11 格式:PPT 页数:59 大小:3.43MB
返回 下载 相关 举报
05-概率分布-正态分布教程课件.ppt_第1页
第1页 / 共59页
05-概率分布-正态分布教程课件.ppt_第2页
第2页 / 共59页
点击查看更多>>
资源描述

《05-概率分布-正态分布教程课件.ppt》由会员分享,可在线阅读,更多相关《05-概率分布-正态分布教程课件.ppt(59页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第五讲 概率分布正态分布1.1 1.1 正态分布的概念和函数正态分布的概念和函数1.2 1.2 正态分布曲线的特征正态分布曲线的特征1.31.3 正态曲线的标化正态曲线的标化1.4 1.4 曲线下面积的分布规律曲线下面积的分布规律1. 1.5 5 正态分布在医学中的应用正态分布在医学中的应用正态分布及其应用【典型案例分析典型案例分析】举例:举例: 随机调查某医院随机调查某医院14021402例待分娩孕例待分娩孕妇,测得她们的体重,试述其体重频数分妇,测得她们的体重,试述其体重频数分布的特征。布的特征。引子:引子:表表5-1 某医院某医院1402例分娩孕妇体重频数分布例分娩孕妇体重频数分布 0.

2、000.020.040.060.0848-56-64-72-80-体重(kg)体重频率密度 作图作图:以体重测量值为以体重测量值为横轴横轴,以频率与组距的,以频率与组距的比值为比值为纵轴纵轴作出直方图。作出直方图。1. 由于该直方图的纵轴由于该直方图的纵轴表示在每个组段内单位表示在每个组段内单位长度所占有的频率,相长度所占有的频率,相当于当于频率密度频率密度,因此将,因此将此图称为此图称为频率密度图频率密度图。 图图5-1 体重频率密度图体重频率密度图 2. 面积面积=频率频率由于频率的总和为由于频率的总和为1,所以该曲线下横轴上所以该曲线下横轴上的面积为的面积为1 。 .0.000.020.

3、040.060.0848-56-64-72-80-体重(kg)体重频率密度若将各直条顶端的中点顺次连接起来若将各直条顶端的中点顺次连接起来,得一条折线。当样得一条折线。当样本量本量n越来越大时,折线就越来越接近一条光滑的曲线越来越大时,折线就越来越接近一条光滑的曲线。 图5-1 体重频率密度图 图5-2 概率密度曲线示意图 推推 断:断:测得一个孕妇体重在测得一个孕妇体重在54-68kg54-68kg的概率有多大?的概率有多大?孕妇体重在哪个范围内算是正常的呢?孕妇体重在哪个范围内算是正常的呢?故对连续性随机变量而言:故对连续性随机变量而言:变量某区间取值的概率变量某区间取值的概率 = = 正

4、态曲线该变量区间的面正态曲线该变量区间的面积积密度 正态分布正态分布( normal distribution):是描述连续型:是描述连续型随机变量最重要的分布。其分布曲线叫正态分布随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的曲线,呈中间高,两边低,左右基本对称的“钟钟型型”曲线,近似于数学上的正态分布,曲线,近似于数学上的正态分布,又称高斯又称高斯分布(分布(Gauss distribution)。正态分布正态分布( (normal distribution)德莫佛最早发现了二项概率德莫佛最早发现了二项概率的一个近似公式,这一公式被的一个近似公式,这一公式

5、被认为是正态分布的首次露面。认为是正态分布的首次露面。正态分布在十九世纪前叶由正态分布在十九世纪前叶由高斯加以推广,所以通常称为高斯加以推广,所以通常称为高斯分布高斯分布( (Gauss distribution)。德莫佛德莫佛高高 斯斯10马克的钱币马克的钱币 医学研究中许多正常人的生理,生化指标、测医学研究中许多正常人的生理,生化指标、测量误差等多呈正态分布或近似正态分布。量误差等多呈正态分布或近似正态分布。许多非正态分布资料,当样本含量足够大时,许多非正态分布资料,当样本含量足够大时,也可以用正态分布作为它的极限分布形式。也可以用正态分布作为它的极限分布形式。有时也可将非正态分布资料转化

6、为正态分布来有时也可将非正态分布资料转化为正态分布来处理。处理。正态分布在医学研究中的重要作用:正态分布在医学研究中的重要作用:医学研究中:医学研究中:正态分布的密度函数正态分布的密度函数,即正态曲线的函数表达式:即正态曲线的函数表达式:XeXfX,21)(222/)( 式中,式中,为为总体均数,总体均数,为为总体标准差,总体标准差,为圆周率,为圆周率,e为为自然对数的底,仅自然对数的底,仅x为变量。为变量。 当当x确定后,确定后, f(x)为为X相应的纵坐标高度,则相应的纵坐标高度,则X服从参数服从参数为为和和2的正态分布(的正态分布( normal distribution),记作记作XN

7、( ,2 )。)。 XeXfX,21)(222/)(总体均数总体均数总体标准差总体标准差(一)正态分布的两个参数:(一)正态分布的两个参数: 和和 是正态分布的是正态分布的两个参数两个参数, 和和决定了决定了x的概率分布;习惯上用的概率分布;习惯上用 N (, 2)表示均数为表示均数为 ,标,标准差为准差为的正态分布。的正态分布。 当给定不同的当给定不同的 x 值后,就可以根据此方程求得相应的值后,就可以根据此方程求得相应的纵坐标高度(频数),并可绘制出正态曲线的图形,记纵坐标高度(频数),并可绘制出正态曲线的图形,记作作XN(,2) :正态分布曲线正态分布曲线:高峰位于中间,两侧逐渐下降并完

8、全对:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的称,曲线两端永远不与横轴相交的“钟型钟型”曲线。曲线。当当固定不变时,固定不变时,越大,曲线沿横轴越大,曲线沿横轴越向右移动;反之,越向右移动;反之, 越小,则曲线沿横轴越向左移越小,则曲线沿横轴越向左移动,所以动,所以叫正态曲线叫正态曲线N(, 2)的)的位置参数位置参数, 。1. 位置参数:位置参数: 图图5-4 正态分布位置随参数正态分布位置随参数变换示意图变换示意图=1=1.5=22. 形状参数形状参数: 图图5-6 正态分布形态随参数正态分布形态随参数变换示意图变换示意图 当当固定不变时,固定不变时,越大,曲线越平

9、阔;越大,曲线越平阔; 越小,曲线越尖峭,越小,曲线越尖峭, 叫叫正态曲线正态曲线N(, 2)的)的形形状参数状参数。 (二)正态分布图形的特征:(二)正态分布图形的特征:1. 对称性:关于对称性:关于x=对称对称2. 集中性:集中性: 正态曲线在横轴上方,正态曲线在横轴上方, 当当x=时时, f (x)取最大值,即均数位于曲线的最高处。取最大值,即均数位于曲线的最高处。3. 对对频率密度正态分布图,横轴上频率密度正态分布图,横轴上曲线下的面积为曲线下的面积为1。4. 是正态曲线的位置参数,决定曲线在横轴上的位置;是正态曲线的位置参数,决定曲线在横轴上的位置; 增大曲线沿横轴向右移,增大曲线沿

10、横轴向右移, 减小曲线沿横轴向左移。减小曲线沿横轴向左移。5.是正态曲线的形状参数,是正态曲线的形状参数,越大数据越分散,曲线越越大数据越分散,曲线越“矮胖矮胖”,越小数据越集中,曲线越越小数据越集中,曲线越“瘦高瘦高” 。 为了应用方便,常将正态概率函数中的为了应用方便,常将正态概率函数中的 x 作如作如下变量代换,令:下变量代换,令: Z称为标准正态变量。把称为标准正态变量。把u代入概率密度函数代入概率密度函数 ,得标准正态分布的概率密度函数:得标准正态分布的概率密度函数: 相对于正态变量相对于正态变量 x,Z 没有度量单位。根据没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形

11、。的不同取值,可绘出标准正态分布的图形。xZueZu,21)2/j(2任意正态分布曲线任意正态分布曲线 XN(,2)标准正态分布曲线标准正态分布曲线XN(0,1) 将一般正态分布曲线的将一般正态分布曲线的 的位置平移到原点,再的位置平移到原点,再以标准差以标准差为横轴单位,这样就把原来个别的正态分布为横轴单位,这样就把原来个别的正态分布转换为一般的标准正态分布转换为一般的标准正态分布 N(0,1),亦称为),亦称为Z分布分布(或(或 分布分布)。)。 正态曲线下的面积分布有一定的规律性:正态曲线下的面积分布有一定的规律性: 因正态曲线下累计频数的总和等于因正态曲线下累计频数的总和等于 100%

12、 或或 1,则:,则:横轴上曲线下的面积(概率)就等于横轴上曲线下的面积(概率)就等于 100% 或或 1;均数两侧的面积(概率)各占均数两侧的面积(概率)各占 50%。实际工作中常需了解横轴上某一区间曲线下面积占实际工作中常需了解横轴上某一区间曲线下面积占总面积的百分比,以便估计该区间的频数占总频数的百总面积的百分比,以便估计该区间的频数占总频数的百分比(即频数分布情况)。这就需要采用定积分的办法,分比(即频数分布情况)。这就需要采用定积分的办法,对函数式对函数式 (1) 或或 (2) 定积分,算得从定积分,算得从 - 到到 x,或从,或从 - 到到 Z 的累计面积(概率)。的累计面积(概率

13、)。 .x图 6 正态分布(左)及标准正态曲线下(右)的累计面积dxexFxx)2/()(2221)(ZdZZ2221)(jeZZ/ 由于引入了标准正态变量由于引入了标准正态变量 Z 值,只需对标准正值,只需对标准正态公式求定积分,求其曲线下从态公式求定积分,求其曲线下从 -到任意到任意Z 值的累值的累计面积,并制成专用的计面积,并制成专用的 Z 值表(见附表);这样值表(见附表);这样对对于其它任意的正态分布于其它任意的正态分布N(, 2) ,都可以通过变量,都可以通过变量代换转化为标准正态分布代换转化为标准正态分布,通过查表就完成其概率,通过查表就完成其概率计算问题。计算问题。1. 左半侧

14、左半侧 Z 值对应面积的查法:值对应面积的查法:1. 标准正态分布区间(标准正态分布区间(-1, 1 )的面积占总面积的)的面积占总面积的68.26% 2. 标准正态分布区间(标准正态分布区间(-1.96,1.96)的面积占总面积的)的面积占总面积的95% 3. 标准正态分布区间(标准正态分布区间(-2.58,2.58)的面积占总面积的)的面积占总面积的99% 标准正态分布曲线下面积规律标准正态分布曲线下面积规律举例:举例: 当当 Z = -1.96时,左侧的累计面积时,左侧的累计面积= 0.025(该区间累(该区间累计频数占总例数的计频数占总例数的 2.5%),记作),记作 P(Z1.96)

15、 = 0.025 。 当当 Z = 1.96时,时, 左侧累计面积为左侧累计面积为 0.975,可记作,可记作 P(Z1.96)=0.975, 此时此时P(Z1.96)=0.025 。2.左半侧左半侧Z 值对应面积的查法:标准正态分布是以值对应面积的查法:标准正态分布是以 0 为中为中心左右对称,所以该表只计算曲线下一半的面积即可心左右对称,所以该表只计算曲线下一半的面积即可 。举例:举例:求求 Z = - 0.5 -1.5之间的面积。之间的面积。 查表找出查表找出 Z = -0.5 时的对应面积为时的对应面积为 0.3085,再,再查出查出 Z = -1.5 时的对应面积时的对应面积 0.0

16、668,相减即可。,相减即可。 即:即:P(Z = - 0.5 -1.5)= P(Z = - 0.5) - P(Z = -1.5) = 0.3085- 0.0668 = 0.24173. 查任意两个查任意两个 Z 值间的面积:值间的面积:的面积到u(1)曲线下横轴上的总面积为)曲线下横轴上的总面积为100%(2)表中曲线下面积为)表中曲线下面积为(- ,Z)(3)标准正态曲线下的面积以)标准正态曲线下的面积以0为对称,即为对称,即如区间如区间(- ,-1.96)与区间与区间(1.96,+ ) 的面积相等。的面积相等。小结小结:F(F(Z)1F()1F(Z) )对标准正态分布曲线对标准正态分布曲

17、线4. 求一般正态分布求一般正态分布N(,2)曲线下的面积:曲线下的面积: 先求先求 u 值:值: 根据根据 Z 值在表中查出相应的面积值值在表中查出相应的面积值当总体均数和总体标准差未知时,就用样本均数当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替计算。和样本标准差来代替计算。 所以对正态分布或近似正态分布资料,只要求出所以对正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略估计了。均数和标准差,便可就其频数分布作出概略估计了。,sxxZxZ未知:已知:,举例举例:已知已知 120 名名 12 岁男孩身高均数为岁男孩身高均数为 143 cm,标,标准差为

18、准差为 5.8 cm,试估计该地,试估计该地 12 岁男孩身高在岁男孩身高在 135 cm 以下者有多少人?以下者有多少人? 答:答:1. 首先计算首先计算 Z 值:值:3. 据概率计算人数据概率计算人数:身高在身高在 135 cm 以下者有:以下者有:1208.38% =10人人 2. 查查 Z 值表:值表: 当当 u = -1.38 时,左侧尾部面积时,左侧尾部面积 0.0838,即身高,即身高在在 135cm 以下者占总人数的以下者占总人数的 8.38%。38. 18 . 5143135sxxZ常用的正态分布、标准正态分布曲线下面积规律常用的正态分布、标准正态分布曲线下面积规律正态分布正

19、态分布标准正态分布标准正态分布面积规律面积规律 1.64 01.6490.00%1.9601.9695.00%2.5802.5899.00%(一)(一) 制定医学参考值范围制定医学参考值范围 参考值范围参考值范围(reference range):指所谓:指所谓“正常人正常人”的解剖、的解剖、生理、生化等指标的波动范围。生理、生化等指标的波动范围。制定方法:制定方法:制定参考值范围时,首先要确定一批样本含量足够制定参考值范围时,首先要确定一批样本含量足够大的大的“正常人正常人”。所谓。所谓“正常人正常人”不是指不是指“健康健康人人”,而是指排除了影响所研究指标的疾病和有关,而是指排除了影响所研

20、究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。因素的同质人群,必须是随机选择的大样本。而后根据指标的实际用途确定而后根据指标的实际用途确定单侧或双侧界值单侧或双侧界值,根,根据研究目的和使用要求选定适当的百分界值,常用据研究目的和使用要求选定适当的百分界值,常用95%。 .单侧临界值单侧临界值:标准正态分布单侧尾部面积等于:标准正态分布单侧尾部面积等于时所对应时所对应的正侧变量值,记作的正侧变量值,记作Z Z。双侧临界值双侧临界值:标准正态分布双侧尾部面积之和等于:标准正态分布双侧尾部面积之和等于时所时所对应的正侧变量值,记作对应的正侧变量值,记作Z Z/2/2。以不同的方法计算参

21、考值范围:以不同的方法计算参考值范围:(1)正态分布法:正态分布法:适用于正态或近似正态分布资料适用于正态或近似正态分布资料表表5-2 常用参考值范围的制定常用参考值范围的制定 双侧界值单侧下限单侧上限sZX2a/sXaZsZX a 举例举例1:调查某地调查某地120名健康女性血红蛋白,直方图名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋显示其分布近似正态,试估计该地健康女性血红蛋白的白的95%参考值范围。参考值范围。 解析解析: 1. 分布近似正态分布近似正态2. 过高过低均为异常过高过低均为异常3. 求上、下界值求上、下界值正态分布法求参考值范围正态分布法求参考值范

22、围设定双侧界值设定双侧界值)/(39.1372 .1096. 14 .11796. 1lgsx上界:上界:)/(41.972 .1096. 14 .11796. 1lgsx下界:下界:所以,该地健康女性血红蛋白的所以,该地健康女性血红蛋白的95%参考值范围是参考值范围是(97.41,137.39)g/l。 举例举例2: 某地调查某地调查120名健康成年男性的第一秒肺通名健康成年男性的第一秒肺通气量得均数气量得均数 X =4.2(L), 标准差标准差S =0.7(L),试据此估,试据此估计其第一秒肺通气量的计其第一秒肺通气量的95%参考值范围。参考值范围。 解析解析: 1. 分布近似正态分布近似

23、正态2. 仅过低为异常仅过低为异常3. 求下界值求下界值正态分布法求参考值范围正态分布法求参考值范围单侧下限单侧下限下界:下界:所以,该地健康成年男子第一秒肺通气量的所以,该地健康成年男子第一秒肺通气量的95%参参考值范围为不低于考值范围为不低于3.05(L)。)。 05L. 37 . 064. 12 . 464. 1SX(2)百分位法:百分位法:特别适用于偏态分布资料以及资料特别适用于偏态分布资料以及资料 中一端或两端无确切数值的资料。中一端或两端无确切数值的资料。如如95%参考值范围:参考值范围: 双侧界值双侧界值单侧下限单侧下限单侧上限单侧上限P 2.5和和P 97.5P 5 P 95)

24、%(LxxfnxfiLP计算公式:计算公式:举例举例:定出生体重低于:定出生体重低于2500g的婴儿为低体重儿,若的婴儿为低体重儿,若由某项研究得某地婴儿出生体重均数为由某项研究得某地婴儿出生体重均数为3200g ,标,标准差为准差为350g,估计当年出生低体重儿所占的比例。,估计当年出生低体重儿所占的比例。(二)估计频数分布(二)估计频数分布 解析解析:1. 分布近似正态,分布近似正态, X= 3200g ,S=350g。2. 转化为标准正态分布,求转化为标准正态分布,求u 值值查查u值表值表 说明说明标准正态曲线下标准正态曲线下 (-,-2)的面积为)的面积为2.28%,故本,故本题正态曲

25、线题正态曲线(-,2500g)的比例为)的比例为2.28% ,即,即X1.96所以可认为小蘖碱含量不正常。所以可认为小蘖碱含量不正常。 某地某地1998年抽样调查了年抽样调查了100名名18岁男大学生身岁男大学生身高,其均数高,其均数=172.70cm,标准差标准差=4.01 cm。(1)估计该地估计该地18岁男大学生身高在岁男大学生身高在168 cm以下以下者占该地者占该地18岁男大学生总数的百分数;岁男大学生总数的百分数; (2)估计该地估计该地18岁男大学生身高在岁男大学生身高在177 cm以下以下者占该地者占该地18岁男大学生总数的百分数。岁男大学生总数的百分数。答案答案:17. 10

26、1. 470.172168) 1 (sXXu 查附表得, (u)=0.1210,即该地18岁男大学生身高在168 cm以下者占该地18岁男大学生总数的12.10%。07. 101. 470.172177)2(sXXu 查附表得, (-1.07)=0.1423, 则 (u)=1- (-1.07)=1-0.1423=0.8577 即该地18岁男大学生身高在177 cm以下者占该地18岁男大学生总数的85.77%。计算题计算题2. 已知某地正常成年女子的血清总蛋白数服从已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地正态分布,调查了该地110名正常成年女子,名正常成年女子,得样本血清总蛋白

27、均数为得样本血清总蛋白均数为72.8g/L,标准差为,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白,试估计该地正常成年女子血清总蛋白介于介于66.075.0 g/L之间的比例,以及之间的比例,以及110名正常名正常成年女子中血清总蛋白介于成年女子中血清总蛋白介于66.075.0 g/L之间之间的人数。的人数。 . 解析:解析:由于本例是大样本,可用样本均数由于本例是大样本,可用样本均数X和样本标准差和样本标准差 S 作为总体作为总体、 的估计值,即的估计值,即将该地正常成年女子的血清总蛋白数近似看将该地正常成年女子的血清总蛋白数近似看作服从作服从N(72.8, 3.82)的正态分布。

28、)的正态分布。 1. 将变量作如下标准化变换:将变量作如下标准化变换:79. 18 . 38 .720 .661Z0.588 . 38 .7275.02Z2. 查查 u 值表得:值表得: 0367. 0)(1z719. 0281. 01)58. 0(1)(2z)0 .750 .66(XP(z2)- (z1)=0.719-0.0367=68.23%3. 求所定区间概率:求所定区间概率: 即即估计血清总蛋白介于估计血清总蛋白介于66.075.0g/L的比例为的比例为68.23% 所以所以110名正常成年女子中血清总蛋白介于之间名正常成年女子中血清总蛋白介于之间的人数约为的人数约为 110 68.23% =75人。人。 4. 求所定区间的可能人数:求所定区间的可能人数: THANK YOU!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com