实验12概率统计.doc-得力文库

资源描述

《实验12概率统计.doc》由会员分享，可在线阅读，更多相关《实验12概率统计.doc（12页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、【精品文档】如有侵权，请联系网站删除，仅供学习与交流实验12概率统计.精品文档.实验12 数据的基本统计分析一、实验目的随机变量的分布函数，密度曲线，能进行初步的统计分析，大样本数据的处理，直方图. 二、实验内容及要求pdf(probability density function.概率密度函数)，cdf（cumulative distribution function.累积分布函数）,rnd(Random),inv(Inverse),stat(Mean and variance,statistic)1. 随机变量与分布表1.12 密度函数与分布函数随机变量名称MATLAB密度函数随机变量名称

2、MATLAB密度函数Beta分布betapdf标准正态分布normpdf二项分布binopdf泊松分布poisspdf卡方分布chi2pdf瑞利分布raylpdf指数分布exppdfT分布tpdfF分布fpdf均匀分布unifpdf伽马分布gampdfWeibull分布weibpdf几何分布geopdf非中心F分布ncfpdf超几何分布hygepdf非中心T分布nctpdf对数正态分布lognpdf非中心卡方分布ncx2pdf一般分布的密度pdf如果后缀pdf分别改为cdf，inv，rnd，stat就得到相应的随机变量的累积分布函数、分位数、随机数的生成以及均值与方差.计算正态分布的分布函数、

3、概率密度函数值、做出密度函数曲线、求出分位数的功能. 【例1.110】已知，试求：（1），；（2）. （2）做出2.5，3.5上的概率密度曲线；解：算. （1）=0.0227 =0.9772（2）计算正态分布的分位数利用：= 2.23763116875765（3）函数做出在a,b上的正态密度曲线：图1.38 2.5，3.5上的概率密度曲线2. 数据特征设是一个简单随机样本，样本的一组观测值，函数分析数据特征，如表1.13所示. 表1.13 函数位置特征MATLAB函数变异特征MATLAB函数算术平均mean极差range中位数median方差var切尾平均trimmean标准差std几何平

4、均geomean四分位极差iqr调和平均harmmean平均绝对偏差mad【例1.111】已知数据：459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634

5、555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851计算其数据特征. 解：a= 459, 362,310, 851;b=a(:) ;mean(b),median(b), trimmean(b，10), geomean(b), harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)注意：切尾平均有两个输入，后

6、者为百分数. 结果如表1.14所示. 表1.14 结果位置特征计算结果变异特征计算结果算术平均600极差1069中位数599.5方差38663.03切尾平均600.64标准差196.629几何平均559.68四分位极差243.5调和平均499.06平均绝对偏差150.86【例1.112】已知数据：1，1，1，1，1，1，100；计算其数据特征，由此你有何发现？解：x=1,1,1,1,1,1,100；y=mean(x),median(x),geomean(x),harmmean(x),trimmean(x，25)；range(x),var(x),std(x),iqr(x),mad(x)计算结

7、果为：y= 15.143 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245如果数据全部为1，则各种平均值都应等于1，所有的变异特征全部为零，由于有一个异常值100，于是导致上述的一些特征受影响（不稳健），但是中位数、切尾平均与四分位极差没有改变，它们对异常值是稳健的. 3 统计量计算矩统计量、峰度、偏度和变异系数的函数表1.15所示. 表1.15 函数名称n阶中心矩峰度系数偏度系数变异系数命令moment(x,n)kurtosis(x)Skewness(x)Std(x)/abs(mean(x)其中，x为数据，n为阶数，若x为矩阵可得矩阵各列的矩、峰度、偏

8、度和变异系数，但是计算变异系数的公式应为：Std(x)./abs(mean(x)（同维向量应该点除）. 偏度系数s等于3阶中心矩与标准差的3次幂的比，用于刻画数据分布的对称性，当s0时称正偏，当s3则表明数据分布有较厚的尾部. 变异系数用于刻画数据的变化大小，不同指标的变异系数常用来计算客观性权重. 【例1.114】表1.16给出了15种资产的收益率ri(%)和风险损失率qi(%)，计算峰度与偏度. 表1.16 例题Siri(%)qi(%)Siri(%)qi(%)S19.642S933.653.3S218.554S1036.840S349.460S1111.831S423.942S1295.

9、5S58.11.2S133546S61439S149.45.3S740.768S151523S831.233.4解：x=9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15;y=42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23;sx=skewness(x)= 0.4624, kx=kurtosis(x)= 1.8547, sy=skewness(y)= -0.4215, ky=kurtosis(y)= 2.2506从计算结果可知：收益率是正偏，而风险损失率为负偏；二者峰

10、度都小于3属于平阔峰. 4 有丢失数据时的统计量在解决实际问题时经常遇到有丢失数据的情形，在MATLAB中提供了NAN函数，用于有丢失数据时的统计量. nanmax % 忽略丢失数据NAN的最大值. nanmean % 忽略丢失数据NAN的均值. nanmedian % 忽略丢失数据NAN的中位数. nanmin % 忽略丢失数据NAN的最小值. nanstd % 忽略丢失数据NAN的标准差. nansum % 忽略丢失数据NAN的和. 5 大样本数据的处理通常大样本数据有以下的处理方法. （1）标准化将某矩阵的各列（行）元素减去该列（行）的均值，再比上该列的标准差. 【例1.115】将表1

11、.17中的数据标准化. 表1.17 各地区“三资”工业企业主要经济效益指标（2001年）工业增加值率总资产贡献率资产负债率流动资产周转次数成本费用全员劳动生产率产品销售率(次/年)利润率(元/人/年)全国26.199.8354.871.895.857591397.64北京22.4212.2359.972.015.6313288797.94天津23.7511.1750.531.898.159734299.01河北28.808.1962.901.675.505080198.07山西34.554.7568.801.480.507291094.50内蒙古30.528.2343.410.887.256

12、2099100.88辽宁26.708.3250.321.915.028277996.70吉林29.4625.2952.292.6513.7516123396.52黑龙江31.946.5570.181.003.407514392.41上海26.2310.4348.391.687.0912231099.16江苏25.0710.0657.532.055.238888397.66浙江23.8011.2555.092.006.685601697.01安徽31.659.2756.431.735.648146098.97福建26.927.2454.601.983.935581696.79江西27.539.2

13、758.141.604.095225698.03山东29.6311.2357.062.046.236375597.36湖南33.089.4755.591.248.298028796.43湖北35.3210.4757.391.856.5010363898.00河南29.2610.8354.061.727.117309098.67广东25.368.8856.412.034.996416197.28广西30.489.6456.081.506.736337196.34海南25.286.4455.141.283.105959391.59重庆31.3810.0845.141.525.6310649196.

14、64四川31.848.6156.741.506.668637997.13贵州30.572.1761.900.802.363562298.56云南32.109.9748.351.3011.698625596.88西藏50.00NAN30.000.33NAN5000150.00陕西33.6212.9355.831.2913.5913876896.99甘肃28.575.1363.651.112.026769799.86青海20.9611.6650.511.8818.289416795.92宁夏33.473.6261.151.08-3.006171491.12新疆29.556.1159.390.957

15、.087000094.25解：将数据粘贴到MATLAB的编辑窗口（即建立M文件中）. a=26.19,9.83,54.87,29.55,6.11,59.39,0.95,7.08,94.25;此时，发现有一行数据不全（西藏），为了分析问题的方便，我们可以删除此行（用%），标准化编程如下：format long %此步是为了数据输出的数位比较多m1=mean(a(2:31,:); %求各列均值（除去第一行元素）m=m1(ones(30,1),:); %30行矩阵各行都是m1s1=std(a(2:31,:); %求各列标准差（除去第一行元素）s=s1(ones(30,1),:); %30行矩阵各行都

16、是s1 A=(a(2:31,:)-m)./s %标准化（2）都与某一个数据进行比较（比如都与全国的各项指标进行比较）b1=a(1,:);b=b1(ones(30,1),:);B=(a(2:31,:)-b)./b6 直方图与概率纸检验函数为了直观地了解随机变量的分布特征，直方图是广泛使用的方法. 格式：hist(data,k). 说明：data是原始数据，该命令将区间(min(data)，max(data)分成k等份，并描绘出频数直方图，k的缺省值为10. 如果需要事先给出小区间，则将区间的中点存放在向量nb然后用命令：n,x = hist(data)，或n,x = hist (data,k)，

17、或n,x = hist (data,nb)，其中，n返回k个小区间的频数，x返回小区间的中点. 在MATLAB中的概率纸检验函数. 格式：normplot(data) %如果数据data服从正态分布，则做出的图形基本上都位于一条直线上. weibplot(data) %如果数据data服从威布尔分布，则做出的图形基本上都位于一条直线上，【例1.116】作出例1.111数据的直方图，该数据服从正态分布还是威布尔分布？解：输入命令hist( a(:),30)得到图1.39. 图1.39 直方图从图1.39所示的直方图发现数据比较接近于正态分布，如何检验这一猜测，我们利用MATLAB命令normplot(a(:)进行检验. 图1.40 例1.111数据的图形从图1.40中可见数据点基本上都位于直线上，故可认为该数据服从正态分布，由于已经计算出该数据的均值为600，标准差为196.629，所以数据服从.

展开阅读全文