定量资料的信息管理和分析.pdf

上传人:qwe****56 文档编号:69565837 上传时间:2023-01-07 格式:PDF 页数:50 大小:1.36MB
返回 下载 相关 举报
定量资料的信息管理和分析.pdf_第1页
第1页 / 共50页
定量资料的信息管理和分析.pdf_第2页
第2页 / 共50页
点击查看更多>>
资源描述

《定量资料的信息管理和分析.pdf》由会员分享,可在线阅读,更多相关《定量资料的信息管理和分析.pdf(50页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、 第三节第三节 定量资料的信息管理和分析定量资料的信息管理和分析 一、数据库的建立一、数据库的建立(一)概述(一)概述 数据库技术是数据管理的工具,信息系统的成功与否往往取决于数据管理的好坏。数据库的建立、组织、管理、维护和使用的好坏,不仅将大大影响医院信息系统的运行和性能。数据库指的是要统一管理的相关数据的集合,或是长时间储存在计算机中的有组织的、有一定结构的数据集合。在数据库中会以一定的数据模型来进行数据库的定义、描述、组织和数据储存。数据库系统是由计算机软件、硬件和数据资源组成的系统,其目的是为了实现有组织地、动态地储存大量关联数据,方便多用户访问。数据库管理系统是位于拥护与操作系统之间

2、的一层数据管理软件,它为应用程序提供访问数据库的方法,包括数据库的建立、查询、更新及各种数据控制。用户需要通过数据库管理系统存取访问数据库中的数据。数据管理主要经历了三个阶段:人工管理阶段、文件系统阶段、数据库阶段。1.人工管理阶段:那时还没有利用计算机管理数据,数据管理依靠人工管理,数据不保存在机器中,也没有专用软件对数据进行管理。2.文件系统阶段:是利用计算机进行数据管理的初始阶段。随着计算机技术的进步,数据已可以长期保存在磁盘上。但是文件系统也存在着缺陷,例如数据还需要重复存储,存在着数据的冗余、数据不一致性和数据间联系弱等不足之处。3.数据库系统阶段:数据库设计时面向数据模型对象;数据

3、库系统的数据冗余度小、数据共享度高;数据库系统的数据和程序之间具有较高的独立性;数据库系统可以进行数据安全性、完整性、并发控制和数据恢复控制;数据库中数据的最小存取单位是数据项。常用的数据库有很多种,但是专业性很强,需要较强的计算机基础。下面介绍一种常用的表格处理软件 Excel,虽然 Excel 不是专业的数据库软件,但是对于初学者来说,简便易学。(二)应用(二)应用 Excel 创建数据库创建数据库 在 Excel 中所谓内部数据库是指工作表内具有规范二维结构的数据区域,也就是通常所指的数据清单。数据库需要具有规范的结构,对应每一列为数据库的一个字段,而每一行是数据的一条记录,第一行为各字

4、段的字段名称或称为列标(即变量名称)。创建数据库首先要设计数据库的结构,设定每列的字段名,然后根据字段类别为每一列的单元格指定格式,最后输入观测数据。例 4.1 表 4-2 为某健康管理公司管理的 26 名客户的身高体重及血压记录,试在 Excel工作表中创建基于该记录的数据库。表 4-2 某健康管理公司 26 名客户的身高体重及血压记录 编号 性别 年龄(岁)舒张压(mmHg)收缩压(mmHg)身高(米)体重(公斤)1 36 1.60 67.5 70 110 女 2 47 1.66 59.0 70 110 女 3 40 1.62 52.0 70 100 女 4 40 1.70 70.0 80

5、 120 男 5 32 1.60 50.0 60 90 女 6 25 1.58 49.0 70 100 女 7 38 1.62 52.0 70 100 女 8 43 1.58 60.0 60 90 女 9 45 1.80 78.0 70 110 男 10 56 1.82 80.0 80 120 男 11 58 1.65 80.0 86 130 女 12 45 1.68 75.0 70 110 女 13 45 1.70 75.0 80 110 男 14 30 1.50 50.0 70 110 女 15 36 1.62 58.0 60 110 女 16 48 1.60 60.0 80 120 女

6、17 33 1.63 58.0 60 110 女 18 46 1.69 78.0 90 140 男 19 36 1.70 63.0 78 120 男 20 43 1.73 65.0 75 120 男 21 27 1.70 52.0 75 120 男 22 62 1.72 75.0 85 136 男 23 60 1.66 62.5 85 130 男 24 29 1.72 63.0 60 110 男 25 60 1.61 63.0 80 120 男 26 25 1.57 45.5 60 90 男 Excel 的数据库记录单功能非常适合数据库的创建、编辑和查找,因此一般采用数据库记录单创建数据库,具

7、体操作步骤如下:(1)新建一工作表“例 4.1”,设定列标字段名,分别在 A1、B1、C1、D1、E1、F1、G1 单元格中输入“编号”、“性别”、“年龄(岁)”、“身高(米)”、“体重(公斤)”、“舒张压(mmHg)”和“收缩压(mmHg)”。选中 A1:G1 对应单元格区域,右击选中单元格,选择【设置单元格格式】,在出现的【设置单元格格式】对话框中,在【数字】选项卡中选择【文本】,在【字体】选项卡的【字体】中选择【黑体】,【字号】中选择【12】,如图 4-1 所示。完成后单击【确定】按钮。(2)设置变量的输入格式:根据每一变量的特点设置每一变量的输入格式。如设置【编号】的数据输入格式,单击

8、 A2 单元格,右击选中单元格,选择【设置单元格格式】,在出现的【设置单元格格式】对话框中,在【数字】选项卡中选择【数值】,单击【小数位数】后的微调按钮,将其设为“0”,完成后单击【确定】按钮。为了防止输入错误的数值,此处采用 Excel 中数据的有效性设置功能,将【编号】的输入值限定为大于 0 的整数,否则将显示输入错误。单击 A2 单元格,选择【数据】/【有效性】命令,出现【数据有效性】对话框,单击【设置】选项卡,单击【允许】后的下拉按钮,选择【整数】,单击【数据】的下拉按钮,选择【大于】,在【最小值】文本框中输入“0”,如图 4-2 所示。选择【数据有效性】对话框的【出错警告】选项卡,单

9、击【样式】后的下拉按钮,选择【停止】,在【错误信息】文本框中输入“编号输入错误,编号应为正整数”,如图 4-3 所示,完成后单击【确定】按钮。按照上述方法,设置其余变量的输入格式。【性别】的数据格式设置为文本,在【数据有效性】对话框【设置】选项卡中,单击【允许】后的下拉按钮,选择【序列】,在“来 源”编辑框中输入“男,女”,自定义序列必须用英文状态下的逗号“,”隔开,完成后,单击确定按钮。选择黑体 选择 12 号 图 4-1 设置单元格格式 选择整数 输入最小值 0 图 4-2 【数据有效性】对话框-设置 选择提示标志 选择提示信息 图 4-3 【数据有效性】对话框-出错警告 (3)开始采用记

10、录单输入数据,选择 A1:G1 单元格,选择【数据】/【记录单】命令,出现记录单输入对话框,依次各项按照表 4-2 中的数据输入相应的文本框中,输入意向后按Tab 键进入下一信息的输入,如图 4-4 所示,输入完一个观测值后按【新建】按钮,继续输入下一观测值,直至将所有信息全部输入,单击【关闭】按钮。单击【新建】按钮,输入下一条 图 4-4 记录单的输入对话框(4)当输入数量出错时,系统会自动提示。如在输入 1 号时,当在编号中误输入“1.5”后,单击【新建】按钮试图进行下一观测值的输入时,系统会提示出错,并出现提示对话框,如图 4-5 所示。此时单击【重试】按钮,再次回到记录单对话框,将编号

11、更正后继续输入观测值即可。最终结果如图 4-6 所示。图 4-5 出错提示 生成数据库 表 4-6 使用记录单生成的数据库 二、信息更新和整理二、信息更新和整理(一)数据的查询与筛选(一)数据的查询与筛选 在完成数据库的创建后,在实际工作中有时需要对数据库中的某项记录进行查询,或者根据统计的需要筛选出满足一定条件的观察记录,即数据的查询和筛选,而筛选可以看作更为复杂的查询。1.数据的查询 若想查询例 4.1 中 25 号客户的身高、体重及血压情况,在例 4.1 创建的数据库基础上,帮助健康管理师查询编号为“25”的记录。对于条件比较简单的查询可以采用记录单中的条件功能进行查询,具体操作步骤如下

12、:(1)打开工作表“例 4.1”,选择数据清单所在 A1:G27 对应的区域。(2)单击【数据】/【记录单】命令,出现记录单对话框【例 4.1】,单击【条件】按钮,进入 Criteria 对话框,在【编号】文本框中输入“25”,如图 4-7 所示,完成后按回车键。对应的查询结果如图 4-8 所示,查询到了该患者的详细信息。输入查询编号 图 4-7 采用记录单进行查询 图 4-8 查询结果 2.数据的筛选 当满足条件的记录较少时采用记录单的查询功能更为快捷,当满足查找条件的结果较多时,采用数据筛选功能显示结果更清晰。在例 4.1 创建的数据库基础上,筛选出所有男性的记录情况。由于满足性别为“男”

13、的记录较多,采用筛选功能的显示结果更为直观,而且可对结果进行简单的统计汇总。Excel的筛选命令主要分为自动筛选和高级筛选,自动筛选主要是按选定列所包含的内容筛选,它适用于简单条件下的筛选,而高级筛选则可以设置更为复杂的筛选条件,适用于复杂条件下的筛选。(1)采用自动筛选功能:新建一工作表“例 4.2”,输入表头“数据筛选”,选中工作表“例 4.1”的 A1:G27 单元格区域,复制到工作表“例 4.2”中。单击【数据】/【筛选】/【自动筛选】命令,在每个工作表中列表所在的单元格后出现了一下拉按钮,单击列表“性别”单元格后的下拉按钮,在下拉列表中单击“男”,如图 4-9所示。Excel 即可实

14、现自动筛选,仅保留满足条件的性别为男性的记录(图 4-10)。选择筛选条件 图 4-9 筛选下拉列表 图 4-10 筛选结果 若想筛选查询舒张压大于等于 85mmHg 的男性患者记录,筛选时也可以设定多个筛选条件,可以在筛选出男性基础上,再单击“舒张压”后的下拉按钮,选择“自定义”,弹出“自定义自动筛选方式”对话框,单击“舒张压”下面的下拉按钮,选择“大于或等于”,再单击其右面的下拉按钮,选择“85”,如图 4-11。最后单击确定按钮即可,结果见图 4-12。图 4-11 自定义自动筛选方式 图 4-12 “舒张压大于等于 85mmHg 的男性”筛选结果(2)采用高级筛选功能 为了更好的显示高

15、级筛选的优势,此处筛选出“舒张压大于等于 85mmHg 的男性”对应的记录单,具体操作步骤如下:首先要取消前面自动筛选的结果,选中列标单元格所在的区域 A3:G3 单元格,再次单击【数据】/【筛选】/【自动筛选】,则数据清单将回复到筛选前的原始状态。设定筛选条件区域,在 A31 单元格输入“性别”,在 B31 单元格输入“舒张压(mmHg)”,在 A32 单元格输入“男”,在 B32 单元格输入“=85”。注意:条件区域必须具有列标签;在列标签下面一行中,输入所要匹配的条件;请确保在条件值与区域之间至少保留一个空白行。选择数据清单所在的 A3:G29 单元格区域,单击【数据】/【筛选】/【高级

16、筛选】,出现【高级筛选】对话框,单击选中【将筛选结果复制到其他位置】单选按钮,单击【条件区域】后的折叠按钮,选择 A31:B32 单元格区域,单击【复制到】后的折叠按钮,选择A34:G34 单元格区域,如图 4-13 所示,完成后单击【确定】按钮。最终结果如图 4-14 所示。选择复制到其他位 图 4-13 【高级筛选】对话框 筛选结果 图 4-14 高级筛选结果 采用 Excel 的筛选功能,能从大量纷杂的统计数据中筛选出给定条件的记录,并在此基础上对其进行统计分析,这为从大规模数据中选定特定的样本进行统计分析提供了一种方法。(二)数据分类汇总(二)数据分类汇总 Excel 的分类汇总功能可

17、自动计算列表中的分类汇总和总计值。数据的分类汇总一般与排序结合使用,在分类汇总前需要对数据进行排序,然后再用分类汇总命令得到汇总结果。在例 4.1 创建的数据库的基础上,对该数据进行分类汇总:对比分析不同性别病人的平均年龄和舒张压。要对比分析男女病人的平均年龄,首先按“性别”进行排序,然后按“年龄”和“舒张压”进行分类汇总,具体操作步骤如下:(1)新建一工作表“例 4.3”,输入表头“按性别进行数据分类汇总”,选择工作表“例 4.1”中 A1:G27 单元格,复制到工作表“例 4.3”中。(2)按“性别”进行排列,选择 A3:G29 单元格区域,选择【数据】/【排序】命令,出现【排序】对话框,

18、单击【主要关键字】后的下拉按钮,选择“性别”,单击选中【升序】单选按钮,如图 4-15 所示,完成后单击【确定】按钮。排序后的结果如图 4-16 所示。图 4-15 【排序】对话框 图 4-16 按性别排序结果(3)排序后按“性别”进行分类汇总,选择 A3:G29 单元格区域,选择【数据】/【分类汇总】命令,出现【分类汇总】对话框,在【分类字段】下拉列表中选择“性别”,在汇总方式中选择【平均值】,在【选定汇总项】列表中单击选中【年龄】和【舒张压】复选框,单击选中【替换当前分类汇总】和【汇总结果显示在数据下方】复选框,如图 4-17 所示,单击【确定】按钮。最终按“性别”进行分类汇总的结果如图

19、4-18 所示。该结果可以看出,分类汇总分别给出了男性和女性患者的平均年龄和舒张压;男性的平均年龄和舒张压均高于女性。如果数据清单中的数据量较大时,分类汇总的结果可能一页无法显示,且所需要的仅是分类汇总总值,而不需要原始的各项记录,此时可以单击分类汇总结果表左侧二级目录按钮的,表示仅显示二级目录即分类汇总后分类项的结果,而隐去三级目录即原始的记录的显示,如图 4-19 所示。如果需要重新显示详细记录,再单击三级目录按钮,即可恢复原 始记录的显示。图 4-17 【分类汇总】对话框 图 4-18 按性别分类汇总结果 图 4-19 隐藏三级目录后的分类汇总结果 如果要重新进行分类汇总或者修改分类汇总

20、的标准,首先需要删除已经分类汇总的结 果,此时在含有分类汇总的列表中,单击任意单元格,在【数据】菜单中选择【分类汇总】,在【分类汇总】对话框单击【全部删除】按钮即可。(三)数据的整理(三)数据的整理 采集的原始数据往往不能满足我们统计分析的需要,必须经过整理以后才能进行统计分析,此时可以使用 Excel 的公式或函数功能将原始数据进行整理,产生需要的新变量。1.应用公式转换变量 如将例 4.1 数据库中的体重和身高变量转换为体重指数(BMI)。(1)选择【插入】菜单中的【工作表】命令,双击新工作表的表名“sheet4”,将其改为“例 4.4”。(2)输入表头“数据转换”,选择工作表“例 4.1

21、”中 A1:G27 单元格,复制到工作表“例4.4”A3:G29 单元格区域中。(3)在 H3 单元格输入列标变量“BMI”,单击 H4 单元格,在编辑栏中输入“=E4/(D4)2”(),设定后 BMI 将会自动计算出来,如图 4-20 所示。其他行的 BMI 值可用复制、粘贴公式的形式完成。复制 H4 单元格,选择 H5:H29 单元区域,然后粘贴。图 4-20 将体重和身高变量转换成 BMI 变量 2.应用函数转换变量 复杂的变量转换需要应用 Excel 内部的函数。如想根据 BMI 值的大小得出该人群消瘦、体重正常、超重和肥胖的人数,需要应用 IF 函数完成。IF 函数是用来执行真假判断

22、的,根据逻辑计算的真假值返回不同的结果。其格式为:IF(logical_test,value_if_true,value_if_false)logical_test 表示计算结果为 TRUE 或 FALSE 的任意值或表达式。value_if_true 为任意数据,表示 logical_test 为 TURE 时返回的值。value_if_false 为任意数据,表示 logical_test 为 FALSE 时返回的值。IF 函数最多可以嵌套七层。将例 4.4 的 BMI 数据依据中国人群 BMI 标准(24为过重,27 为肥胖)转换为新变量“体形”。在 I3 单元格输入“体形”列标变量,单

23、击 I4 单元格,在编辑栏中输入“=IF(H427,肥胖,IF(H424,过重,IF(H418.5,正常,消瘦)”,然将该公式复制到其余行即可,结果如图4-21 所示。图 4-21 IF 函数的应用 三、三、Excel 软件的使用软件的使用 数据统计的关键在于对数据的分析与加工,而 Excel 强大的数据分析功能恰恰与统计所要处理的问题相适应,因此 Excel 被广泛地应用于统计中。虽然 SPSS、SAS 等专业统计软件在某些方面具有更强大的统计分析功能,但其或者需要专业的编程,或者需要高昂的价格,因此普及性远远不如 Excel。本章以 Excel2003 中文版为蓝本展开。(一)频数表和直方

24、图的制作(一)频数表和直方图的制作 1.应用数据分析工具制作频率表和直方图 例 4.5 某地 100 名糖尿病患者血清总蛋白含量(g/L)如下:74.3 68.8 70.4 80.5 71.2 75.8 79.5 75.0 76.5 76.5 72.7 70.4 79.5 75.0 72.0 72.0 71.2 74.0 76.5 70.4 65.0 68.8 84.3 75.0 70.5 78.8 75.8 74.3 69.7 73.5 73.5 76.5 77.2 73.5 75.0 72.7 73.5 72.0 70.4 69.7 73.5 67.2 79.5 74.0 73.5 77.

25、2 72.0 67.3 68.8 78.0 80.5 69.7 73.5 75.8 68.8 74.7 72.7 81.2 75.4 70.3 75.5 78.8 72.0 74.3 72.0 73.5 76.5 70.4 75.8 67.3 67.3 76.5 73.5 74.3 65.0 71.2 68.0 75.8 73.5 72.7 71.2 81.6 81.6 68.0 75.0 64.3 80.3 74.3 73.5 72.0 72.7 76.5 77.6 67.3 75.0 74.3 72.7 72.7 74.3 70.4 (1)新建一工作表“例 4.5”,将上述数据输入 exc

26、el。(2)应用fx函数确定数据的最大值和最小值,求出极差。在单元格B1、C1、D1 分别输入“最大值”、“最小值”、“极差”,在B2 单元格,单击【插入】/【fx函数】,在弹出的“插入函数“对话框”选择函数“MAX”,如图 4-22 所示;单击【确定】按钮后,弹出“函数参数”对话框,在“Number1”后输入数据区域“A2:A101”,如图 4-23 所示,最后单击【确定】按钮即可。同理,在C2 单元格插入插入“MIN”函数。在D2 单元格输入“=B2-C2”求出极差。结果如图 4-24 所示。选择“MAX”函数 图 4-22 插入函数对话框 输入分析数据区域 图 4-23 “函数参数”对话

27、框 图 4-24 最大值、最小值和极差结果(3)确定组数、组距和组段:本例将组数定为 10,则组距=极差/组数=20/10=2(g/L),第一个组段应包括最小值,取 64g/L,最后一个组段应包括最大值,下限取 86 g/L。(4)在 E1 单元格输入“接收区域”,单击 E2 单元格,在编辑栏输入“64”,再次单击 E2 单元格,单击【编辑】/【填充】/【序列】,在出现的【序列】对话框中,在【序列产生在】选项组中单击选中【列】单选按钮,在【类型】选项组中选中【等差序列】单选按钮,在【步长值】文本框中输入“2”(组距),在【终止值】文本框中输入“86”,如图 4-25 所示,单击【确定】按钮。选

28、择列 输入终止值 86 输入步长值 2 图 4-25 【序列】对话框(5)单击【工具】/【加载宏】,出现【加载宏】对话框,单击选中【分析工具库】和【分析工具库-VBA 函数】复选框,如图 4-26 所示,完成后单击【确定】按钮。说明:在典型或简单安装 Excel 中,未包含宏的安装,此时需要单击【加载宏】进行加载,Excel 自动要求插入安装盘进行安装并加载;但如果 Excel 采用的是完全安装,则系统会直接从已安装的程序中自动加载。选择分析数据库 图 4-26 【加载宏】对话框(6)单击【工具】/【数据分析】命令,在弹出的【数据分析】对话框中,选择【直方图】分析工具,如图 4-27。选择直方

29、图 图 4-27 数据分析对话框 (7)单击【确定】按钮,出现【直方图】对话框(见图 4-28),在【输入区域】后面输入 A2:A101 单元格区域,在【接收区域】后面输入 E2:E13 单元格区域。选择输入区域 选择接收区域 图 4-28【直方图】对话框 (8)单击选中【输出区域】单选按钮,在其后面方框中写入“F1”。分别单击选中【累积百分率】和【图标输出】复选框,如图 4-28。(9)完成后单击【确定】按钮,即可得到对应的频率表和直方图(包含一条累积百分比线),结果如图 4-29 所示。图 4-29 生成的频率表及直方图 (10)编辑直方图。右键单击直方图的柱形图,单击选中【数据系列格式】

30、,然后在出现的【数据系列格式】对话框中单击【选项】,将分类间距设为“0”,完成后单击【确定】按钮(见图 4-30),即可得到符合统计学要求的直方图(见图 4-31)。将分类间距设为“0”图 4-30 数据系列格式 直方图0510152025646668707274767880828486其他接收频率0.00%20.00%40.00%60.00%80.00%100.00%120.00%图 4-31 100 名糖尿病患者血清总蛋白含量的直方图 2.运用 FREQUENCY 函数制作频数表 例 4.6 运用 FREQUENCY 函数将例 4.5 的数据制作成频数表。(1)新建一空白工作表“例 4.6

31、”,输入表头“频数表的制作”,设定列名:在 B3 和 C3单元格分别输入“组段”和“频数”。(2)设定组段区间:将例 4.5 中的 E2:E13 的数据复制粘贴到例 4.6 的 B4:B15 单元格区域。(3)用 FREQUENCY 函数求区间内的频数。单击 C4 单元格,在编辑栏输入“=FREQUENCY(例 4.5!A2:A101,B4:B15)”。选择 C4:C15 对应的单元格区域(用于显示返回结果),按 F2 键,如图 4-32 所示,同时按下 Ctrl+Shift+Enter 键,执行数组运算,运算结果如图 4-33 所示。选择数组输出区域 图 4-32 选中区域按 F2 键 返回

32、数组运算结果 图 4-33 各组段的频数分布(4)验证总频数,单击 C16 单元格,在编辑栏输入“=SUM(C4:C15)”。最终结果见图 4-33。3.绘制频数分布图 例 4.7 在例 4.6 结果的基础上(见图 4-33),根据频数数据绘制出频率分布图。(1)新建一工作表“例 4.7”,输入表头“频数分布图的制作”和“组段”和“频数”,在 B4:B15单元格区域输入组段“62-64”、“64-66”“84-86”。打开工作表例 4.6,选择 C4:C15 对应的区域,右击选中区域,在菜单中选择【复制】,返回工作表例 4.7,单击 C4 单元格,右击选中单元格,在菜单中单击【粘贴】,发现对应

33、的频数值并没有被复制过来,而是出现了提示错误的#N/A(当在函数参数或者公式中没有可用数值时则会显示出现此类错误),如图 4-34所示。出错提示 图 4-34 复制出错(2)问题在于需要复制的仅是频数数值,而直接用【复制】命令,Excel 会默认将所要复制单元格的公式一同复制过去,此时可以改用 Excel 的选择性粘贴功能,在复制过程中,右击选中单元格,在菜单中选择【选择性粘贴】命令,在出现的对话框中,单击选中【数值】单选按钮(见图 4-35),完成后单击【确定】按钮,即可完成对频数的复制,如图 4-36。选中 数值 图 4-35 【选择性粘贴】对话框 图 4-36 频数数据(3)单击工具栏【

34、插入】菜单中的【图表】命令,出现【图表向导-4 步骤之 1-图表类型】对话框,如图 4-37 所示。选择柱形图 选择簇状柱形图 选择性粘贴结果 图 4-37 选择图表类型(4)从【图标类型】列表中选择【柱形图】,从【子图表类型】中选择区域中单击【簇状柱形图】对应的图例,完成后单击【下一步】按钮,出现【图表向导-4 步骤之 2-图表源数据】对话框,如图 4-38 所示。所选列区域 图 4-38 【数据区域】选项卡(5)在【数据区域】选项卡中,单击选中【系列产生在】选择区域中的【列】单选按钮,单击【数据区域】文本框后的折叠按钮,将对话框折叠,选择 C4:C15 对应的单元格区域,单击打开折叠按钮,

35、返回【图表向导-4 步骤之 2-图表源数据】对话框,如图 4-38所示。(6)单击【图表向导-4 步骤之 2-图表源数据】对话框的【系列】标签,进入【系列】选项卡,在【名称】文本框中输入“血清白蛋白含量频数”,单击【分类(X)轴标志】后的折叠按钮,选择 B4:B15 对应的单元格区域,单击打开折叠按钮,返回【图表向导-4步骤之 2-图表源数据】对话框,如图 4-39 所示。设置系列名称 选择 X 轴区域 图 4-39 【系列】选项卡 (7)单击【下一步】按钮,出现【图表向导-4 步骤之 3-图表选项】对话框。在【标题】选项卡中的【图表标题】文本框中输入“血清白蛋白含量频数分布图”,在【分类(X

36、)轴】文本框中输入“血清白蛋白含量(g/L)”,在【数值(Y)轴】文本框中输入“频数”,如图4-40 所示。图 4-40 【标题】选项卡(8)选择【图表向导-4 步骤之 3-图表选项】对话框的【网格线】选项卡,撤选【数值(Y)轴】选项组中的【主要网格线】网格线的显示,如图 4-41 所示。取消选中的主要网格线 图 4-41 【网格线】选项卡(9)选择【图表向导-4 步骤之 3-图表选项】对话框的【图例】选项卡,撤选【显示图例】复选框,取消图例的显示,如图 4-42 所示。取消选中显示图例 图 4-42 【图例】选项卡(10)完成后单击【下一步】按钮,出现【图表位置】对话框,如图 4-43 所示

37、,此处 采用作为工作表例 4.7 的一个对象插入(也可以作为单独一个新的工作表插入),单击【完成】按钮。图 4-43 【图表位置】对话框 可以看到在工作表例 4.7 中插入了一个图表,如图 4-44 所示。初步生成频数分布图 图 4-44 生成的频数图(11)双击蓝色柱状任意一点,出现【数据系列格式】对话框,单击【选项】标签,将【分类间距】设为“0”,单击选中【依数据点分色】复选框,如图 4-45 所示,完成后单击【确定】按钮。分类间距设为 0 图 4-45 【数据系列格式】对话框【选项】标签 最终得到 100 名糖尿病患者血清白蛋白含量频率分布图,如图 4-46 所示。血清白蛋白含量频数分布

38、图051015202562-6464-6666-6868-7070-7272-7474-7676-7878-8080-8282-8484-86白蛋白含量(g/L)频数 图 4-46 100 名糖尿病患者血清白蛋白含量频率分布图(二)描述计量资料集中趋势和离散趋势的统计学指标(二)描述计量资料集中趋势和离散趋势的统计学指标 平均数是描述一组同质观察值集中趋势的指标。常用的平均数包括:算术平均数、几何平均数、中位数和百分位数等。描述离散趋势的指标包括:全距(极差)、四分位间距、方差、标准差和变异系数。1.采用 AVERAGE 函数求算数平均数(1)新建一工作表“例 4.8”,输入表头“糖尿病患者血

39、清总蛋白含量算数平均数”和例 4.5的信息。(2)单击 A103 单元格,单击插入函数按钮,选择【统计】/【AVERAGE】,Excel 默认对 A3:A102 单元格求算数平均值,按回车即可,最终结果如图 4-47 所示。用函数求出算数平均数 图 4-47 采用 AVERAGE 函数求算数平均数 2.采用 GEOMEAN 函数求几何均数 例 4.9 有 7 份血清的抗体效价分别为 1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。(1)新建一工作表“例 4.9”,输入表头“血清抗体效价平均数”,输入上述信息。(2)单击 A10 单元格,单击插入函数按钮,选择【

40、统计】/【GEOMEAN】,在出现 GEOMEAN 函数的【函数参考】对话框中输入 A3:A9 完成后单击【确定】按钮。最终结果如图 4-48 所示。用函数求出几何均数 图 4-48 采用 GEOMEAN 函数求几何均数 3.采用 MEDIAN 函数求中位数 例 4.10 8 名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,87 求中位数。(1)新建一工作表“例 4.10”,输入表头“8 名正常人舒张压中位数”,输入已知数据。(2)单击 A10 单元格,在编辑栏输入“=MEDIAN(A2:A9)”,按回车键。最终结果如图 4-49 所示。用函数求出中位数

41、 图 4-49 采用 MEDIAN 函数求中位数 4.采用 PERCENTILE 函数求百分位数 例 4.11 分别求例 4.10 数据的第 25、50 与 95 百分位数。(1)新建以工作表“例 4.11”,输入表头“8 名正常人舒张压百分位数”,输入已知数据。(2)分别单击B10、B11和B12单元格,分别在各自的编辑栏输入“=PERCENTILE(A2:A9,0.25)”、“=PERCENTILE(A2:A9,0.5)”和“=PERCENTILE(A2:A9,0.95)”,按回车键。最终结果如图 4-50 所示。用函数求出百分位数 图 4-50 采用 PERCENTILE 函数求百分位数

42、 5.采用 QUARTILE 函数求四分位数 例 4.12 求例 4.10 数据的四分位数。(1)新建一工作表“例 4.12”,输入表头“求 8 名正常人舒张压的四分位数”和例 4.10 中的已知数据。(2)求上四分位数QU值,单击B10 单元格,在编辑栏输入“=QUARTILE(B2:B9,3)”,按回车键。(3)求下四分位数QL值,单击B11 单元格,在编辑栏输入“=QUARTILE(B2:B9,1)”,按回车键。(4)求四分位数 Q。单击 B12 单元格,在在编辑栏输入“=B10-B11”。从图 4-51 中可以看出,8 名正常人舒张压的四分位数为 7mmHg。用函数求出四分位数 图 4

43、-51 8 名正常人舒张压的四分位数 6.采用样本方差函数 VAR 求方差 例 4.13 求例 4.5 数据的方差。(1)新建一工作表“例 4.13”,输入表头“求 100 名糖尿病患者血清白蛋白的样本方差”和例 4.5 的数据。(2)单击 B102 单元格,在编辑栏输入“=VAR(B2:B101)”,按回车键。用函数求出样本方差 图 4-52 100 名糖尿病患者血清白蛋白的样本方差 从图 4-52 中可以看出,100 名糖尿病患者血清白蛋白的样本方差为 15.453。7.采用 STDEV 函数求标准差(1)新建一工作表“例 4.14”,输入表头“求 100 名糖尿病患者血清白蛋白的标准差”

44、和例 4.5 数据。(2)求样本的标准差,单击 B102 单元格,在编辑栏输入“STDEV(B2:B101)”,按回 车键。用函数求出样本标准差 图 4-53 100 名糖尿病患者血清白蛋白的样本标准差 从图 4-53 中可以看出,100 名糖尿病患者血清白蛋白的样本标准差为 3.93mmHg。8.变异系数 前面介绍的三种衡量离散趋势的指标四分位数、方差和标准差,均为含有量纲的值,因此会受到计量单位不同或者改变而变得缺乏可比性,而变异系数则避免了这一缺点。例 4.15 测得某地 30 名男性慢性病患者的身高(cm)和体重(kg)数据如下,试比较慢性病患者身高(cm)和体重(kg)的离散程度何者

45、大。身高 170 165 167 174 178 163 180 175 178 169 168 172 175 178 177 182 170 173 172 184 166 164 175 173 172 176 173 181 166 168 体重 57 56 58 62 64 50 70 65 68 58 60 64 68 70 66 70 59 62 63 75 65 60 63 69 64 72 74 68 60 61(1)新建一工作表“例 4.15”,输入表头“采用变异系数度量离散度”,输入相应的体重和身高数据。(2)求身高和体重的平均值,单击 B33 单元格,在编辑栏输入“AV

46、ERAGE(B3:B32)”,单击 C33 单元格,在编辑栏输入“AVERAGE(C3:C32)”。(3)求身高和体重的标准差,单击 B34 单元格,在编辑栏输入“STDEV(B3:B32)”,单击 C34 单元格,在编辑栏输入“STDEV(C3:C32)”。(4)求变异系数,单击 B35 单元格,在编辑栏输入“B34/B33*100”,单击 C35 单元格,在编辑栏输入“C34/C33*100”。最终结果如图 4-54 所示。求出身高和体重的变异系数 图 4-54 30 名男性慢性病患者的身高和体重的变异系数 从图 4-54 的计算结果可以看出,如果从标准差来看,这 30 名男子的身高和体重

47、的离散程度接近,但是从变异系数来看,身高的变异系数为 3.21,远小于体重的变异系数 8.97。两者存在矛盾是因为身高平均值远远高于体重的平均值,因此含有量纲的标准差就会偏高,而采用变异系数考虑了各自的平均值,因此能更好的反映身高和体重的离散程度,因此认为体重的离散程度高于身高。9.利用分析工具进行描述性统计 前面运用函数或公式在 Excel 中对数值变量的集中趋势和离散趋势指标进行求解,Excel 在分析工具中专门编写了“描述统计”宏来实现快速和智能化的计算。例 4.16 例 4.5 数据采用分析工具中的描述性统计进行分析汇总,并给出相关统计指标。(1)新建一工作表“例 4.16”,输入表头

48、“利用分析工具中的描述性统计进行分析”,输入相应的数据。(2)单击【工具】/【数据分析】,出现【数据分析】对话框,选择【描述统计】,单击【确定】,出现【描述统计】对话框。(3)单击【描述统计】对话框中【输入区域】后的文本框,输入 A4:A103,单击【输出区域】后的文本框,输入 C3。单击选中【汇总统计】复选框,单击选中【平均数置信度】复选框,采用默认给出的 95%,如图 4-55 所示,完成后单击【确定】按钮。最终结果如图 4-56 所示。该结果包括:算数均数(平均)、标准误(标准误差)、中位数、众数、标准差、方差、峰度、偏度、极差(区域)、最小值、最大值、总和(求和)、总例数(观测数)、第

49、 K 最大值、第 K 最小值和置信度。图 4-55 【描述统计】对话框 描述性统计输出结果 图 4-56 例 4.16 结果 (三)应用(三)应用 Excel 进行数值变量资料的统计推断进行数值变量资料的统计推断 1.总体均数置信区间的估计 例 4.17 方差已知时总体均数的置信区间估计 某健康管理公司要对其管理的 1 000 名客户的平均体重指数(BMI)进行估计。已知该人群 BMI 的总体标准差 为 2.9,在随机抽取 50 名客户测量其身高和体重后计算出平均 BMI 为 23,求该健康管理公司管理所有客户的平均 BMI 点估计和 95%置信区间估计。(1)新建一工作表“例 4.17”,输

50、入表头“方差已知时总体均数的置信区间估计”。(2)分别单击 B2、D2、B3、D3 单元格,输入已知参数:=23、=2.9、=0.05、n=50。(3)每人平均 BMI 的点估计。单击 A6 单元格,在编辑栏输入“=B2”。(4)每人平均BMI的区间估计。首先运用置信区间公式直接求解。对应z/2的值,单击B10 单元格,在编辑栏输入“=NORMSINV(B3/2)”。区间上限值,单击 B11 单元格,在编辑栏输入“=B2-B10*D2/SQRT(D3)”;区间下 限值,单击 B12,在编辑栏输入“=B2+B10*D2/SQRT(D3)”,完成后按回车键。(5)也可以运用 CONFIDENCE

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com