第二章统计学统计数据的收集课件.ppt

上传人:石*** 文档编号:87142600 上传时间:2023-04-16 格式:PPT 页数:144 大小:4.39MB
返回 下载 相关 举报
第二章统计学统计数据的收集课件.ppt_第1页
第1页 / 共144页
第二章统计学统计数据的收集课件.ppt_第2页
第2页 / 共144页
点击查看更多>>
资源描述

《第二章统计学统计数据的收集课件.ppt》由会员分享,可在线阅读,更多相关《第二章统计学统计数据的收集课件.ppt(144页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第二章统计学统计数据的收集第1页,此课件共144页哦数据的计量与类型第二章统计数据的收集数据的计量尺度(对研究对象计量的不同精确程度):定类尺度定序尺度定距尺度定比尺度第2页,此课件共144页哦数据的计量与类型第二章统计数据的收集数据的类型定性数据定量数据变量 变量值连续变量离散变量第3页,此课件共144页哦数据的计量与类型第二章统计数据的收集绝对数、相对数数据的表现形式第4页,此课件共144页哦统计数据的收集第二章统计数据的收集产生/收集数据 Producing/collecting data二手数据:图书馆、互联网一手数据:观察 observation试验 experiment第5页,此课

2、件共144页哦“数据!数据!数据!”他不耐烦地喊道,“我不能做无米之炊。”Sherlock Holmes(歇洛克.福尔摩斯)第6页,此课件共144页哦内容提要 原始数据来源 坏样本与好样本 真实世界中的抽样调查 实验面面观 真实世界中的实验 数据伦理 度量数字合不合理?第7页,此课件共144页哦第一节 原始数据来源 Where Do Data Come From?观察研究Observational studies试验/实验Experiments第8页,此课件共144页哦观察研究Observational Studies在只观测不干扰的情形下收集信息Jane Goodall在坦桑尼亚的冈贝国家公

3、园观察野生黑猩猩行为:是否素食动物?食物中肉类的比重?多久猎食一次?单独或集体行动?多少只一起行动?只有雄性还是雌、雄都有?通常无法进行试验技术或道德原因第9页,此课件共144页哦例2-1:高压线会让儿童得白血病吗?电流产生磁场,所以生活在有电环境里,会使人暴露在磁场。住在高压线附近,会增加这种暴露程度。实验室中的研究显示,强烈磁场会干扰活细胞。但是住在高压电线附近,接触到较弱的磁场,影响又如何?有些数据显示,似乎住在这些地方的儿童,会有较多的人患上属于血癌的白血病。我们不能安排孩子去暴露在磁场下来做试验。而要较多和较少暴露在磁场下的儿童罹患白血病的比例也有点困难,因为白血病很罕见,而且居住位

4、置除了磁场暴露程度不同之外,也可能有许多其它差异。第10页,此课件共144页哦例2-1(续):高压线会让儿童得白血病吗?可行的方法是从已经得了白血病得儿童着手,把他们和未得病的儿童比较。我们可以检视许多可能的原因,例如食物、杀虫剂、饮水、磁场等等,看看有白血病和无白血病的儿童,在这些项目中,有哪些不同。在这些大规模研究中,有一些显示似乎应对磁场作进一步研究。有人花了5年和$500万,对磁场作了极为仔细的研究。研究者比较了638个白血病患儿和620个非患儿。他们到这些儿童家里,在其卧房、其它房间及房子的第11页,此课件共144页哦例2-1(续):高压线会让儿童得白血病吗?前门处都测量了磁场强度。

5、不仅对儿童住家附近的高压电线资料作了记录,还对儿童母亲在怀孕时住处附近的高压电线资料作了记录。结论是,除了巧合之外,并没有证据显示磁场和儿童白血病有相关关系。Source:David S.Moore,Statistics:Concepts and Controversies,5th Ed.,2001第12页,此课件共144页哦数据来源Where Do Data Come From?总体总体总体总体我们想研究的对象全体样本样本样本样本普查(普查(普查(普查(censuscensus)试图取得总体中每个个体的信息抽样调查(抽样调查(抽样调查(抽样调查(sample sample surveysur

6、vey)是从某个特定的总体中抽取样本,根据样本提供的信息做出关于总体的结论第13页,此课件共144页哦抽样调查Sample Survey 总体总体总体总体是我们想研究的对象全体若我们想要了解关于全国大专学生的信息,那么全国大专生就是我们的总体,即使抽样时受限制只能在一所大学里进行,总体仍然不变。要想从样本中得出什么结论来,必须知道样本代表的总体是什么 样本样本样本样本只包括我们取得信息的那些个体你不必吃完整头牛,才知道肉是老的。第14页,此课件共144页哦普查Census 普查(普查(普查(普查(censuscensus)是试图把整个总体纳入样本的抽样调查中国的5次人口普查:53、64、82、

7、90、2000美国从1790开始,每10年做一次的人口普查(宪法规定)第15页,此课件共144页哦抽样调查 vs.普查普查需要耗费大量人力、财力、物力&时间负得起费用,也担不起时间如中CPS每月失业统计如用普查,就要等下年而非下月知道结果在一些调查中样本将被毁坏而无法通过普查烟花、灯丝测试第16页,此课件共144页哦抽样调查 vs.普查(续)适当确定的小规模样本能提供比普查更精确的数据清点零件库存时与其叫一个不耐烦的职员,不如精心安排的抽样来得准确但有些时候只能依靠普查需要详细的地方数据:如美国人口普查一个功能就是为选区划分提供依据第17页,此课件共144页哦例2-2:一次“以整个总体为样本”

8、的企图美国人口普查局的经历告诉我们,普查只能“试图试图”把整个总体纳入样本。普查局估计,1990年的人口普查漏掉了 1.8%的全国人口。漏掉的人口中包括黑人的族裔的4.6%,且大多住在内陆(inner cities)。即使由政府强大资源作后盾,普查也无法达到完美无瑕。第18页,此课件共144页哦试验Experiments 试验(试验(试验(试验(experimentexperiment)时会刻意对某些个体(处理组)加上某项处理(treatment),以期能观察其反应,并结果与对照组(control)做比较阿斯匹林能降低心脏病的风险吗?仅靠观察还不够还要施加某项处理如果除了处理这一点外,处理组与

9、对照组完全相同,则两组的反应差别就很可能归因于处理的效果第19页,此课件共144页哦试验(续)Experiments然而,如果处理组还有其它因素不同于对照组,则这些因素的影响就与处理的效果相混淆为了保证处理组与对照组相同,调研者随机将试验对象分到处理组与对照组随机对照试验只要有可能,给对照组一种性质中性但看上去很像处理的安慰剂在双盲试验中,试验对象不知道自己在对照组还是处理组,那些评估反应的人也不知道,这样就防止了反应中或是评估中的有偏第20页,此课件共144页哦例2-3:职业培训政策有否助益?一些失业人员会参加政府组织的职业培训,来提高自己的工作技能。但这项政策是否真的有帮助,是不是应该将所

10、有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策的效果:仅仅对比参加和未参加就业培训的人,观察其后来的就业和收入,所下的结论未必正确。因为他们原先就可能存在许多差别(如:已受过较多的教育、价值观和动机不同)一些失业人员会参加政府组织的职业培训,来提高自己的工作技能。但这项政策是否真的有帮助,是不是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策的效果:仅仅对比参加和未参加就业培训的人,观察其后来的就业和收入,所下的结论未必正确。因为他们原先就可能存在许多差别(如:已受过较多的教育、价值观和动机不同)第21页,此课件共144页哦例2-3(续):职业培训政策有否助益?一

11、些失业人员会参加政府组织的职业培训,来提高自己的工作技能。但这项政策是否真的有帮助,是不是应该将所有失业人员都纳入这一计划?仅靠观察研究无法告诉我们这项政策的效果:仅仅对比参加和未参加就业培训的人,观察其后来的就业和收入,所下的结论未必正确。因为他们原先就可能存在许多差别(如:已受过较多的教育、价值观和动机不同)精心设计的试验能帮助我们回答这一问题。在失业人员中,选择两组相似的人(年龄、教育程度、婚姻与子女等方面),要求其中一组参加就业培训,但是对另一组不提供这一计划。若干年后,比较两组人的收入以及工作记录,就可以看出,要求参加就业培训是否有预期的成效。Source:David S.Moore

12、,Statistics:Concepts and Controversies,5th Ed.,2001第22页,此课件共144页哦观察 vs.试验观测的原则是:“观测,但别干扰”Jane Goodall在观察黑猩猩时,曾设立食物补给站,让黑猩猩能在那里吃到香蕉。后来她承认该做法错了,可能导致黑猩猩行为的改变试验则存心改变行为,目的是要了解特定行为/处理(treatment)是否会引起某种反应是否存在“因果关系(cause&effect)”第23页,此课件共144页哦第二节 好样本与坏样本第24页,此课件共144页哦有偏 Biased如果统计问题的设计使得结果总是往某个方向偏,我们就称这个设计是

13、有偏的有偏的(Biased)。第25页,此课件共144页哦两种有偏的抽样方法Biased Sampling Methods 方便抽样方便抽样方便抽样方便抽样 convenience samplingconvenience sampling从总体抽样时,选取最容易取得的个体 自发回应样本自发回应样本自发回应样本自发回应样本 voluntary response samplevoluntary response sample自动对某一普遍呼吁(general appeal)产生回应而形成的样本,如写信回应(write-in)或电话回应(call-in)意见调查第26页,此课件共144页哦例2-4:

14、给己方便,给人方便设想我每周提供给你所在公司几箱橙子。你通过对每个箱子抽样来检查橙子的质量。很容易你会只检查每一箱顶上的几个橙子,但这不能作为整箱橙子的代表,因为底部的橙子更可能在运输中受损。并且,如果我知道你的抽样方法,我就会把烂的橙子放在底部而把好的放在上面让你检查。若你只检查表面,那么你的抽样结果就是有偏的有偏的有偏的有偏的样本橙对于其所要代表的总体橙来说,质量偏好。第27页,此课件共144页哦例2-5:购物中心访谈Interviewing at the Mall生产商和广告商常借助购物中心访谈来收集有关消费者行为和广告效力的信息。这种消费者样本既快速、又便宜。但在购物中心接触到的人并不

15、能充分代表总体人口。例如,这些人更富有、更多为青少年或退休人士。并且,采访者倾向于从顾客群中选择外表整洁、和善的个人。购物中心的样本是有偏的有偏的有偏的有偏的:对总体的某一部分人 过分代表(over-represent),对其它人则代表不足(under-represent)。来自该方便样本方便样本方便样本方便样本的观点,可能和总体的观点大相径庭。第28页,此课件共144页哦例2-6:写信回应意见调查专栏作家Ann Landers 有一次问她的读者:“如果可以重来一次,你还要孩子吗?”她接到近1万份答复,其中将近70%说:“不要!”难道70%的父母都后悔有了孩子吗?当然不是。这是个自发性回应样本

16、。通常对某个议题有强烈感觉的人,尤其有负面感觉的,比较会不嫌麻烦地去回应。Landers 的意见调查结果是有高度偏差的:她的样本中,宁愿不要孩子的父母百分比,远大于全体父母中宁愿不要孩子的百分比。第29页,此课件共144页哦例2-7:写信给美国国会假设你是美国某国会议员的幕僚,这位议员正在考虑一项法案,该法案会对老人疗养院的服务,提供政府资助的保险。你的报告指出,一共收到1128封针对此法案的来信,其中871封反对此项法案。国会议员说:“真没想至我的选区当中,大部分人都反对这个法案。我还以为会有很多人赞成。”你相信大部分的选民都反对这个法案吗?你会怎么向国会议员解释这件事牵涉到的统计问题?(自

17、发性回应样本对总体的代表性可能不够。)第30页,此课件共144页哦人为选择导致有偏上述两种抽样方法之所以有偏,是因为其中加入了人为选择(人为选择(human choice)方便样本:加入了取样者的偏好自发回应样本:加入了被取样者的意志统计学家开出的纠偏处方:利用不牵涉人为选择的“机遇机遇”(impersonal chance)(impersonal chance)来选取样本随机抽样第31页,此课件共144页哦简单随机抽样Simple random sampling用机会选出的样本,是让每个个体都有同样的中选机会,来消除人为偏向第32页,此课件共144页哦例2-8:一个简单随机抽样的例子抽签选代

18、表 Choosing Names from a box从全班50人中选5人光荣而艰巨的任务:打扫教室意外之喜:免费观赏进口大片由于“人人不甘落后而又名额有限”:将50个名字分别写在同样大小的纸条上,放入盒中摇匀(总体)从中抽出5张,就得到一个简单随机样本简单随机样本简单随机样本简单随机样本:不仅每个人中选机会相同,且每个可能的样本(任5张)被抽中的机会都相同第33页,此课件共144页哦随机选样的最简单的办法:抽签选取该方法选出的样本不加入“人意”无取样者的个人偏好、也无回应者的主动加入;而是“天意”不论班干/普通同学、团员/非团员、男生/女生、“乖”学生/“怪”学生,每个人被选进样本的机会相等

19、第34页,此课件共144页哦简单随机样本Simple Random Sample,SRS大小为n的简单随机样本简单随机样本是一个有n个个体的样本,其选取的方法,是使得总体中任一组n个个体,都有相等的中选机会样本容量第35页,此课件共144页哦至少方法是公平的上述定义并未描述某一具体样本,而是描述选择样本的方法一种使任一大小为任一大小为任一大小为任一大小为n n的可能样本,的可能样本,的可能样本,的可能样本,都有同样的机会被选中都有同样的机会被选中都有同样的机会被选中都有同样的机会被选中的方法其内在思想是:首先方法必须公平第36页,此课件共144页哦随机数表Table of Random Dig

20、its是一连串的 0、1、2、3、4、5、6、7、8、9 这些数字,且满足以下两个条件:1.表中任一位置数字为0-9中任何一个数字的概率相同。2.不同位置的数字之间是独立的。也就是说,知道表中某一部分是些什么数字,不会提供给你任何关于其他部分是些什么数字的信息。第37页,此课件共144页哦随机数表的生成想象如下过程请一位助理(电脑):1.把数字0-9放在一个盒子内混匀2.任意抽出一个数字,记下来再放回3.无限重复步骤1、2:混匀、抽取、记录、放回19223950340575628713为方便查阅,对随机数字又进行分组分行,得到随机数表。实际上行和列并没有特别意义,该表只是一长串具有前述两个特性

21、的随机数字而已第38页,此课件共144页哦例2-9:用随机数表选SRS王女士的小型律师事务所共有30家客户。王女士想选择其中5家进行深入拜访,以找到提高客户满意度的办法。为了避免人为选择的有偏,她选了一个大小为5的简单随机样本(SRS):步骤步骤1:编号(:编号(Label)给每家客户一个数字编号,数字位数应尽可能少。30家客户要只需用到两位数,因此我们使用:01,02,03,29,30对每家客户进行编号。客户名单及编号如下:用00-29亦可第39页,此课件共144页哦例2-9(续一)01 安利 09 惠尔康17 马士基25 沃尔马02 宝岛眼镜10 华美 18 麦当劳26 厦工机械03 宝姿

22、时装11 建发19 闽客隆27 厦新电子04 戴尔12 金鹭20 平安保险28 兴业银行05 古龙罐头13 柯达21 三圈日化29 悦华酒店06 光合作用14 肯德基22 舒友餐饮30 钟爱一生07 国贸15 林德23 松下音响08 汇丰16 鹭发24 太古可乐第40页,此课件共144页哦例2-9(续二)步骤步骤2:查表(:查表(Table)从“随机数表”任一处开始,读取两个一组的随机数。假设我们从第130行开始:69051 64817 87174 09517 84534 06489 87201 97245该行的前10个“两位数组(two-digit groups)”为:69 05 16 48

23、 17 87 17 40 95 17王女士客户的编号为01-30,所以读表时将忽略除此以外的编号。我们所遇到的头5个在01-30之内编号就是我们所要选取的样本。第41页,此课件共144页哦例2-9(续三)从130行每两个一组依次读下来,头10个编号有5个超过30,我们将其忽略。剩下的依次是05、16、17、17和17”,于是编号05、16、17的客户进入我们的样本,忽略第2个和第3个17,因为17已经在样本中了。由于未凑足5个,我们顺着130行继续读下去(如有必要可延续到第131行),直到选出5家客户。最后我们所选出的SRS为编号05、16、17、20、19的客户。他们分别是:古龙罐头、鹭发、

24、马士基、闽客隆、平安保险。第42页,此课件共144页哦用随机数表选取SRS的两个步骤步骤步骤1:编号(:编号(Label)为抽样框(抽样框(抽样框(抽样框(sampling framesampling frame)内的每一个个体指定一个数字编号,每个编号具有相同的数位步骤步骤2:查表(:查表(Table)利用随机数表随机选号抽样框抽样框我们从中选取样本的个体名单表第43页,此课件共144页哦用随机数表选SRS的注意事项(续)使用尽可能短的编号10个成员以内的总体,1位数就够了(0-9)11-100个成员,用2位数编号(00-99)101-1000个成员,3位数(000-999)以此类推随机数字

25、本身无序,任何读取顺序都是合法的(横读、竖读)忽略重复的、不存在的编号一般从1(或01、001,视需要而定)开始编号但最好是先从左到右、然后再从上到下读第44页,此课件共144页哦统计误差抽样误差sampling errors因抽样行为而产生的误差,导致样本结果与普查的结果不同非抽样误差Nonsamplingerrors与抽样行为无关的误差,即使在普查中也可能发生第45页,此课件共144页哦n坏抽样方法 bad sampling methodn由于方便抽样、自发回应样本所造成的有偏n随机抽样误差 random sampling errorn指样本统计量与总体参数间的差距n由于随机选取样本的偶然

26、性所导致n置信声明中的误差界限只包含这类误差n其它抽样误差 other sampling errorsn如“涵盖不全(undercoverage)”抽样误差Sampling errors可被避免可通过改变样本大小加以控制同样能导致有偏,造成置信声明毫无意义第46页,此课件共144页哦n在选样本的过程中,总体中有某些部分未被纳入选择范围或者说是“抽样框不完整(incomplete sampling frame)”n抽样前必须要有一个清单,上面列出总体所有成员,我们可以从中抽取样本,该清单即为抽样框抽样框抽样框抽样框 (sampling(sampling frame)frame)涵盖不全Under

27、coverage理论上,抽样框应当包括总体的每一个体,但这样的清单往往难以取得,导致大部分样本多多少少会发生“涵盖不全”第47页,此课件共144页哦n在美国,大部分民意调查都是通过电话进行的,但即使采用随机抽样的电话调查,也可能产生有偏的结果:n以何为抽样框?电话号簿?将遗漏所有未在电话号簿登记电话号的用户某些大城市,未登记的住户超过一半如此调查结果将严重有偏n解决之道:随机数字拨号随机数字拨号(random digits dialing,RDD)可将所有电话用户纳入抽样框例2-10:电话抽样与涵盖不全抽样框就此完整了吗?第48页,此课件共144页哦n对于所要反映的总体(全体美国居民),该抽样

28、框仍无法完全涵盖n6%住户(特别是南部、单身居民)没有装电话n只联络一般住户,住宿舍的学生、住监狱的犯人、大部分军人被排除在外n无家可归和住在临时收容所的居民n阿拉斯加和夏威夷的住户因话费太贵而不被访问n不讲英语的不被访问,一些移民家庭被排除例2-10:电话抽样与涵盖不全(续)第49页,此课件共144页哦n数据处理误差 processing errorsn机械化工作中的误差,如计算错误或将受访者回答输入电脑过程中出错n回应误差 response errorn无回应 nonresponsen提问的措辞 wording the questions非抽样误差Nonsampling errors现代科

29、技的应用加上对细节的重视,可将处理误差处理误差减至最低;技巧熟练的访问员也可大幅减少回应误差,回应误差,特别是在面对面访问的时候,但对于无回无回应应误差,并无简单的办法可以对付第50页,此课件共144页哦n访问员手拿的纸和笔已成为历史n现在的访问员不是带着笔记本电脑就是一边看着屏幕一边做电话访问n电脑软件控制着访问的进程:n访问员照着屏幕提示提问,再用键盘输入回复;电脑自动跳过无关问题一旦受访者说没有小孩,后续关于小孩的问题将不再出现;电脑可以检查前后答案是否一致;并且能按随机顺序提问,以避免按同样顺序问问题可能造成的有偏计算机辅助调查Computer-assisted interviewin

30、g第51页,此课件共144页哦n电脑软件同样控制着数据的处理:n保存着回答者的记录n将回答转为数据,避免了从paper到computer的转录过程这曾是processing error的一大根源n电脑还可以安排电话调查的时间n考虑被调查者所在时区n若有人第一次接电话时表示有意但没有时间回答,电脑会重约时间并提醒到时履约计算机辅助调查(续)Computer-assisted interviewing第52页,此课件共144页哦n受访对象给了不正确的回答n谎报:年龄、收入、是否服过禁药等敏感问题n记错:如“上周抽过几包烟?”n听不懂问题而瞎猜:不愿显得无知回应误差Response error第53

31、页,此课件共144页哦n受访对象被问及她/他在一定时期内的行为时,很容易因为记错而产生回应误差回应误差。美国全国健康调查曾询问调查“去年你看过几次病”,而后对照健康记录发现,人们忘记了60%他们看病的经历例2-11:记错导致的回应误差人们习惯于忘记不愉快的经历?第54页,此课件共144页哦n1989年,纽约市选出第一位黑人市长,维吉尼亚州选出第一位黑人州长。这两个事件,在投标所访问投完票的选民时,所预测到的胜负差距,都比实际开票的差距大。因此调查机构相当确定,有些受访选民因为不愿承认投票给黑人候选人而说了谎。例2-12:种族效应第55页,此课件共144页哦n二战期间,美国国家民意调查中心派出了

32、两组调查人员对一个南方城市(随机选出?)的500名黑人进行了提问,一组调查人员由白人组成,另一组由黑人组成n问题之一是:“如果日本占领美国,你认为黑人的状况会变好还是更糟?”黑人调查组中,9%回答“变好”,白人调查组该比例只有2%。回答“更糟”的比例也不相同,黑人调查组是25%,白人调查组则是45%例2-13:投调查者所好的回答第56页,此课件共144页哦n无法得到已被选入样本的个体的资料n联系不上n拒绝合作无回应 Nonresponse人们越来越不情愿回答问题。面对面访问常被封闭的社区和门卫所阻挡;电话调查则由于答录机、来电显示和电话推销的泛滥而导致回应率的下降第57页,此课件共144页哦n

33、回应肯定将使调查结果有偏,因为不同群体的人有不同的回应率:n穷人比中产阶级更难联系上;n老年人、大城市居民有更高的拒答率n由无回应无回应造成的有偏,能轻易超越置信声明置信声明所描述的随机抽样误差随机抽样误差无回应造成有偏第58页,此课件共144页哦n有人研究酒吧里的打架事件,发现其中有90%都是死掉的那个人先动手的。这种结果你可别相信。假如你跟人打架把人给揍死了,警察问你谁先动手的时候,你会怎么回答?反正死人也不会说话。这也是无回应的一种。例2-14:他先动手的!第59页,此课件共144页哦n由政府出面的进行的美国“当前人口调查(CPS)”回应率最高:只有6%7%不回应n先登门拜访,而后电话访

34、问n由大学主持的社会科学研究调查“全面社会调查(GSS)”:24%不回应率n面对面在受访者住所进行访谈n其它独立的调查机构(媒体、市场调查机构、民意调查公司)不肯透露其不回应率,但无回应有多糟?第60页,此课件共144页哦Pew Research Center模仿了好几家民意调查机构的做法,为通过随机拨号得到1000人的样本,在剔除了传真机号和机构电话号之后,共需打2879个住宅电话,其中n33%从来没人接n接听电话人中,又有35%拒绝接受访问、只有52%最终完成访问n整体无回应比例(不接电话、不愿接受访问、访问未完成),占2879人中的1658人,即58%无回应有多糟?(续)第61页,此课件

35、共144页哦nPew的调查,远比许多独立调查机构做得彻底,但仍有58%的无回应率。据内部人士透露,这些机构的不回应率常常达到初始样本的75%90%无回应有多糟?(续)Pew在“标准”调查的基础上又进行了一项“严格”调查:在打电话前先寄信;如没人接则在8周内不断打电话;寄快件给拒绝受访的人,所有这些做法,把不回应率从“标准”调查的58%进一步降到了30%。对比两项调查,“标准”调查虽然有偏,但结果尚在可接受的范围内(个别问题仍属例外)第62页,此课件共144页哦表:Pew的模拟调查结果分类电话数百分比从来没人接电话93833接了电话却拒绝接受访问67824条件不合:没有18岁以上成人或语言不通2

36、218访问未完成421访问完成1,00035总计2,879100注:Pew Research Center的调查选取了一周的不同日子、每天不同时段、每个号码都打了5次第63页,此课件共144页哦无回应率的减低训练以提高访问员的技巧只要对方肯接电话,就有办法让其不挂断事前寄信后续访问(follow-up)持续访问直到最终联系上训练以提高访问员的技巧只要对方肯接电话,就有办法让其不挂断后两种方法虽然有助于降低无回应率,但会延缓调查进度,所以如果需要快速得到答案就不被采用。但即便是最严谨的专业的调查,也无法完全克服无回应无回应的难题第64页,此课件共144页哦无回应率的减低(续)用其它个体来取代不回

37、应的人城市里的不回应率比较高,若用不回应住户附近的其它住户来取代,可以减低偏差给现有回应加权在数据收集完成后的纠偏方法,比如:若样本里太多女性,就给男士加权虽可减少偏差,却会增加变异性执行加权,替统计学家制造了许多工作机会第65页,此课件共144页哦例2-15:统计学家的技巧盖洛普宣布,他们访问了解1523位美国成年人,发现其中有57%在过去12个月当中买过乐透彩券。从表面上看起来,因为1523的57%是868,所以盖洛普的样本当中,应该是有868个人玩彩券。然而事实却非如此。盖洛普无疑曾用了某些特殊的统计技巧,来给实际得到的结果加权;57%这个数字,是盖洛普对于如果没有人回应时,所应该得到的

38、结果的最佳估计。第66页,此课件共144页哦问题的措辞Wording the questions清楚而不含混 把问题表达得完全清楚是出乎意料其困难中立而无误导一些提问注定偏向某一答案而非其它第67页,此课件共144页哦例2-16:股票?家畜?有个调查问到:“是否拥有stock(股票,也是家畜)?”大部分的德州牧场主人都答:“是”,可是他们拥有的,大概不是在纽约证券交易所可以买卖的那种。第68页,此课件共144页哦例2-17:稍改几个字,结果大不同美国人对于政府对穷人的帮助,看法如何?只有13%的成人认为他们花太多的钱在“帮助穷人上”,可是却有44%的成人认为他们花太多的钱在“社会福利”上。苏格

39、兰人对于从英国独立出来,看法如何?有51%的人赞成“苏格兰独立”,但是只有34%的人支持“从联合王国分离出来的独立的 苏格兰”第69页,此课件共144页哦例2-18:“加料”的问题是否应该立法消除所有可能的途径,使特殊利益团体无法捐献大笔款项给候选人?应该立法来禁止利益团体捐助竞选活动?或者团体有权捐款给所支持的候选人吗?为防止“恐怖事件”,国安局有权监控所有电子邮件?第70页,此课件共144页哦例2-18:“加料”的问题(续)第一个问题是佩罗提出的,邮寄来的回答中,99%答“是”。由于是自发回应的调查结果,所以杨克洛维奇调查公司对全国随机样本问了同样的问题,结果80%答“是”。佩罗的问题简直

40、是要求人家答“是”,所以杨克洛维奇写了第二个问题,用较中立的立场来提出这个议题,在问这个问题时,全国随机样本中只有40%赞成禁止捐款。第71页,此课件共144页哦思考题以下哪些是抽样误差的根源、哪些是非抽样误差的根源?解释你的答案。a.受访对象隐瞒曾用过毒品的事实b.记录数据时打字错误c.要求人们填写印在报纸上的问卷并寄回d.电话簿被用作样本框e.打了5次电话仍联络不上受访者f.调查员在大街上选择行人进行访谈第72页,此课件共144页哦第三节 真实世界中的抽样设计抽样调查的思想很清楚:从总体抽一个SRS,用样本的统计量估计总体参数。但在现实中,常常是要对大规模的人群进行抽样,此时SRS显得不切

41、实际难以取得完整的抽样框抽样框(sampling frame)太过昂贵(调查成本)若样本为一个全国范围的SRS,则该样本中的各成员的住址可能分散在东西南北各个角落,与之 进行联系花费太高对总体信息的利用第73页,此课件共144页哦真实世界中的抽样设计(续)SRS主要适用以下情况:1、对调查对象的情况很少了解2、总体单位的排列没有秩序抽到的单位比较分散时也不影响调查工作第74页,此课件共144页哦真实世界中的抽样设计(续)类型抽样整群抽样等距抽样多阶段样本第75页,此课件共144页哦类型抽样对总体各单位按一定的标志进行分类,然后分别从每一类中按随机原则抽取一定的单位构成样本。确定各组的抽样单位数

42、可有:类型适宜抽样 类型比例抽样也称分类抽样,分层抽样。第76页,此课件共144页哦类型抽样的作用:利用已知的信息提高抽样效率抽样的组织工作比较方便掌握总体中各个子总体的情况第77页,此课件共144页哦例2-19:类型抽样抽样调查厦门市居民收入分配情况,如果历史资料所映了高收入者、中等收入者、低收入者的比例结构,我们可以按此结构分类分别从中按一定的比例抽取样本。可避免样本全来自某一收入阶层所产生的系统偏差。(虽然是小概率)第78页,此课件共144页哦整群抽样将总体各单位分成若干群,然后从中随机抽取部分群,对中选的群进行全面调查的抽样方式。第79页,此课件共144页哦整群抽样的作用当总体缺乏所括

43、全部总体单位的抽样框,无法进行抽选时(总体很大且没有现成的名单)方便和节约费用(总体单位很多,分布很广)第80页,此课件共144页哦例2-20:整群抽样调查厦门市中学生近视眼的比例有多大,就需要全市中学生的名单。第81页,此课件共144页哦等距抽样将总体各单位按某一标志进行排列,然后按固定的间隔来抽取样本单位的抽样方法随机起点等距抽样半距起点等距抽样对称等距抽样又称机械抽样或系统抽样第82页,此课件共144页哦等距抽样的作用简便易行对总体结构有一定的了解时,可用已有的信息对总体进行排列后采用等距抽样,提高抽样效率(缩小各单位间的差异程度,提高样本代表性)第83页,此课件共144页哦应避免与现象

44、本身的节奏性或循环周期相重合注意:第84页,此课件共144页哦多阶段抽样整群抽样和类型抽样的综合一个对全国范围内城镇居民的面对面访谈的抽样设计大致如下:阶段阶段阶段阶段1 1:从全国34个省、直辖市、自治区、特别行政区(或n个市级行政单位)中的抽取一个样本 阶段阶段阶段阶段2 2:对阶段1抽出的样本,再从其下级的行政区抽取样本第85页,此课件共144页哦 阶段阶段阶段阶段3 3:使用地图(或航拍图)作为抽样框,在阶段2抽出的每一个行政区辖区内选取更小的地域(如街区)样本 阶段阶段阶段阶段4 4:在阶段3样本(街区)的基础上,从每一街区选取住户的样本。派出访问员上门调查。第86页,此课件共144

45、页哦其他非全面统计调查重点调查:选取重点单位进行调查典型调查:选取典型单位进行调查第87页,此课件共144页哦统计调查的方案设计 统计调查要涉及成千上万的人,工作人员,参予人员,被调查人员,统计调查方案是保证统计调查得以顺利进行的前提,也是准确、及时、完整取得调查资料的重要条件。第88页,此课件共144页哦统计调查的方案设计(续)确定调查目的 确定调查对象和单位 确定调查项目 调查表格和问卷的设计确定调查进间和调查期限 制定调查的组织实施计划 第89页,此课件共144页哦确定调查目的确定调查目的明确调查目的,才知道要解决什么问题,应该搜集什么样的资料。例,工业企业,可以调查生产经营状况,可以调

46、查职工素质,可以调查第三产业状况。对大学生,强以调查健康状况,也强以调查学习情况,还可以调查思想观念。第90页,此课件共144页哦确定调查对象和单位确定调查对象和单位调调查查对对象象:根据调查目的和任务而明确的被调查总体。调调查查单单位位:组成调查总体的个体,标志承担者。第91页,此课件共144页哦例如,工业普查中,目的了解各工业企业的生产经营状况,调查对象是所有工业企业,调查单位是每个工业企业。需要把工业企业与农业、建筑业、商业、运输业等其他企业区分开来,划清总体界限。例如,目的,了解城市职工家庭收支基本情况,调查对象:全部城市职工家庭,调调查查单单位位:第一户城市职工家庭,明确城市职工和非

47、城市职工的定义。第92页,此课件共144页哦报告单位:填报单位,负责上报调查资料的单位。例,工业企业普查,每个工业企业既是调查单位,又是报告单位,例,工业企业生产设备状况普查,调查单位是每台设备,报告单位是每个工业企业。报告单位是单位,调查单位:人、物、单位 第93页,此课件共144页哦确定调查项目确定调查项目调查项目:所要调查的具体内容,完全由调查对象的性质、调查目的和任务所决定,包括调查单位所须登记的标志和其他有关情况,向调查单位调查什么,反映调查单位特征的标志是多种多样的。第94页,此课件共144页哦确定调查项目时应注意:1、调查项目要少而精(实现调查目的)2、需要和可能原则(只列入能够

48、得到确定答案的项)3、解释的统一性4、项目之间的衔接性,项目之间的联系,时间上的可比性5、可拟定“选择”式,而非一定设计成问答式 第95页,此课件共144页哦调查表格和问卷的设计调查表:列出调查项目的表格形式一览表:许多调查单位和相应的项目按次序登记在一张表格里。例,成绩表单一表:一张表格只登记一个调查单位。例,学生登记表 第96页,此课件共144页哦确定调查时间和调查期限确定调查时间和调查期限调查时间:调查资料所属的时点和时期调查时限:调查工作进行的起讫时间 第97页,此课件共144页哦制定调查的组织实施计划制定调查的组织实施计划(调查工作是有组织、有计划的)调查机构调查步骤人员及组织训练经

49、费另,宣传,文件,试点等以及调查方法,调查空间 第98页,此课件共144页哦概率样本的定义利用机遇抽取的样本。我们已知哪些样本是以及每个可能的样本被抽中的概率是多少。分层样本就不包括总体所有可能的样本,即使包括在内的样本,被抽中的概率也未必一样第99页,此课件共144页哦相信调查结果前该问的问题若调查者使用好的统计方法好的统计方法,尽可能准备一个完整的抽样完整的抽样框框,注意提问的措辞提问的措辞,减少无回应无回应,则抽样调查确实能能提供准确和有价值的信息但亦存在许多抽样调查不能提供准确的和有用的结果(尤其是那些设计好要影响公众意见而不只是要记录意见的调查!)。为此,在你更多关注某个抽样调查的结

50、果之前,有必要先问几个问题:第100页,此课件共144页哦谁做的调查?总体是什么?样本是怎样选取的?样本多大?回应率是多少?用什么方式联络受访者?(电话?邮寄?面对面?)调查是什么时候做的?(是不是在一个可能影响结果的事件发生之后)问题确实是怎么问的?第101页,此课件共144页哦但新闻编辑和播音员却有一种坏习惯,常要删掉这些“无聊”内容而只报道结果。更有一些有利益集团、新闻媒体由于本身采用了不可靠的抽样方法,所以根本就不能回答上述问题 许多民意调查、学术调研、政府负责统计官员在宣布抽样调查结果时,会回答这些问题 第102页,此课件共144页哦严谨的抽样调查如Gallup会告诉我们真相:“除了

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com