抽样调查设计.pptx-得力文库

资源描述

《抽样调查设计.pptx》由会员分享，可在线阅读，更多相关《抽样调查设计.pptx（56页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、抽样调查设计中国人民大学统计学院金勇进一.生活在调查中的现代人1. 调查无所不在2. 抽样调查是应用最广泛的调查方式3. 在国外，抽样调查几乎应用于所有领域4. 在国内，抽样调查应用发展迅速5. 如人口变动调查，劳动力调查，社会问题研究，电视收视率调查，满意度调查，以及各种民意调查等。1.调查能测准吗？2.也能，也不能。3.看几个相关的例子全球性调查报告：中国人均性伴侣数全球排第一全球性调查报告：中国人均性伴侣数全球排第一 “近日，2004年杜蕾斯全球性调查报告向社会发布。引人注目的是报告中显示中国人的平均性伴侣数最多，为193人，远远高于全球的平均数105人；而中国人平均每年性生活的频

2、率却只有90次，排全球倒数第7位，低于全球平均水平103次。同时，报告还显示中国首次接受性教育的年龄为137岁，最接近世界平均水平，然而却只有22的调查对象认为青少年性教育由家人或监护人完成。”资料来源：北京晨报，2004年11月25日矛盾：为什么性伴侣最多，性频率却不高？首次接受性教育的年龄走低，却不是由家长来完成性教育任务？问题在于，样本是怎样产生的？传统观念被颠覆了吗？传统观念被颠覆了吗？雪儿海蒂（Shere Hite）在1987年出版的女性与爱情：前进中的文化之旅一书中，给出了一些数据：84%的女性“在情感上对两性关系不满意”（第804页）。70%的女性“在结婚五年或者更久后发生了婚

3、外性关系”（第856页）。95%的女性“在恋爱时会因男友而出现情感及心理上的烦恼”（第81页）。84%的女性在与男友的恋爱中有屈尊感（第809页）。这本书遭到全美报刊及杂志文章的广泛批评。例如，时代周刊的封面故事“后退，巴迪”里认为海蒂的研究结论是“模糊的”、“没有价值的”。“是试图颠覆人们传统观念中的女性”。资料来源：Sharon L. Lohr 2002, Sampling: Design and Analysis, 中国统计出版社，P11.上述调查结果都是被社会广泛质疑的。从技术层面2.讲，被质疑的一个重要原因是没有说明样本的产生过3.程。4.成功的案例也有。如美国总统竞选的预测。二.

4、什么是好的调查策划策略价值2观念创新最高层次策略价值1价值附加较高层次经营基本本体价值较低层次1.概率抽样和非概率抽样概率抽样的特点与价值随机性，每个单位入样概率已知随机与随便，随机要有程序实现随机抽样是抽样方式中的“王冠”。2.非概率抽样如：方便选样，有目的选样，自愿样本，配额样本，滚雪球选样等非概率抽样的特点与价值不能只有海鲜，还要有白菜研究中的挑战：非概率样本的推断问题3. 概率抽样的几个挑战概率抽样挑战之一：目标总体与抽样总体总体与样本目标总体：要研究的总体抽样总体：产生样本的总体抽样总体的具体体现抽样框良好抽样框的标志：关联，一对一联接准确，涵盖状况时效，信息

5、是最新的概率抽样挑战之二：抽样误差与非抽样误差抽样误差：抽样随机性带来的，无法避免可以计算可以控制计算抽样误差的水平（误差计算正确）可以体现设计人员的专业水平非抽样误差：什么是非抽样误差体现在以下几个方面：抽样框误差回答误差，无回答误差，调查员误差计量误差非抽样误差特点：难以测度，成因复杂非抽样误差的控制可以体现调查方的执行能力完美的调查是科学和艺术的结合科学体现在对抽样误差的把握艺术体现在对非抽样误差的掌控目前我国很多抽样调查项目，科学性不足，艺术性欠缺。误差的计算与控制是我们面临的严重挑战概率抽样挑战之三：平衡的艺术精度与费用之关系精度与费用精度精度100%95%60%20

6、%40% .费用费用概率抽样挑战之四：样本量的“陷阱” 问题一.估计精度越高越好吗？简单随机抽样估计比例P的样本量与误差（当P=0.5时）样本量误差 50 0.14 100 0.10 500 0.045 1000 0.032 对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的选择。问题二. 样本量与总体规模N有关吗？例：简单随机抽样估计P，置信度95%，允许误差5%，在P=0.5条件下总体规模（N）所需样本量（n） 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 1000

7、0000 400 由此可知，在精度要求相同条件下，在北京市进行一项调查和在全国进行一项调查，样本量的差别并不大。总体规模越大，进行抽样调查的效率越高。若分类、分区、分层分别进行估计则另当别论。四. 常用抽样方法1.简单随机抽样对总体不了解抽样框资料没有更多的辅助信息总体分布均匀与其他抽样方式的结合2.分层抽样总体单位之间存在明显差异有进行分层的辅助信息分层抽样可以有效提高估计的效率好的分层应该实现：层数确定最优层之间切点最优各层样本量的分配最优3.系统抽样便于操作便于审核（具有可重复性）在有些情况下可以提高估计的效率估计量方差计算复杂，可以采用不同的方法近似计算。4.整群

8、抽样构造抽样框容易调查成本低多以地域分群一般而言，整群抽样估计效率会受到影响，对某些特定调查内容，整群抽样效率更高。5.多阶段抽样抽样框构造成本低节省人力、物力某些条件下可以满足各级政府需要估计精度与阶段多少有关，所以阶段划分越少越好。五. 关于调查方法acdb问题一问题一问题二问题二受访者累积百分比受访者累积百分比图图2 价格敏感度示意图价格敏感度示意图价格价格问题三问题四定价的最后决策当然需要考虑众多要素，定价的最后决策当然需要考虑众多要素，但调查结果无疑可以为决策提供参考依据。但调查结果无疑可以为决策提供参考依据。六.政府统计中需要研究的一些课题在政府统计中，抽样调查需要研究一些问题

9、1.样本轮换问题涉及：轮换周期，轮换比例，轮换层次，轮换程序，数据的衔接等问题。关于使用永久随机数抽样方法的讨论永久随机数法样本轮换初探，统计教育，2004，2 不同样本轮换方法的比较，统计与预测，2005，1 2.抽样调查满足多层次需要问题抽样方法改进的思路：层层抽样追加样本如何在估计方法上做文章 “小区域”估计问题论抽样调查中的域估计，统计与决策2003，12 对抽样调查解决多层次估计问题的探讨，统计研究，2003，12 3.抽样调查后的数据分析盲目使用统计软件的陷阱，抽样方法与分析方法不对应。例如权数的调整问题抽样估计中的权数调整全国统计科学研讨会学术论文集2002，8多变

10、量联合加权应用研究统计理论、方法、应用研究2002.10多变量与规模成比例概率抽样的有关问题，统计与信息论坛，2004，1 4.数据的质量缺失数据问题无回答，失真数据的剔除等处理缺失数据中辅助信息的利用统计研究1998，1不同插补方法的比较数理统计与管理2000,4 缺失数据的偏差校正数理统计与管理2001，4 缺失数据的加权调整数理统计与管理2001，5 缺失数据的插补调整数理统计与管理2001，6 处理无回答的校准估计统计研究2002，6 调查中缺失数据的统计处理，市场统计与信息2005，4 抽样调查是科学和艺术的结合需要本本，但不能“本本主义”需要经验，但不能“经验主义”案例分析

11、：极小信息情况下如何进行样本量分配调查目的：了解亚洲血统人口对某些问题的看法，并和其他血统人口看法进行对比分析。调查对象：美籍居民调查方式：电话调查，电话号码需购买样本要求：Asian 1200 Hispanic 600 Non_H_B 300 NON_H_W 600 Total 2700需要解决的问题：购买电话号码数量及该数量在各地区的分配（回答率60%）。表1：美国不同地区亚洲血统人口所占比重(1)地区(2)人口数(3)地区人口比重(4)亚裔人数(5)=(4)/(2)亚裔比重S.F.7239590.28420715528.614Seattle5162590.2026081911.

12、781L.A.88631643.47192556110.443N.Y.73225642.8685099556.964Chicago27837261.091029383.698Balance23510353692.08451022102.17total 25531320810069086382.706 分析：如果样本量按人口比例在全国各地区铺开，所需要的电话号码个数为：如何充分利用各地区亚洲血统人口比重不同这个辅助信息？如果采用采用比重高的地区（如旧金山，28.614%），则但这已经不是全国样本。69906 . 028614. 01200所需个数739106 . 002706. 0120

13、0所需个数设计：按前表资料，将全部地区划分为6个域，于是要解决的问题是在仅有有限的辅助信息（人口数，户数，种族分类）条件下，如何在各域中分配样本量，使得调查费用尽可能少（即尽可能少地购买电话号码），同时保证样本具有一定的代表性。为便于分析，将有关符号作如下说明： N：Asian总户数， N=总户数Asian人口比重 Nh：第h域中Asian户数（h=1，2，6） Nh=第h域总人数第h域Asian人口比重，则 61hhNNn：完成的Asian样本户数，即n=1200nh：第h域完成的Asian样本户数Th：第h域需抽取的电话号码数：扩张系数h：第h层扩张系数 61hhnhhhn Rh：第h域

14、亚洲血统人口比重：研究变量总体标准差h：研究变量第h域标准差，由于，h未知，故假定=h 为求得各层样本量的最优分配方案，利用设计效应（Design Effect，简写作Deff），结合样本量的分配，设定一个目标函数TDeff，希望使其最小；再依前述条件设置约束s.t.，形成一个规划问题，即： min (TDeff) s.t. 0nhNh （i=1，2，6） 1200hn 其中：由设计效应定义有： 6160hhhRnTniinihhhsrsyVaryVarVarVarDeffhi1161)()()()(方差简单随机抽样的估计量复杂抽样的估计量方差nnnnyVaryVarnhhhhhhniih

15、hhhh261222612212612)()(时当于是：根据柯西不等式，容易推出按（NhRh）的比例分配Th，可使（P）的目标函数达到最优（忽略nh必须取整数）。于是得到下表中的计算结果： ,1200/)(/22hhhNnNDeff1200/)(/6 . 02261hhhhhhNnNRnDeffT 表表2. 应抽样本量应抽样本量Th和完成和完成Asian样本量样本量nh 单位：户单位：户（1）地区（2）总户数（3）S.F.30558428.61446773.814115.32671.70Seattle23670211.7819571.04623.60333.84L.A.298955210

16、.443100885.907248.743969.82N.Y.28194016.96451815.521127.753057.37Chicago10251743.6987289.89817.97810.08Balance845709972.170270377.285666.6251195.01Total919474102.706(7)486713.471120060037.83(%)hR（4）NhRh =（2）（Rh）3/2 （5）nh=1200（4）（7）（6）Th=（5）（0.6Rh）由表2知，T=60037.83，根据前面公式，可以计算出 Deff=1.1404，故： TDeff=60037.831.1404=68467.34 在简单随机抽样条件下，T=1200/（0.027060.6=73910。利用有限信息进行分区域后，在同样估计精度条件下，所需抽取的样本量减少了将近8% 在这种抽样分配方案下，其它血统人口的样本量肯定可以满足（验证略）。此外，还可以分析不同设计要求下各域所需要的样本量。此案是把规划方法引入抽样设计。调查实践中，特别是一次性的抽样调查中，类似的信息量极小的情况是会经常遇到的，对辅助信息充分有效的利用，以提高抽样效率，是我们努力的方向。谢谢大家谢谢大家

展开阅读全文