第五章社会现象的测量.ppt-得力文库

资源描述

《第五章社会现象的测量.ppt》由会员分享，可在线阅读，更多相关《第五章社会现象的测量.ppt（117页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第五章社会现象的测量,第一节测量的概念与特征第二节社会测量的尺度第三节社会测量指标第四节社会测量的信度和效度,一、测量与测量的元素测量：按照一定的规则，将某种物体或现象所具有的特征用一组符号或数字来表示的方法。,第一节测量的概念与特征,在社会调查中，人们进行着另外一些形式的测量。例如：用人口登记的方法来测量一个国家的人口数量和人口结构;用电话访问的方法来测量人们对不同品牌产品的偏好;用自填问卷的方法来测量大学生们所具有的择业倾向等等。虽然各种各样的测量在内容、方式等方面千差万别，但它们在一些最本质的方面却完全一致。,第一节测量的概念与特征,社会测量(Social Measure

2、ment ）:在社会调查研究中,对社会现象之间性质差异和数量差异的度量称为测量 .“测量就是依据某种法则给物体安排数字”测量的主要作用在于确定一个特定分析单位的特定属性的类别或水平。既能对事物的属性做定量的说明,也能做定性的说明.,测量的要素：1.测量客体：测量的对象，“测量谁”测量的客体可以是个人，也可以是由若干个人所组成的社会群体、社会组织、社区，以及事物、事件或现象等。2.测量内容：特征或属性，“测量什么”当测量的客体是个人，测量的内容则可以是个人的年龄、性别、婚姻状况、文化程度、职业、收入、态度、价值观念、行为和社会背景等；当测量的客体是群体和组织，测量的内容则可以是群体和组织的规模、

3、结构、关系、功能和管理模式等。,3.测量规则：表达属性或特征的操作规则，“怎么测”。例如：要测量某班级的英语平均成绩，则“该班级所有参考学生的英语成绩之和除以总的参考人数”也是一种测量法则。在社会调查中，我们要测量人们的收人状况。那么被调查者工资单上的应发金额数加上每月奖金发放数额”就是一种测量法则。 4.表达工具：表示测量结果的工具(数字或符号)， “如何表示”在社会调查的测量结果中，一些是用数字来表示的，如：被测者的年龄、收入、家庭人口数等。另一些是用文字来表示的，如：被测者的性别、文化程度、婚姻状况等。尽管许多用文字表示的测量结果在统计分析时都转化成了数字，但这些数字仅是一种抽象的代表符

4、号，并无实际的数学意义。,测量的要素（续）：,测量的要素例：,收入状况：教师、公务员（测量客体）；每月实际收入（测量内容）；工资条加上奖金（测量法则）；3000元、5000元（数字和符号）。,二、社会现象测量的特殊性1.不能采用自然科学中“控制实验”等常用方法。2.社会现象及人的行为其表现更为复杂，给精确测量带来困难。 eg：在社会调查中经常涉及到人们的主观感受、价值观念、组织凝聚力、社会规范等等，都难以对它们进行十分精确的测量。3.在许多社会现象的测量中，人是客体又是主体，有主观影响，会造成测量偏差。4.测量行为本身会干扰和影响测量对象。 e.g.测量婚姻满意度、了解收入 5.缺乏公认的测

5、量标准，量化程度低 e.g.生活质量,例：一项有关危害健康的评估调查。该调查是预防性药物研究的一部分，目的是研究患者的背景和生活方式等因素与健康的关联性，研究结果将提供给医生，以备诊断时参考。共对207个受试者进行了一项基本问卷调查，内容是有关受试者特征及其行为的描述。二个月之后,研究者又对同祥的受试者发出了完全相同的问卷，最后把两次问卷的结果进行比较。只有15%的受试者，在两次问卷中提供了一致的资料。将近10%的受试者在第二次问卷中填答的身高不同于第一次。1/3的人填答的双亲年龄不同于第一次。有一位受访者，第一次填写问卷时说母亲已经去世;而在第二次填写问卷时却说母亲健在。更有一位受访者第一

6、次时说自己5岁，三个月后却变成一了50岁！这样的资料如何为医生诊断提供信息?,由于社会调查研究中所设计的现象具有各种不同的性质和特征,因而,对他们的测量也就具有不层次和标准。史蒂文斯创立了测量层次分类法, 将测量层次分为定类测量,定序测量,定距测量和定比测量。不同层次的测量方法所对应的测量对象则分别称作:定类变量,定序变量,定距变量,和定比变量。,第二节社会测量的尺度/层次,1.定类测量(Nominal Measures),定类测量，在本质上是一种分类体系,即将调查对象的不同属性或特征加以区分,标以不同的名称或符号,以确定其类别。定类尺度是社会测量的最低层次，不能类比大小和按排顺序，更不能进

7、行加减、乘除运算。定类测量也可以用数字来表示,但是这些数字只是识别的标志,是编码,并不反映这些事物本身的数量状况.数学特征：等于( = )或不等于()或者叫属于与不属于。,1.定类测量(续),例：对人们的性别、职业、等变量特征的测量，都是常见的定类尺度的测量。它们分别将测量对象划分为“男性与女性”、“工人、农民、教师、商人”或者“未婚、已婚、离婚、丧偶”等各种不同的群体或类别，而每一个测量对象则分别属于或者不属于其中某一种类型。遵循原则：两个以上的变量值、互斥、穷尽。,2.定序测量(Ordinal Measures),定序测量是对测量对象的等级,或顺序的鉴别。取值可以按照某种逻辑顺序,将调查

8、对象排列出高低或大小,确定其等级及次序。定序测量不仅能区分事物,而且能反映社会现象在高低,大小,先后,强弱等顺序上的差异,它的数学特性比定类测量高一个层次,也就是说,不仅能区分异同，而且能确定其大小,可用“”或“”来表示。例：测量人们的生活水平，可以将其分为贫困、温饱、小康、富裕，这是一种由低到高的等级排列；测量城市规模，可以将其分为特大城市、大城市、中等城市、小城市，这是一种由大到小的排列。,3.定距测量(Interval Measures),也称为间距测量,或区间测量, 不仅能够将社会现象或事物区分为不同的类别,不同的等级,而且可以确定它们相互之间的间隔距离和数量差别，如智商。定距测量没有

9、绝对的零点,因此这一测量类型所得出的数据只能做加减,不能做乘除等运算.它是以等距离的测量单位,去衡量不同的类别或等级间的距离。,例：测量北京的温度为摄氏20度，广州的温度为摄氏30度。从这一测量中，我们不仅可以了解到北京与广州的气温不同（定类测量的结果），广州的气温要比北京高（定序测量的结果），而且还了解到广州的气温比北京高出摄氏10度（定距测量的结果）。Remark：定距测量的值可以为零，但这个零并不具备数学中零的含义，即此时的零并不是绝对的“无”，它是人们主观认定和选取的。如温度为零，智商为零等。,3.定距测量(续),4.定比测量(Ratio measures),也称比例测量和等比测量,它

10、是对测量对象之间的比例或比率关系的测量。定比测量除了具有上述三种层次测量的全部性质之外,还具有一个绝对的0点-有实际意义的零点,所以测量所得到的数据既能进行加减运算,又能进行乘除运算。定距测量和定比测量的的唯一区别就是是否有真实意义的零点的存在.例：对人们的身高、年龄、收入等进行的测量都属于定比测量尺度。,四种测量层次的数学特征如下:,以对生命的测量为例，假设观察对象为A、B两个人四种测量的效果比较,测量层次,性别,对宗教的认知：对你来说，宗教有多重要,智商,收入,对于测量层次的理解与认识：,将注意力放在既有差别的实际含义上，在研究方案设计时要预先想好；特定的定量分析手段需要变量满足其最低测

11、量层次的要求。（eg：平均数&众数）一个代表特定测量层次的变量，也可被视为其低等级测量层次的变量。（eg：年龄）需要测量的层次由具体分析目标决定的，如有不同用处，应该取其最高测量等级；最高测量等级并不是必要的。不能将低层次的测量转换至高层次测量。,第三节社会测量指标,社会调查对社会现象进行测量，需要借助于一定的测量工具，社会指标就是测量社会现象属性的有力工具。一、社会指标的概念、类型二、社会指标设计三、社会指标的综合四、社会指标体系的建立,一、社会指标的概念、类型社会指标，是指反映社会现象的质量、数量、类别、状态、等级、程度等客观特性和社会成员的感受、愿望、倾向、态度、评价等主观状态的项目。

12、特点：可感知性或具体性。如“人口”、“职业满意度” & “中等发达国家水平”。可度量性或计量性。可以用数字、符号进行量度的项目。综合性。反映的是社会或者社会某一方面的总体状态，而非个体现象。只有凭借综合性的数据才能对社会活动的规律做出解释和说明。如失业率、就业率等。时间性。必须是有明确时间规定的项目。如“人口总数”,社会指标的类型客观指标与主观指标.客观指标即指反映客观社会现象的指标。如：人口总数、人均居住面积等;主观指标即指反映人们对客观社会现象的主观感受、愿望、态度、评价等心理状态的指标。如社会安全感、生活满意度、对住房制度改革的期望等。经济指标与非经济指标。如国民收入&人口出生率

13、等。描述性指标和评价型指标。如城镇人口数&城镇人口占总人口的比重。肯定指标、否定指标与中性指标。如第三产业比重&城镇人口失业率&国土面积等。投入指标、活动量指标和产出指标。如流动资金&资金周转率&利润率。（注意：投入与产出的相对性）,社会指标的作用反映社会状态，选择最重要、最具有代表性的指标来浓缩社会现象。监测社会过程，社会自身运行情况的监测；社会政策、计划执行情况的监测。比较社会事物，横向比较、纵向比较等。预测社会未来，预测未来发展or问题。制定社会计划，在预测的基础上制定社会计划和政策。消费者信心指数例,二、社会指标设计社会指标的设计：发掘、选择恰当的指标名称，创造科学的测量方法，

14、并求出精确的指标值，来揭示某类社会现象总体数量或质量特征的过程，就是社会指标的设计。具体过程：是指社会测量主体从认识社会的需要出发，选择科学的社会理论并以之作为指导来确定社会指标名称、规划指标外延、选择测量手段、求解指标值等一系列前后相继的社会测量活动的有机整体。,社会指标的设计步骤：第一，选择科学的社会理论；第二，用所选择的社会理论中贴切的概念作为社会指标名称；第三，给所选择的概念或范畴，亦即给所设计的社会指标名称作出操作性定义，求解出社会指标值。第四，把选择到的社会指标名称和求解出的社会指标值这两部分统一起来，使之成为一个完整的社会指标。它标志着社会指标设计的完成。,指标设计例：1.根

15、据理论分析提出“经济水平提高后居民的消费结构发生了变化，而消费结构的变化引起了生活方式的变化”这一假设命题。2.根据假设命题得到“生活方式”、“经济水平”、“消费结构”三个概念，再由每一个概念演绎出若干个变量，如“生活方式”可演绎出“消费状态、娱乐生活、时间安排、工作学习”四个变量。3.每一个变量再以一种指标予以标识。注意：当概念分解为变量时，还不具备操作性。如“消费状况”还要用“家庭衣食费用的支出、买用消费品的支出、文化教育费用的支出”等具体指标来下操作化的定义。,例:”人的现代性” 著名美国社会学家英克尔斯及其合作者在研究“现代人”时，需要对“人的现代性”这一概念进行侧量。为此，他们进行了

16、周密细致的操作化工作。最终将人的现代性操作化为具有24个维度的个人现代性综合量表，并在此基础上形成了一份总共包括438个具体问题的访问问卷。这24个维度是: 1.积极参与公共事务；2.甲年老者的角色 3.教育期望与职业期望；4.可依赖性； 5.对变革的认识与评价 6.公民权7.消费态度； 8.对尊严的评价 9.效能10.家庭大小 11.意见的增多 12.与国家的认同13.信息 14.大众传播媒介 15.亲属义务16.社会阶级分层 17.新经验 18.妇女权力19.宗教 20.专门技能 21.对时间的评价22.计划 23.工作信念 24.了解生产,每一个维度下面，又分解成若干个更为具体的指标。比

17、如，第一个维度“积极参与公共事务”下面，就又分解成下述6个指标:“是否属于某一个组织”、“所参加的组织的数目”、“哪一个组织在政治上持有自己的观点”、“是否用谈话或书信方式向政府官员表明自己的观点”、“参加投票的次数”、“是否曾高度关心某件公共事务”。英克尔斯:从传统人至现代人，中国人民大学出版社，1992年版，第146,461页。,例：“父母投资”概念的操作化指标设计陈皆明博士在有关父母投资与子女赡养关系的研究中，将“父母投资”定义为“父母为子女所做的各种帮助”，并操作化为“早期家庭帮助”、“较近期的帮助”和目前“正在给予的帮助”3个方面以及一系列具体的指标。其基本的操作化框架如下图所示

18、。,陈皆明:投资与瞻养:城市居民代际交换的因果分析，中国社会科学，1998年第6期。,三、社会指标的综合综合社会指标：通过多侧面指标综合而形成的全面反映某类社会现象总体完整的内在属性的社会指标。反映某个侧面的局部指标,称作单项指标。综合社会指标是在对某类社会现象总体、各个侧面、各个环节认识的基础上形成的；综合社会指标是通过对反映某类社会现象总体各侧面属性的多个局部指标进行适当的汇总、归纳、运算而形成的；综合社会指标不是由多个局部指标构成的一个指标群体，而是由各局部指标融合而成的相对独立的指标个体，它由一个指标名称和一个相应的指标值构成。,指标的综合方法,类型法:将各种指标交互分类予以综合.指数

19、法:用简明合理的公式来综合指标.量表法:常用的是总和量表法,将所有的指标相加然后按确定的标准计算总分.,四、社会指标体系的建立社会指标体系：是社会测量主体，从认识社会现象的具体需要出发，将揭示一定社会现象具体属性的若干具有客观联系的社会指标，科学地、有机地组合在一起而形成的社会指标群体。社会指标体系的建立主要有三种方式：规划性的社会指标体系；根据社会目标建立的指标体系；以某种理论为基础而建立的社会指标体系。社会指标体系例：P.134,OECD的社会指标体系,一、信度的概念、度量指标与类型信度或精确度（reliability）是评判研究工作的一项重要指标。信度表示对于同样的对象，运用同样的观

20、测方法得出同样观测数据(结果)的可能性。-强调测量方法的质量。例如测试职工对于领导层的满意度，第一次测试结果是40职工很满意，20职工很不满意，第二次用同样的问卷和数据处理方法得出测试结果是10很满意，30很不满意，这种观测结果的信度不高。注：信度并不能保证准确性。（eg：体重测量）,第四节测量的信度与效度,信度可以较直观地加以测量，常用的信度度量指标有三类：稳定性(stability)，等值性(equivalence)内部一致性(internal consistency)。,稳定性:由同一个受测者应用同一种测试工具(如问卷)作出反应(如回答)，若能出现前后一致的结果，则称这种测试方式具有稳

21、定性。（又称：前测后测方法）例如，工作地写实，观测一位车工加工某零件的工时。如多次观测得到的工时记录都一样，这便是稳定的观测过程。稳定性的判断主要受到时间因素的干扰，因为两次观测的时间间隔中可能出现其他因素影响观测结果，如工时观测中，另一批零件的材料性能差异等，但并不说明这种观测方式不具备稳定性。实地研究的直接观测法常应用此稳定性指标，因为它易于反复观测，同样的行动，比较前后两次的观测结果，并判断此观测方式的信度，指导后续观测。问卷法就不同，通常被调查者能按问卷回复一次就不错了，难以重复测试，稳定性判断也变得困难。,信度度量指标,等值性：考虑不同观测者(实地研究)对同一调查项目(问卷法中的问题

22、和量表)带来的测试差异。从时间角度来说，稳定性关注不同时刻点的人员和情境变异，等值性则关注同一时刻点、不同人员对调查项目带来的测试误差。差异越小，等值性越高。如问卷法，比较各个被调查者对同一测试问题的打分，便可判断便测试方式的等值性。等值性指标值并非总是越高越好。利用同一调查项目有不同测试结果的现象，可以将被调查人员分类，同类人员的测试等值性高，不同类人员等值性有显著差异，这往往是研究者为了发现和分析问题而期望得到的结果。,信度度量指标（续）,内部一致性：观测项目(指标，问卷的问题等)之间的内部一致性(internal consistency)或同质性(homogeneity)。内部一致性关注

23、不同测试项目所带来测试结果的差异。任何观测工具的测试项目(如问卷中的问题，考卷中的试题)总是有限的，亦即具有选择性。不同调试项目得出同样的测试结果，便符合内部一致性。如设计业务水平考核的试题库，由该题库中随机抽取若干组题目，若同一水平的受试者按各组试题都能考出同一档次的成绩，则此题库具有良好的内部一致性。企业客户管理中，采用不同的问卷而客户分类结果却是相同的，说明这些问卷符合内部一致性要求。内部一致性指标在问卷法观测数据中经常用到。,信度度量指标（续）,例1：内部一致性信度（Internal Consistency Coefficient）计算【系数】,有5题问答题的随机测验施测6名学生，每

24、题问答题配分是5分，以下是施测结果，请计算信度。（）personItem 1Item 2Item 3Item 4Item 5Joe34435Sam43433Sue23323Peg44534Gil32433Dot32323,输入数据,按【Analyze】【Scale】【Reliability Analysis】将左边方格内的变项全选入右边items的方格内，在左下角的Model框中选取Alpha后按键。,纸笔计算结果,为每个测验题项总分的变异量；为测验量表总分的变异量; 系数评价的是量表中各题项得分间的一致性,属于内在一致性系数 .,=16.1667,k=5 N=6,纸笔计算结果,信度的基本

25、类型,1.重测信度：对同一对象采用同一方法先后测量两次，根据两次结果计算出重测信度（r）-稳定性。2.复本信度：同一群研究对象同时接受两个复本测量所得分数计算r 。 3.折半信度：将研究对象在一次测量中所得的结果，按测量项目的单双号分为两组计算出两组分数之间的相关系数，即折半信度内部一致性。,1.重测信度：(test-retest reliability)计算方法：相关系数,例2：问卷重测值研究对象第一次测试第二次测试 1 23 27 2 44 38 3 35 37 4 53 49 5 44 46 6 26 28 7 32 34 8 28 25 9 38 34 10 39 36,重测信度，

26、主要针对时间变量。(1) 重测信度采集数据得方法是：对同一组被试间隔一定的时间重复测试一次。(2) 重测信度的计算方法是积差相关法，因而rxx就是皮尔逊的积差相关系数，它描述了两个定距变量间联系的紧密程度。 (3) 重测信度的时间间隔选择依测验性质和目的而定，如果测验是用于长期预测，则测量间隔长一些。对儿童的智力测验一般是两周到四周为宜。对成年人，间隔可到半年，很少超过6个月。(4)使用重测信度应注意：不是所有测验都可以计算重测信度。并且重测信度只是反映了随机误差的影响，而不是反映被试心理特点的长期变化。,2.复本信度： (1)数据采集方法是：给被试施测两个内容等值但题目不同的测验，求两组数值

27、的相关。计算方法常见的也是积差相关法。(2)复本信度的高低反映了两个互为复本的测验等价的程度，而不是反映一个测验本身受随机误差影响的大小。复本信度的高低关键取决于复本测验的选择，因而是题目取样问题，或者说是测验的内容取样问题。(3)复本信度优于重测信度的地方是：避免了重测带来的记忆效应和练习效应；可用于长期追踪研究前后测量；减少了作弊的可能性。(4)复本信度的缺点：有些测验的复本很难找到；有些测验因正迁移效应使测验性质改变；如测量的内容很容易受练习的影响，复本信度也无法清除这种练习效应。,例3：某自我概念量表，有20题是非题，题本A与B 分别施测同一组10个人，分数愈高表示愈具有正向自我概念，

28、以下是施测结果，请计算信度。做法与再测信度相同，请参照。,Correlations,纸笔计算结果：,N=10,3.折半信度（Split-half Reliability）：将研究对象在一次测量中所得的结果，按测量项目的单双号分为两组计算出两组分数之间的相关系数，即折半信度。从理论上分析，分半信度反映的实际上是两半测验能够测量相同内容或心理特点的程度。,折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表。进行折半信度分析时，如果量

29、表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式求出整个量表的信度系数rxx。,例4：6题的随堂测验施测5位学生，Y表示答对，N表示答错，以下是测验结果，请计算信度。,输入数据,转换数据为数字按【Transform】【Recode】【Into Same Variables】,出现下面的对话框后将左边方格内item1item6选至右边String Variables内后点选键,出现下列对话框后，将”N”定义为”

30、0”，将”Y”定义为”1”后按键,之后便会将数据转换成下面的数字：,将string的属性改为numeric,按【Analyze】【Scale】【Reliability Analysis】将左边方格内的变项依所需次序分前后半选入右边items的方格内，在左下角的Model框中选取Split-half后按键，再按OK。,信度的影响因素：,常见的影响信度的因素有：样本特征测验的长度测验的难度测量的时间间隔测验的客观性等.,被试样本的特征影响信度估计的一个重要因素是被试样本的情况。团体的异质程度与分数的分布有关，一个团体越是异质，其分数分布的范围也就越大，信度系数也就越高。由于信度系数与样本团体的

31、异质性有关，因此我们在使用测验时，不能认为当该测验在一个团体中有较高的信度时，在另一个团体中也具有较高的信度。此时，往往需要重新确定测量的信度。信度系数不仅受样本团体的异质程度的影响，也受样本团体平均水平的影响。因为对于不同水平的团体，项目具有不同的难度，每个项目在难度上的变化累积起来便会影响信度。但是，这种影响不能用统计公式来推估，只能从经验中发现。,信度的影响因素（续）：,测验的长度：在其他条件均等的情况下，测验越长，信度越高。原因在于：测验越长，即题目越多，测验的内容取样就越有可能有代表性。另外，在每个项目上的随机误差也可以互相抵消。测验的难度：难度对信度的影响之存在于某些测验中，如

32、智力测验、成就测验、能力倾向测验、教育测验等。测验的难度对信度有间接影响，因为如果测验过难，被试的得分会集中在低分区。过于容易，分数则集中在高分区。两种情况都使信度样本的得分范围变窄，变异量降低，从而低估测验信度。测验的时间间隔：这一因素只对重测信度和不同时测量时的复本信度有影响，对其余的信度来说不存在时间间隔问题。,信度的影响因素（续）：,信度,题数试题数与信度的关系,信度是确定测验好坏的一个指标。一般的原则是：当r 0.70时，测验不能用于对个人作出评价或预测，而且不能做团体间比较。当0.70r0.85时，可用于团体比较。当r0.85时，才可以用来鉴别或预测个人成绩或作用,二、测量的效度社

33、会调查除了描述性研究以外，都是为了发现某种变量与变量、现象与现象之间的联系。每项研究对于两变量间关联的论证力度不会相同，最好的情况是读者信服研究者提供的论据和推理过程，同意研究者对两变量关联的解释并排斥其他的解释。方法论常采用内部效度(internal validity)的术语来描述这种论证力度。内部效度概念于1963年提出，用来考察经验证过的研究假设，判断其表述的变量间关系的可信程度。,第四节测量的信度与效度,测量的效度一项研究的内部效度高，说明研究者对变量间关联的命题在研究设定的情境下是成立的。然而，在其他的时空条件或其他的分析单位情况下，该项命题是否适用，新的有关这些变量间关联的研究是

34、否会得出同样的结果，内部效度并不能回答这个问题。研究者关于变量间关联的判断是否具有普遍性(generalization )，能否在超越研究情境下同样成立，这就要引入另一个概念，即外部效度(External validity)。外部效度描述研究者已证实的假设可供推广的程度，辩明此项假设所断定的变量间关联的适用范围和环境。,第四节测量的信度与效度,效度（validity）：即测量的有效性程度，测量工具确能测出其所要测量特质的程度。效度是科学的测量工具所必须具备的最重要的条件。在社会测量中对作为测量工具的问卷或量表的效度要求较高。鉴别效度须明确测量的目的与范围考虑所要测量的内容并分析其性质与特征

35、检查测量的内容是否与测量的目的相符进而判断测量结果是否反映了所要测量的特质的程度。,效度的类型 1,1.内容效度(content validity)：凭借逻辑去判断一项测量工具是否有效凭借对概念的了解去鉴别该变量的特征是否都被考虑到在理论层次上概念所具有的各种特征在经验层次上的测量也应具有如果二者相吻合则表示具有内容效度否则便是无内容效度。内容效度指该工具是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。因为这种效度主要是考察测验的内容，因此叫内容效度。,25Y0617,信度与效度(Reliability and Validity),79,1.内容

36、效度例,1.老师要检视学生是否用功读熟本书，而从各章的本章总结中抽选出十题作为考卷，但该份考卷是否具代表性来检视学生整本书是否读熟，以及该十题抽取的方法是否适当，就是内容效度所讨论的。2.如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。,一个测验要有内容效度必须具备两个条件:1) 要有定义得完好的内容范围;2) 测验题目应是所界定的内容范围的代表性取样。内容效度是编制任何测验都要加以考虑的基本方面。内容效度考虑了题目与规定的内容或所取样的行为范围之间的符合性,可使选题更谨慎、更合理,以便从测验

37、内容上排除无关变量的影响。,1.内容效度,确定内容效度的方法 1) 专家判断。请有关专家对测验题目与原定内容范围的符合性做出判断。看测验题目是否恰当地代表了所规定的内容。如果题目具有较好的代表性,则说明测验具有较高的内容效度。由于该方法是一个逻辑分析的过程,所以又叫逻辑效度。采用这一方法,不同专家对同一测验的内容效度判断可能不一致。为了提高判断过程的客观性,应尽可能对测验的编制过程和测验目标进行详细说明,并编制评定量表(或专家调查表) ,以便专家对测验做出客观的评定。,确定内容效度的方法（续）2) 统计分析。可采用类似复本信度系数的统计方法,求被试在两个复本上得分的相关系数。如果相关系数较低,

38、则说明两复本中至少有一个缺乏内容效度;若相关高,一般可推论测验有内容效度。3) 再测分析。可采用类似重测信度的评定方法,先将测验施测于某一团体。然后,让该团体参与有关材料的教学与训练计划,结束后将测验再施测一次。 4) 经验评定。假定用同一测验检查不同年级的学生,那么,一般说来,如果发现测验总分和每个题目的通过率随年级而增高,就可作为测验具有内容效度的证据。,效度的类型 2,2.准则效度/实用效度(Criterion validity)：用新的测量方法（指标）取得的数据，与以往的测量方法（指标）取得的数据做比较，二者接近或一致，说明新的测量方法（指标）具有准则效度。,25Y0617,信度与效度

39、(Reliability and Validity),84,2. 准则效度的类型,同时效度：是指使用同一时间点的效标，例如编制一套中学数学成绩测验量表，以学生最近已确定的在校数学成绩为效标，求测验量表与数学成绩的相关系数。预测效度：是以未来的表现作为效标，例如以学生学业性向测验数学能力偏高，结果该学生期末各科成绩数学亦相对较高，则该学生学习性向测验之效度也高。例如,最大吸氧量如果能很好地预测人的长跑成绩的话,则说最大吸氧量有较好的预测效度。,确定准则效度的方法1) 相关分析。最常用的方法是求测验分数与效标测量之间的相关,所得到的数量指标称作效度系数。例如，评价汽车驾校笔试成绩的效度，要看考生毕

40、业后的实际驾驶技术（如事故发生率）。其中，考生的实际驾驶技术就是评价笔试成绩效度的标准。 2) 区分度分析。看测验量表的分数是否可区分由效标测量所定义的团体。例如,某运动队通过测验选拔录取了一批运动员,过一段时间后,根据运动成绩将他们分成合格的与不合格的两组,然后回过头来检查他们的测验分数,运用t检验看两组在测验上的平均分数是否有显著差异。,效度的类型 3,3.构造效度/构建效度(construct validity)：设计理论假设的构造关系，再对假设的有关概念进行操作化，研究各个指标数据的相关系数，确定指标的效度。构建效度指测验能够测量到理论上的构想或特质的程度。这些构想均有理论基础,但都无

41、法直接观察,只能通过具有操作定义的测验加以测量。操作测验成绩与理念中的构想或特质的符合程度,即为构建效度。,构建效度例：从一般的智力理论,可以提出4 项功能性的假设:绝对智力随年龄的增长而增长;智力与学业成就密切相关;智商相对稳定;智力受环境与遗传影响。于是,心理学家依据智力的上述功能性假设,编制智力测验,然后实施测验,最后对测验结果进行分析。如果发现,被试的测验分数随年龄的增长而增长;智商与学生的各科学习成绩均有一定程度的正相关;智商在一段时间内保持相对稳定性;智商的遗传度在0. 70 左右。那么,这些实证研究结果就为智力的构建效度提供了支持性证据。,构建效度要决定一个测验的构建效度,一般需

42、要3 个基本步骤:1.需要建立理论框架,以解释被试者在测验上的表现;2.依据理论框架,推导出各种与测验成绩有关的假设;3.以逻辑方法和实证方法检验这些假设。标准化的测验均是依据这3 个步骤研制的。,构建效度的类型：收敛效度指两个不同的测量工具，测量同一个体的结果，其相关值很高。区别效度指一测量工具测量二者不同的构念，其相关很低。检测量表是否具备建构效度，最常使用之方法为因素分析法。同一因素构面中，若各题目之因素负荷量(factor loading)越大(一般以大于0.5为准)，则越具备收敛效度。若问卷题目在非所属因素构面中，其因素负荷量越小(一般以低于0.5为准)，则越具备区别效度。,构建效度

43、即指量表能测量理论的概念或特质的程度。因素分析的目的即在找出量表潜在的结构，减少题项的数目，使之变为一组较少而彼此相关交大的变量，此种因素分析方法，是“探索性的因素分析”（exploratory factor analysis）为了对探索性因子分析中抽取因子/维度的合理性进行验证，还须进行验证性因子分析，通常借助结构方程模型（SEM）的技术来进行验证性因素分析。（略）,构建效度,信度效度分析之工作倦怠感问卷,下面是100为预试对象的实际填写情形，第一行NUM是受试者的编号，A1-A22为第1题至第22题的题号代号。数据：cha-2.sav,注：,特征根是每个变量在某一共同因素之因素负荷量的平

44、方总和(一直行所有因素负荷量的平方和)。在因素分析之共同因素抽取中，特征值最大的共同因素会最先被抽取，其次是次大者，最后抽取的共同因素之特征值最小，通常会接近0。,结果 KMO是Kaiser-Meyer-Olkin的取样适当性量数，当KMO值愈大时，表示变量间的共同因素愈多，愈适合进行因素分析，根据学者Kaiser(1974)观点，如果KMO的值小于0.5时，较不宜进行因素分析，此处的KMO值为0.857,表示适合进行因素分析。此外，从Bartletts球形检验的卡方值为1187.740(自由度为231)达显著，代表母群体的相关矩阵间有共同因素存在，适合进行因素分析。,例题中第一次因素分析时，

45、特征值大于一的因素共有五个，第五个因素只包含两个题项a9与a17,层面所涵盖的题项内容太少，将之删除似乎较为适宜。因为这是一个探索性的因素分析，题项删除后的因素结构也会改变，因而须再进行一次因素分析，以验证量表的结构效度，第二次因素分析时，所包括的题项为筛选后的20个题项（不包括第9题与第17题）。第二次因素分析操作方式与前述操作步骤相同，只是选取的变量只有20题(a9与al7两题未被选取)。,最后根据因素所涵括的题项内容，将因素加以命名。,因素分析完后，为进步了解问卷的可靠性和有效性，要做信度检验。在李克特态度量表法中，常用的信度检验方法为“Cronbach a”系数及“折半信度”(split-half reliability )。如果一个量表的信度愈高，代表量表愈稳定。以“再测信度”而言，其代表的是受试者在不同时间得分的一致性。信度有“外在信度” 与内在信度” 两大类。外在信度通常指不同时间测量时，量表一致性的程度，再测信度即是外在信度最常便用的检验法。多选项量表中，内在信度特别重要，所谓内在信度指的是每一个量表是否测量单一概念(idea), 同时，组成量表题项的内在一致性程度如何，如果内在信度a系数在0.8以上，表示量表有高的信度。内在信度最常使用的方法是Cronbarhs alpha系数。,

展开阅读全文