经典测验理论 Flashcards

1
Q

测量误差

A

测量中那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

系统误差

A

由与测验目的无关的因素引起的一种恒定而有规律的误差,这种误差稳定地存在于每一次测量当中,只影响准确性。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

测量误差的来源

A

1⃣️测量工具
▫️项目取样的代表性、猜测、题目表述不清
▫️i.e, 信效度低

2⃣️被试
① 应试动机
② 测验焦虑(适度有益)
③ 测验经验
④ 练习效应
⑤ 反应倾向(e.g, 求快/求准;选择“是”或“否”的偏好)
⑥ 生理变化(生病、疲劳;智力、情绪、体力等方面的生理节律)

3⃣️施测过程
① 测验环境(温度、光线、声音、空间宽窄)
② 主试与评分记分
③ 意外干扰(停电、作弊、设备故障)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

真分数

A

测量没有误差时测到的真值,反映被试某种心理特质的真正水平。操作性定义为无数次测量结果的平均值,这只是一个理论上的抽象概念。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

经典测验理论(CTT)的假设

A

观察分数(X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(E),即CTT的数学模型:X=T+E。

根据该模型引申出三个假设公理:
① 若一个人的某种心理特质可以用平行的测验反复测量足够多次,其观察分数的平均值会接近真分数,即ε(X)=T。
② 真分数和误差分数之间的相关为0,即ρ(ET)=0。
③ 各平行测验上的误差分数之间的相关为0,即ρ(E1E2)=0。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

平行测验

A

对于测验总体中的任何一个被试而言,若他在两个测验上的观察分数同时满足CTT的数学模型和三大假设,并且具有相等的真分数和相等的误差标准差,则这两个测验被称为严格平行的测验。通俗地说,如果两个题目不同的测验测得的都是同一特质,并且题目的形式、数量、难度、区分度及测验得分的分布都是一致的,则这两个测验被称作彼此平行的测验。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

CTT经典测验理论的推论

A

① 在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和。

② 真分数的变异还可以分为两部分:
⑴ 与测量目的有关的变异
⑵ 与测量目的无关的变异(系统误差)

③ 一个团体的实测分数的变异是由以下三项变异决定的:
⑴ 与测验目的有关的变异(V)
⑵ 稳定的但出自无关来源的变异(系统误差I)
⑶ 测量误差的变异(随机误差E)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

信度的定义

A

信度是指测量结果的稳定性程度,即用同一测量工具反复测量某人的同一种心理特质,多次测量结果间的一致性程度,也叫测量的可靠性。

三种等价的定义:
① 信度(信度系数)是一个被测团体真分数的变异数与实得分数的变异数之比。
② 信度是一个被试团体的真分数与实得分数的相关系数的平方。
③ 信度是一个测验x(A卷)与它的任一个平行测验x’(B卷)的相关系数。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

信度的作用

A

1⃣️信度是测量过程中所存在的随机误差大小的反映

2⃣️信度可以用来解释个人测验分数的意义
▫️用一个团体两次施测的结果来代替同一个人反复施测,以估计测量误差的变异数。此时,每个人两次测量的分数之差可以构成一个新的分布,这个分布的标准差就是测量的标准误(自行回忆公式,SE=?)。它是测量误差大小的客观指标,有这一指标,就可以对团体中任何一个人的测验成绩做出恰当解释,即能通过区间估计指出测量的精度。

3⃣️信度有助于不同测验分数的比较
▫️通常,不同测验的原始分数不能直接进行比较,必须转化为标准分数。具体方法是采用“差异的标准误”来进行差异的显著性检验,其公式为(自行回忆)。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

重测信度

A

重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

使用重测信度的前提条件

A

① 所测的心理特质稳定;
② 遗忘和练习的效果基本相抵;
③ 在两次施测的间隔期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

重测信度的误差来源

A

被试状态、时间间隔

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

复本信度

A

复本信度是指两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。稳定性与等值性系数是对信度最严格的检验,其值最低。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

使用复本信度的前提条件

A

① 构造出两份或两份以上真正平行的测验;
② 有条件让被试接受两个测验,这种条件主要取决于时间、经费等几个方面。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

复本信度的误差来源

A
  • 等值性系数:题目内容、被试状态;
  • 稳定性与等值性系数:题目内容、时间间隔。
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

分半信度

A

分半信度有时也称内部一致性系数,它是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。分半信度的计算方法和等值复本信度的计算方法相似,但还必须用斯皮尔曼-布朗公式加以校正。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

使用分半信度的前提条件

A

① 分半信度通常在只能施测一次或没有复本的情况下适应;
② 在使用斯皮尔曼-布朗公式时要求全体被试在两半测验上得分的变异数要相等,否则就要用弗朗那根公式或卢仑公式校正;
③ 当一个测验无法分成对等的两半时,分半信度不宜适用。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

分半信度的误差来源

A

题目内容

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

随机误差

A

由与测量目的无关的、偶然因素引起的、不易控制的误差。它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律,影响准确性和一致性。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

同质性信度

A

同质性信度也叫内部一致性系数,是指测验内部所有题目间的一致性程度。题目间一致性程度有两层意思:⑴是指所有题目测的都是同一种心理特质;⑵ 是指题目得分之间都具有较高的正相关。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

同质性信度的计算方法

A

一种粗略的估计方法是求测验的分半信度;十分方便的方法有库-理信度系数和克隆巴赫α系数;此外还有荷伊特信度,是荷伊特提出的用方差分量比描写测验内部一致性的方法。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

同质性信度的误差来源

A

内容取样、所研究行为的异质性

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

评分者信度

A

评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

评分者信度的计算方法

A

当评分者人数为两个时,评分者信度等于两个评分者给同一批被试答卷所给分数的相关系数(积差相关或等级相关);当评分者人数多于两个时,评分者信度可用肯德尔和谐系数进行估计。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

评分者信度的误差来源

A

评分者之间的差异

26
Q

影响信度的主要因素

A

1⃣️被试方面
① 单个被试:身心健康状况、应试动机、注意力、耐力等
② 被试团体
a. 团体内部水平的离散程度
▫️团体异质(全距大)高估信度;团体同质(全距小)低估信度。
b. 团体的平均水平
▫️团体得分总体过高或过低都会使得分变窄,从而降低信度。

2⃣️主试方面
① 施测者故意制造紧张气氛、操作不规范给被试一定的暗示或协助等会降低测量信度;
② 评分者评分标准不一也会降低测量信度。

3⃣️施测情境方面
▫️在实施测验时,考场是否安静、光线和通风情况是否良好、所需设备是否齐备、桌面是否合乎要求、空间宽窄是否恰当等因素都可能影响测量的信度。此外基于计算机或其他IT技术的考试,考试平台的质量、稳定性,以及考生使用机器的熟练程度等,也是常见的影响信度的重要因素。

4⃣️测量工具方面
▫️试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。

5⃣️两次施测的时间间隔
▫️在计算重测信度和稳定性与等值性系数时,两次测验相隔的时间越短,信度值可能越大。

27
Q

提高测验信度的常用方法

A
  1. 适当增加测验的长度。注意:
    ⑴ 新增项目必须与试卷中原有的项目同质;
    ⑵ 增加条目的数量适度(用斯皮尔曼-布朗公式得到恰当的增加项目)
  2. 使测验中所有试题的难度接近正态分布,并将总体难度控制在中等水平。
  3. 努力提高测验试题的区分度。
  4. 选取适当的被试团体,提高测验在各同质性较强的亚团体上的信度。
  5. 主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰。
28
Q

效度的含义

A

效度是指一个测验或量表实际能测出其所要测的心理特质的程度。
在测量理论中,效度被定义为与测量目的有关的真实变异数和总变异数的比率。

29
Q

效度与效度系数的关系

A

效度的实际意义常以决定系数来表示,它是相关系数(效度系数)的平方,表示测验正确预测或解释的校标的方差占总方差的比例。

30
Q

效度的特征

A
  1. 效度是一个相对的概念:
    ⑴ 相对于一定的测量目的而言;
    ⑵ 心理测量只能达到某种程度上的准确性。
  2. 效度是测量的随机误差和系统误差的综合反映。
  3. 判断一个测量是否有效要从多方面搜集证据。
31
Q

效度与信度的关系

A

1⃣️信度高是效度高的必要非充分条件
▫️当随机误差的变异数减小时,真分数的变异数增加,测验信度随之提高。信度的提高只给有效变异数的增加提供了可能,至于能否提高效度,还要看系统误差变异数的影响。因此,一个测验的信度低则效度一定低;信度高则效度可能高也可能低。若想要效度高,信度必须要高。

2⃣️测验的效度受其信度的制约(效度≦信度)

32
Q

内容效度

A

内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是确定该测验在多大程度上代表了所要测量的行为领域,这里所测量的内容或行为领域包括欲测的知识范围和该范围内各知识点所要求掌握的程度。

33
Q

内容效度的适用范围

A

内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验,不适用于能力倾向测验和人格测验。

34
Q

内容效度的评估方法

A

1⃣️专家评估法/逻辑分析法
▫️请专家对测验题目与原定内容范围的吻合程度做出判断。(对照双向细目表)

2⃣️统计分析法
① 复本法(平行测验相关:本质在测信度)
② 再测法(学习之间 vs. 学习之后)
③ 内容效度比(专家在多大程度上就项目内容效度达成一致性)
PS. 以上都只是间接指标,只能用不好反映不好

3⃣️经验法
▫️通过实践检验内容效度

35
Q

结构效度

A

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。

36
Q

结构效度的适用范围

A

结构效度主要用于智力测验、人格测验。

37
Q

结构效度的特点

A

① 结构效度的大小首先取决于事先假定的心理特质理论;
② 当实际测量的资料无法证实我们的理论假设时,不一定是结构效度不高,也可能是理论假设不成立或该实验设计不能对该假设进行适当检验,这就使得结构效度的获取更为困难;
③ 结构效度是通过测量什么、不测量什么的证据累积起来加以确定的,因而不可能有单一的数量指标来描述结构效度。

38
Q

结构效度的评估步骤

A

1⃣️提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。
2⃣️依据理论框架,推演出有关测验成绩的假设。
3⃣️用逻辑和实证的方法来验证假设。

39
Q

结构效度的评估方法

A

1⃣️测验内部寻找证据法
① 内容效度
② 同质性信度
③ 被试对题目的反应特点

2⃣️测验之间寻找证据法
① 相容效度法
② 区分效度法

3⃣️实证效度法
方法⑴ :根据校标把人分成两类,考察其得分的差异。
方法⑵ :根据测验得分把人分成高分组和低分组,考察两组人在所测特质方面是否有显著差异。

4⃣️多种特质-多种方法矩阵法(多质多法)
▫️相容效度与区分效度的综合运用
① 用多种极不相同的方法测同一特质,若相关高,则该测验的相容效度好。
② 用极为相似的方法测不同特质,若相关低,则该测验的区分效度好。

5⃣️因素分析法
① 探索性因素分析(EFA)
② 验证性因素分析(CFA)

40
Q

相容效度法

A

考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关。

41
Q

区分效度法

A

考察新编测验与某个已知的能有效测量不同特质的旧测验之间的相关。

42
Q

内容效度 VS. 结构效度

A

考察测验是否包含了划定的考察范围 VS. 检验测验是否测到了理论假设中的不同结构/维度

43
Q

实证效度

A

实证效度又叫校标关联效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。

44
Q

校标

A

衡量一个测验是否有效的外在标准,它独立于测验并可以从实践中直接获得我们所感兴趣的行为。

45
Q

实证效度的种类

A

① 同时效度:主要用于诊断现状
② 预测效度:主要用于预测个体将来的行为

46
Q

实证效度的评估方法

A

1⃣️相关法(直接)
▫️计算测验分数与校标测量的相关系数
▫️积差相关、等级相关、点二列相关

2⃣️区分法(间接)
▫️检验测验分数能够有效区分由校标所定义的团体
▫️t检验

3⃣️命中率
① 正命中率(选择中的正确)
② 负命中率(淘汰中的正确)
③ 总命中率= (正确选择+正确淘汰)/总人数✔️

4⃣️基础率、灵敏度、确认度
① 基础率(真正符合比率)
② 灵敏度(符合中的选择)
③ 确认度(不符中的淘汰)

47
Q

当基础率较低时,选用______高的测验比较有效。

A

灵敏度

48
Q

当基础率较高时,选用______高的测验比较有效。

A

确认度

49
Q

影响测量效度的因素

A

1⃣️测验的构成
▫️测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。

2⃣️测验的实施过程
▫️是否严格遵从指导语、评分记分的标准化程度、意外干扰等都会影响测量效度。

3⃣️接受测验的被试
▫️被试的应试动机、情绪、态度、身体状况等都会影响测量的信度,造成较大的随机误差,进而影响测量的效度。被试团体不同质,也会得到不恰当的效度资料。

4⃣️所选校标的性质
▫️由于同一个测验可以有不同的校标,同一个观念校标也可以有不同的校标测量,因此在评价测量效度时,所选校标的性质是很重要的考虑因素。

5⃣️测量的信度
▫️信度低的测验效度必然低。

50
Q

提高测量效度的方法

A

1⃣️精心编制测验量表,避免出现较大的系统误差。
2⃣️妥善组织测验,控制随机误差。
3⃣️创设标准的应试环境,让每个被试都能发挥正常水平。
4⃣️选择正确的校标,定好恰当的校标测量方式,正确使用有关公式。

51
Q

二分法(对/错)记分项目的难度有哪几种表示方式?

A

1⃣️通过率(P)
▫️P=R/N×100%

2⃣️极端分组法(要求被试人数较多,可以分为三组)
▫️高分组(前27%)和低分组(后27%)通过率的均值

52
Q

非二分法记分项目的难度如何计算?

A

P=该项目的平均得分÷该项目的满分

53
Q

选择题难度校正公式

A

CP=(KP-1)/(K-1)

K:选项数量
P:通过率

54
Q

选择题猜测校正的优缺点

A

1⃣️优点
① 通过猜测校正可避免降低测验的信度。若不使用校正公式,被试必然会盲目猜测而影响信度;如果答错倒扣分数,则被试不敢盲目猜测。
② 校正后的得分可以反映被试的真正水平和能力。对每个项目来说,校正后可以反映项目的真实难度,便于备选答案数目的统计比较分析。
③ 在教育测验中可以培养诚实的美德。
④ 比较公平(总有人无法答完试题)。

2⃣️缺点
① 公式的基本假设不成立(做错≠猜错,猜测≠完全随机猜测),也没有具体的实验研究对公式的有效性提供支持。
② 只要被试能答完全部试题,猜测校正就无实质性作用。
③ 即使不采用猜测校正,信度也不受很大影响,可以通过增加题目来弥补。
④ 有时会出现无法解释的现象。如答对题数等于或少于答错题数,校正后就会出现零分或负分。
⑤ 在实际生活中,由于经常缺乏充分的证据与材料,考生必须凭借部分知识来判断,且进行合理的猜测,这本身是值得培养的习惯。过分强调对猜测作校正,不利于培养学生的创造性思维与创新能力。

55
Q

如何进行难度大小的比较?

A

通过率P属于顺序变量,不具有相等的单位,无法指出难度之间的差异大小。但是,样本容量足够大时,测验分数将接近正态分布,可以将通过率转化为对应的z分数,进而进行比较。由于z分数具有小数点和负数,可以进一步转换为难度指标ETS (Δ=13+4z)。

56
Q

如何确定适宜的难度水平?

A

进行难度分析主要是为了筛选项目,项目的难度水平多高才合适,取决于测验的目的与性质。

❶ 常模参照测验:项目的难度系数应尽量接近0.50,以尽可能区分被试的个体差异。
❷ 标准参照测验:不必过多考虑难度,重在对知识技能内容的掌握。
❸ 选拔/录取测验:难度应接近录取率
❹ 选择题:P值应大于猜对的概率
❺ 速度测验&难度测验:速度测验难度不宜太高且每个项目的难度应基本相等;难度测验的难度应控制在0.50左右。速度测验和难度测验都要防止天花板效应,避免被试得满分,因为满分的意义是不明确的。

57
Q

难度对测验的影响

A

1⃣️测验难度影响测验分数的分布形态
▫️难:正偏态 / 易:负偏态 / 中等:正态

2⃣️测验难度影响测验分数的离散程度
▫️过难/过易:测验分数集中在高分端或低分端,导致分数全距缩小
▫️若难度在0.50左右,分数的分布范围广,区分度高

58
Q

区分度

A

区分度是指测验项目对被试心理品质水平差异的区分能力。实质上可以理解为题目本身的效度。区分度D的取值范围介于-1.00至+1.00之间。D为正值,称作积极区分;D为负值,称作消极区分;D为0,称作无区分作用。具有积极区分作用的项目,其D值越大,区分的效果越好。

59
Q

区分度的计算

A

1⃣️项目鉴别指数法
(二分法记分的项目)
▫️D=P(H)-P(L)

2⃣️相关法(题总相关)
① 点二列相关(真正二分变量-连续变量)
② 二列相关(人为二分变量-连续变量)
③ ψ相关(真正二分变量-真正二分变量)
④ 积差相关(连续变量-连续变量)

60
Q

项目鉴别指数在哪一区间内是可以接受的?

A
  1. 4以上:非常优良
  2. 30~0.39:良好,如能修改更佳
  3. 20~0.29:尚可,仍需修改
  4. 19以下:劣,必须淘汰
61
Q

难度与区分度的关系

A

难度越接近0.5,项目的潜在区分度越大;难度越接近1.00或0时,项目的潜在区分度越小。但在确保克隆巴赫α系数高的情况下(每个题目都差不多),若所有题目的难度都在0.5,可能会出现U型分布(会的都会,不会的都不会),丧失区分度。因此需要适当地调整难度,最好使项目的难度呈正态分布,且平均难度在0.5左右,才能把各种人区分开来。

62
Q

区分度的相对性

A

① 不同的计算方法,所得的区分度值不同
② 样本容量大小影响相关法区分度值的大小
③ 分组标准影响鉴别指数(D)
④ 被试样本的同质性程度影响区分度值的大小
⑤ 区分度是相对于特定校标而言的