background image

的内容

,

但这显然行不通 。于是

,

就从运动生理学知识体系的

总体中选一样本

,

也就是从可能的题目中取样来测验

,

根据测

验分数推论学生在该总体范围内的知识水平 。若测验题目是

运动生理学知识体系总体范围的好样本

(

题目出得好

) ,

则推

论将是有效的

(

高效度

) ;

若选题有偏差

,

则推论无效

(

低效

)

。由于这种测验的效度与测验内容有关

,

所以叫内容效

度 。

一个测验要有内容效度必须具备两个条件

:1)

要有定义

得完好的内容范围

;2)

测验题目应是所界定的内容范围的代

表性取样 。内容效度是编制任何测验都要加以考虑的基本方
面 。因为它考虑题目与规定的内容或所取样的行为范围之间

的符合性

,

可使选题更谨慎 、

更合理

,

以便从测验内容上排除

无关变量的影响 。

内容效度对于能力倾向测验和人格测验一般是不适用

的 。因为能力倾向和人格不象成就测验那样容易限定范围 。

而且

,

通过检查测验的内容来准确确定所有要测量的心理特

,

实际上是不可能的 。

内容效度具有一定的优点

,

也有一定的局限 。它的主要

缺点是缺乏理想的数量指标

,

因而妨碍了信息交流和各测验

间的相互比较 。

22

 确定内容效度的方法  有

4

种方法可用来确定内容效

度 。

1)

专家判断 。为了确定一个测验是否具有内容效度

,

常用的方法是请有关专家对测验题目与原定内容范围的符合

性做出判断 。看测验题目是否恰当地代表了所规定的内容 。

如果题目具有较好的代表性

,

则说明测验具有较高的内容效

度 。由于该方法是一个逻辑分析的过程

,

所以又叫逻辑效度 。

采用这一方法

,

不同专家对同一测验的内容效度判断可能不

一致 。为了提高判断过程的客观性

,

应尽可能对测验的编制

过程和测验目标进行详细说明

,

并编制评定量表

(

或专家调查

) ,

以便专家对测验做出客观的评定 。

2)

统计分析 。可采用类似复本信度系数的统计计算方

,

求被试在两个复本上得分的相关系数 。如果相关系数较

,

则说明两复本中至少有一个缺乏内容效度

;

若相关高

,

般可推论测验有内容效度 。

3)

再测分析 。可采用类似重测信度的评定方法

,

先将测

验施测于某一团体

,

该团体对测验所包括的内容仅具有最少

量的知识

,

因而得分较低 。然后

,

让该团体参与有关材料的教

学与训练计划

,

结束后将测验再施测一次 。如果成绩提高较

,

说明该测验测量的是课堂上所教的知识

,

而不是通过其它

方法获得的知识

,

亦说明测验具有较高的内容效度 。

4)

经验评定 。假定用同一测验检查不同年级的学生

,

,

一般说来

,

如果发现测验总分和每个题目的通过率随年级

而增高

,

就可作为测验具有内容效度的证据 。

23

 实证效度  实证效度也称效标关联效度

(criterion - relat

2

ed validity)

或效标效度

,

指一个测验对特定情境中的个体行为

进行预测时的准确性

,

也就是对我们所感兴趣的行为能够预

测得怎样 。例如

,

用百米成绩预测跳远成绩

,

用焦虑量表预测

某运动员赛前焦虑水平等 。一个测验预测得越准

,

其实证效

度就越高 。

实证效度强调的是效标行为 。我们之所以对测验分数感

兴趣

,

是因为它能预测一些重要的外在行为

,

所以测验的内容

是次要的

,

而且测验题目不需要和效标有明显的关系

,

测验分

数能在事实上预测效标行为才是最主要的 。

根据效标资料收集的时间

,

实证效度可分为同时效度

(concurrent validity)

和预测效度

(predictive validity)

。前者的效

标资料可与测验分数同时收集

;

后者的效标资料需过一段时

间才能收集到 。

1)

同时效度 。估计同时效度的常用方法是

,

用新旧两种

测验施测同一批对象

,

将新测验得分与旧测验得分

(

校标

)

行相关分析

,

得到效度系数 。例如

,

假定有两种血清生长激素

测验

,

分别称为测验

A

和测验

B ,

原来的测验

A

比较昂贵

,

新发明的测验

B

开销很小 。如果测验

B

的得分与测验

A

得分有很高的相关

,

则测验

B

可作为测验

A

的代用测验 。这

,

可认为测验

B

的同时效度高 。

2)

预测效度 。估计预测效度的常用方法是

,

求测验分数

与同一对象未来操作或特质的发展状况

(

效标

)

之间的相关系

,

以检查该测验的效度 。例如

,

最大吸氧量如果能很好地预

测人的长跑成绩的话

,

则说最大吸氧量有较好的预测效度 。

再如

,

在花样滑冰运动员形态选材的测验中

,

如果被筛选出的

大部分运动员未能长成所预期的形态

,

则由于预测效度太低

,

我们日后肯定要抛弃这种测验方法 。

24

 确定实证效度的方法  

1)

相关分析 。最常用来建立实

证效度的方法是求测验分数与效标测量之间的相关

,

所得到

的数量指标称作效度系数 。在测验手册中

,

一般用它来报告

测验对每种效标的效度 。

2)

区分度分析 。该方法是看预测源

(

测验量表

)

的分数是

否可区分由效标测量所定义的团体 。例如

,

某运动队通过选

拔录取了一批运动员

,

过一段时间后

,

根据运动成绩将他们分

成合格的与不合格的两组

,

然后回过头来检查他们的测验分

,

运用

t

检验看两组在测验上的平均分数是否有显著差异 。

总的说来

,

两组平均分数的差异在统计上显著

,

并不保证测验

效度就高 。然而

,

假如测验分数无法区分效标定义组

,

则测验

效度肯定很低 。

3)

命中率分析 。当测验用来作取舍的根据时

,

其有效性

的指标就是正确决定的比例 。在简单的情况下

,

测验成绩与

效标都是二分的 。在测验成绩方面是确定一个临界分数

(

分数线

) ,

高于临界分数者接受

(

预测其成功

) ,

低于临界分数

者拒绝

(

预测其不成功

)

。在效标方面是根据实际情况

(

工作 、

学习的能力或成绩

) ,

确定一合格标准

,

在标准之上者为成功

,

标准之下者为不成功 。这样便会有四种情况

:

预测成功且实

际也成功

;

预测成功但事实上不成功

;

预测不成功而事实上成

;

预测不成功且事实上也不成功 。我们称正确的预测

(

)

为命中

,

不正确的预测

(

决定

)

为失误

(

1)

1

 测验预测与实际成绩的可能关系

测验预测

实测失败

( - )

实测成功

( + )

成功

( + )

(A)

失误

(B)

命中

失败

( - )

(C)

命中

(D)

失误

  引自郑日昌

,1987 ,144

[5 ]

  这里有两个取舍正确性的指标

:

第一

,

总命中率

( P

CT

)

。它指正确决定数目

(

命中

)

对总决

定数目

(N)

的比例

:

P

cp

=

命中

命中

+

失误

=

B

C

A

D

=

命中

N

P

CT

值越大说明测验越有效 。这里考虑了所有的决定

,

对正确与不正确的决定给予了等量加权 。

第二

,

正命中率

( PCP)

。它指所选的人成功的比例

,

又称

选择效率

:

4

9

4

北京体育大学学报

25

© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd.   All rights reserved.