的内容

但这显然行不通。于是

就从运动生理学知识体系的

总体中选一样本

也就是从可能的题目中取样来测验

根据测

验分数推论学生在该总体范围内的知识水平。若测验题目是

运动生理学知识体系总体范围的好样本

(

题目出得好

) ,

则推

论将是有效的

(

高效度

) ;

若选题有偏差

则推论无效

(

低效

度

)

。由于这种测验的效度与测验内容有关

所以叫内容效

度。

一个测验要有内容效度必须具备两个条件

:1)

要有定义

得完好的内容范围

;2)

测验题目应是所界定的内容范围的代

表性取样。内容效度是编制任何测验都要加以考虑的基本方
面。因为它考虑题目与规定的内容或所取样的行为范围之间

的符合性

可使选题更谨慎、

更合理

以便从测验内容上排除

无关变量的影响。

内容效度对于能力倾向测验和人格测验一般是不适用

的。因为能力倾向和人格不象成就测验那样容易限定范围。

而且

通过检查测验的内容来准确确定所有要测量的心理特

性

实际上是不可能的。

内容效度具有一定的优点

也有一定的局限。它的主要

缺点是缺乏理想的数量指标

因而妨碍了信息交流和各测验

间的相互比较。

2. 2

　确定内容效度的方法 　有

种方法可用来确定内容效

度。

专家判断。为了确定一个测验是否具有内容效度

最

常用的方法是请有关专家对测验题目与原定内容范围的符合

性做出判断。看测验题目是否恰当地代表了所规定的内容。

如果题目具有较好的代表性

则说明测验具有较高的内容效

度。由于该方法是一个逻辑分析的过程

所以又叫逻辑效度。

采用这一方法

不同专家对同一测验的内容效度判断可能不

一致。为了提高判断过程的客观性

应尽可能对测验的编制

过程和测验目标进行详细说明

并编制评定量表

(

或专家调查

表

) ,

以便专家对测验做出客观的评定。

统计分析。可采用类似复本信度系数的统计计算方

法

求被试在两个复本上得分的相关系数。如果相关系数较

低

则说明两复本中至少有一个缺乏内容效度

;

若相关高

一

般可推论测验有内容效度。

再测分析。可采用类似重测信度的评定方法

先将测

验施测于某一团体

该团体对测验所包括的内容仅具有最少

量的知识

因而得分较低。然后

让该团体参与有关材料的教

学与训练计划

结束后将测验再施测一次。如果成绩提高较

大

说明该测验测量的是课堂上所教的知识

而不是通过其它

方法获得的知识

亦说明测验具有较高的内容效度。

经验评定。假定用同一测验检查不同年级的学生

那

么

一般说来

如果发现测验总分和每个题目的通过率随年级

而增高

就可作为测验具有内容效度的证据。

2. 3

　实证效度 　实证效度也称效标关联效度

(criterion - relat

ed validity)

或效标效度

指一个测验对特定情境中的个体行为

进行预测时的准确性

也就是对我们所感兴趣的行为能够预

测得怎样。例如

用百米成绩预测跳远成绩

用焦虑量表预测

某运动员赛前焦虑水平等。一个测验预测得越准

其实证效

度就越高。

实证效度强调的是效标行为。我们之所以对测验分数感

兴趣

是因为它能预测一些重要的外在行为

所以测验的内容

是次要的

而且测验题目不需要和效标有明显的关系

测验分

数能在事实上预测效标行为才是最主要的。

根据效标资料收集的时间

实证效度可分为同时效度

(concurrent validity)

和预测效度

(predictive validity)

。前者的效

标资料可与测验分数同时收集

;

后者的效标资料需过一段时

间才能收集到。

同时效度。估计同时效度的常用方法是

用新旧两种

测验施测同一批对象

将新测验得分与旧测验得分

(

校标

)

进

行相关分析

得到效度系数。例如

假定有两种血清生长激素

测验

分别称为测验

和测验

B ,

原来的测验

比较昂贵

而

新发明的测验

开销很小。如果测验

的得分与测验

的

得分有很高的相关

则测验

可作为测验

的代用测验。这

时

可认为测验

的同时效度高。

预测效度。估计预测效度的常用方法是

求测验分数

与同一对象未来操作或特质的发展状况

(

效标

)

之间的相关系

数

以检查该测验的效度。例如

最大吸氧量如果能很好地预

测人的长跑成绩的话

则说最大吸氧量有较好的预测效度。

再如

在花样滑冰运动员形态选材的测验中

如果被筛选出的

大部分运动员未能长成所预期的形态

则由于预测效度太低

我们日后肯定要抛弃这种测验方法。

2. 4

　确定实证效度的方法