的内容
,
但这显然行不通 。于是
,
就从运动生理学知识体系的
总体中选一样本
,
也就是从可能的题目中取样来测验
,
根据测
验分数推论学生在该总体范围内的知识水平 。若测验题目是
运动生理学知识体系总体范围的好样本
(
题目出得好
) ,
则推
论将是有效的
(
高效度
) ;
若选题有偏差
,
则推论无效
(
低效
度
)
。由于这种测验的效度与测验内容有关
,
所以叫内容效
度 。
一个测验要有内容效度必须具备两个条件
:1)
要有定义
得完好的内容范围
;2)
测验题目应是所界定的内容范围的代
表性取样 。内容效度是编制任何测验都要加以考虑的基本方
面 。因为它考虑题目与规定的内容或所取样的行为范围之间
的符合性
,
可使选题更谨慎 、
更合理
,
以便从测验内容上排除
无关变量的影响 。
内容效度对于能力倾向测验和人格测验一般是不适用
的 。因为能力倾向和人格不象成就测验那样容易限定范围 。
而且
,
通过检查测验的内容来准确确定所有要测量的心理特
性
,
实际上是不可能的 。
内容效度具有一定的优点
,
也有一定的局限 。它的主要
缺点是缺乏理想的数量指标
,
因而妨碍了信息交流和各测验
间的相互比较 。
2. 2
确定内容效度的方法 有
4
种方法可用来确定内容效
度 。
1)
专家判断 。为了确定一个测验是否具有内容效度
,
最
常用的方法是请有关专家对测验题目与原定内容范围的符合
性做出判断 。看测验题目是否恰当地代表了所规定的内容 。
如果题目具有较好的代表性
,
则说明测验具有较高的内容效
度 。由于该方法是一个逻辑分析的过程
,
所以又叫逻辑效度 。
采用这一方法
,
不同专家对同一测验的内容效度判断可能不
一致 。为了提高判断过程的客观性
,
应尽可能对测验的编制
过程和测验目标进行详细说明
,
并编制评定量表
(
或专家调查
表
) ,
以便专家对测验做出客观的评定 。
2)
统计分析 。可采用类似复本信度系数的统计计算方
法
,
求被试在两个复本上得分的相关系数 。如果相关系数较
低
,
则说明两复本中至少有一个缺乏内容效度
;
若相关高
,
一
般可推论测验有内容效度 。
3)
再测分析 。可采用类似重测信度的评定方法
,
先将测
验施测于某一团体
,
该团体对测验所包括的内容仅具有最少
量的知识
,
因而得分较低 。然后
,
让该团体参与有关材料的教
学与训练计划
,
结束后将测验再施测一次 。如果成绩提高较
大
,
说明该测验测量的是课堂上所教的知识
,
而不是通过其它
方法获得的知识
,
亦说明测验具有较高的内容效度 。
4)
经验评定 。假定用同一测验检查不同年级的学生
,
那
么
,
一般说来
,
如果发现测验总分和每个题目的通过率随年级
而增高
,
就可作为测验具有内容效度的证据 。
2. 3
实证效度 实证效度也称效标关联效度
(criterion - relat
2
ed validity)
或效标效度
,
指一个测验对特定情境中的个体行为
进行预测时的准确性
,
也就是对我们所感兴趣的行为能够预
测得怎样 。例如
,
用百米成绩预测跳远成绩
,
用焦虑量表预测
某运动员赛前焦虑水平等 。一个测验预测得越准
,
其实证效
度就越高 。
实证效度强调的是效标行为 。我们之所以对测验分数感
兴趣
,
是因为它能预测一些重要的外在行为
,
所以测验的内容
是次要的
,
而且测验题目不需要和效标有明显的关系
,
测验分
数能在事实上预测效标行为才是最主要的 。
根据效标资料收集的时间
,
实证效度可分为同时效度
(concurrent validity)
和预测效度
(predictive validity)
。前者的效
标资料可与测验分数同时收集
;
后者的效标资料需过一段时
间才能收集到 。
1)
同时效度 。估计同时效度的常用方法是
,
用新旧两种
测验施测同一批对象
,
将新测验得分与旧测验得分
(
校标
)
进
行相关分析
,
得到效度系数 。例如
,
假定有两种血清生长激素
测验
,
分别称为测验
A
和测验
B ,
原来的测验
A
比较昂贵
,
而
新发明的测验
B
开销很小 。如果测验
B
的得分与测验
A
的
得分有很高的相关
,
则测验
B
可作为测验
A
的代用测验 。这
时
,
可认为测验
B
的同时效度高 。
2)
预测效度 。估计预测效度的常用方法是
,
求测验分数
与同一对象未来操作或特质的发展状况
(
效标
)
之间的相关系
数
,
以检查该测验的效度 。例如
,
最大吸氧量如果能很好地预
测人的长跑成绩的话
,
则说最大吸氧量有较好的预测效度 。
再如
,
在花样滑冰运动员形态选材的测验中
,
如果被筛选出的
大部分运动员未能长成所预期的形态
,
则由于预测效度太低
,
我们日后肯定要抛弃这种测验方法 。
2. 4
确定实证效度的方法
1)
相关分析 。最常用来建立实
证效度的方法是求测验分数与效标测量之间的相关
,
所得到
的数量指标称作效度系数 。在测验手册中
,
一般用它来报告
测验对每种效标的效度 。
2)
区分度分析 。该方法是看预测源
(
测验量表
)
的分数是
否可区分由效标测量所定义的团体 。例如
,
某运动队通过选
拔录取了一批运动员
,
过一段时间后
,
根据运动成绩将他们分
成合格的与不合格的两组
,
然后回过头来检查他们的测验分
数
,
运用
t
检验看两组在测验上的平均分数是否有显著差异 。
总的说来
,
两组平均分数的差异在统计上显著
,
并不保证测验
效度就高 。然而
,
假如测验分数无法区分效标定义组
,
则测验
效度肯定很低 。
3)
命中率分析 。当测验用来作取舍的根据时
,
其有效性
的指标就是正确决定的比例 。在简单的情况下
,
测验成绩与
效标都是二分的 。在测验成绩方面是确定一个临界分数
(
即
分数线
) ,
高于临界分数者接受
(
预测其成功
) ,
低于临界分数
者拒绝
(
预测其不成功
)
。在效标方面是根据实际情况
(
工作 、
学习的能力或成绩
) ,
确定一合格标准
,
在标准之上者为成功
,
标准之下者为不成功 。这样便会有四种情况
:
预测成功且实
际也成功
;
预测成功但事实上不成功
;
预测不成功而事实上成
功
;
预测不成功且事实上也不成功 。我们称正确的预测
(
决
定
)
为命中
,
不正确的预测
(
决定
)
为失误
(
表
1)
。
表
1
测验预测与实际成绩的可能关系
测验预测
实测失败
( - )
实测成功
( + )
成功
( + )
(A)
失误
(B)
命中
失败
( - )
(C)
命中
(D)
失误
引自郑日昌
,1987 ,144
页
[5 ]
。
这里有两个取舍正确性的指标
:
第一
,
总命中率
( P
CT
)
。它指正确决定数目
(
命中
)
对总决
定数目
(N)
的比例
:
P
cp
=
命中
命中
+
失误
=
B
+ C
A
+ B + C + D
=
命中
N
P
CT
值越大说明测验越有效 。这里考虑了所有的决定
,
并
对正确与不正确的决定给予了等量加权 。
第二
,
正命中率
( PCP)
。它指所选的人成功的比例
,
又称
选择效率
:
・
4
9
4
・
北京体育大学学报
第
25
卷
© 1995-2006 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.