单词 | 广义信度理论 |
释义 | 【广义信度理论】 拼译:generaliability theory 广义信度理论简称G理论。在估价体育测量的信度(Reliability)时,传统上采用古典测验理论(Classical Test Theory简称CII)的组间(Interclass)或组内(Intraclass)信度模型,CII是建立在如下的假设基础上的:测受试者所得的观测数(X)是等于正确观测数(T)加上错误观测数(E),X=T+E,这种以个体为依据的表述也可以组的方差来表述:鉴于正确观测数是未知,测量的信度就赖于对误差的验证。方差可相加,受试者之间的实测方差和错误方差已知时,正确观测方差也就可估,于是测量信度。这种测量理论必需满足下列条件Xi=Ti+Ei,Ei~N(O,S2),即测量误差Ei服从正态分布,∑Ei=0;Ti与Ei无关。从上述理论可知,组间信度模型只能纳入两组观测数来计算R,测量理论告诉我们,随观测次数增多,信度会提高,而组内信度模型既能为无限多的受试者,又能为无限多的观测数估价信度系数,但是CII对测量中的随机误差的辨别却无能为力的,它仅能鉴定出人,数和人×数(人与数交互作用)3种变异性源泉,受试者之间的方差视作实测方差,而误方差则取决于所选用的计算模型和研究者对误差的定义,在CII中,只把数和人×数两个源泉定义为误差。 1976年美国萨费丽特(M.J.Safrit)指出:在G理论中以样本的真观测数取代总体观测数的期望值,而在CII中,对于某一测试对象在专门的测量上只有一个真观测数,然而在G理论中,可以有一组全域观测数,不同的全域观测数取决于测量过程所泛化到的因子数量,一旦研究者弄清了哪些因子对误差有最大的贡献,就能用相应的方法控制这类因子。为了对因子和全域观测数有一初步了解,摘录1980年斯塔姆(C.L.Stamm)对G理论的诠释:在G理论中,研究设计中任何因子上的观测值是假设从观测值的定义域中抽出来时,这些因子就是指研究所要澄清其变异性的测量过程的各个方面(例如,评价者,测试者,测试次数,天数等等),G理论研究的诸因子确定以后,就用方差分析来估价方差的诸分量,这些方差分量就表示研究设计中与第一个因子及各因子交互作用所关联的变异性程度。从上述可知G理论是对CII中组内信度模型的引伸与推广,要深刻理解G理论的应用,必须熟悉几方面的知识(1)多因素方差分析程序,包括对随机的、固定的和混合的各种实验设计效应;(2)会熟练地计算任何一种方差分析模型的期望均方值;(3)用期望均方值去估价各种成份的方差即方差分量。G理论分析由两种研究组成:G研究(G-Study)和D研究(Decision-Study)。G研究是在重复测量方差分析的基础上,对模型内的每个因子所关联的方差和每个因子有交互作用的方差作出定量,并为方差的每个源泉算出期望方差。在已算出的均方值和期望均方的基础上,为每种变异源泉估价方差的分量。于是用各方差分量来计算模式中由每种源泉所代表的总方差的百分比,这些方差百分率就代表了由G研究得出的最有价值的信息,它能帮助研究者判断那些变异性源泉对测量误差有贡献,从而作出处理或控制误差源泉的决断。D研究是利用实测资料就有关的测量方案作出实质性的决断,其最终结果得出了广义信度系数,它可解释为在一个研究中涵盖所有因子的全域上的信度系数。注意,一个研究可以获得众多不同的G系数,这取决于研究设计中的因子数量和测量过程拟泛化的各种全域。例如,作一个测量信度的实验,让多名体育教师在几天内评价学生的排球竞技能力。通过对教师之间评价一致性检验,就可有效地判断评价者的信度(或称观测结果一致性),但有理由期望出现如下情况:作为既是教师的变化又是学生测试日期变化之函数,具有不同技能的学生被评出的等级必将随之变化,此外,还会有一些因子可包括在信度估价的模型中,如学生在赛场的位置,比赛的结果以及比赛的次序选择等等,均会影响教师对学生的评定。G系数是通过对各因子的观测值定义域中的误差源泉的辨别而计算的,再把G研究和D研究的结果综合起来判断所拟定的测量方案是否合适。为了获得满意信度,研究者是否需要增加排球评级中的测试天数或增加教师人数?G系数就能估价测试天数与教师人数要多少,也可以减少教师人数而增加测试次数来估价这样评法的效果(或者增加教师而减少测试次数),1981年卡迪纳特(J.Cardinet)称这种用以决定最佳测量方案的方法为最优化予报。对于纳有大量因子的研究,要计算期望均方是十分复杂的,1983年狄克逊(S.J.Dixon)所编的名为BMDF的电脑软件能为研究者提供所需结果。尽管如此,对研究者来说重要的是要理解期望均方值的计算方法。1976年霍普金斯(K.D.Hopkins)和1984年格拉斯(G.V.Glass)前后提出了两种逐步计算的程序,无论选择什么方法来计算期望均方,均必须遵循由1984年格拉斯所作的期望均方的定义。任何一种变异源泉的期望均方的分量(可加的)是等于专门效应(不管是主效应或是交互作用效应,均是变异源泉)加上这种专门效应同任何随机效应(包括各种随机效应的结合)的交互作用效应,再加上嵌套在这一专门效应之内的任何随机效应。1989年莫罗(J.R.Morrow)总结了作广义信度研究的程序:(1)为研究设计选择因子,尽可能列出每一因子的水平数。(2)为模型中的每一个变异源泉计算期望均方,尽可能随机分配因子。(3)为每一个变异源泉计算均方。(4)为每一个变异源泉计算方差分量。(5)计算出每个源泉所关联的方差百分比来实施G研究。(6)为所研究的各种全域计算出G系数而实施D研究。(7)通过对方差的百分比、G系数、信度指数和测量标准误的分析对比,最后确定拟用的测量方案。1963年美国克龙巴赫等人(L.J.Cronbach et al)首先在“统计心理学”月刊上以“信度理论自由化”为题介绍了广义信度理论。1976年美国萨费丽特首先把G理论引入体育领域。1979年泰勒(J.L.Taylor)用G理论来研究体育观测手段的组间和组内作评价之信度,这种手段对学生和教师行为的评价是可靠的,他在这一研究中评价了12个不同的变量,其中有11个变量的G系数超过0.87。1980年施塔姆用G理论来研究保龄球课程中的性别、得分和测试天数等交互影响时的测量信度,得到的G系数最高达0.93。1983年戈德布特(R.Godbout)提出了一组广义信度模型来评价运动成绩和研究各种模型对合成G系数的影响,他证明了一种完全交叉配置因子的计算模型在确定G系数时有最佳效果。1983年加拿大莫舍(R.E.Mosher)用G理论分析投掷能力测量的信度。他研究了两足位置、身体旋转和手臂动作的各个分量对测量结果的影响,当测量过程泛化到教师时,G系数高于0.84,当泛化至各测试因子,G系数高于0.83,当泛化至教师与测试交互作用时,G系数降至0.76。还发现G系数随投掷的各因子而有变化,还有很多研究者对体脂百分比同测点、测规、回归方程和测试者之关系的信度进行研究,结果表明:测量结果完全能泛化到测规和测试者,其系数高达0.90;但结果不能泛化到回归方程和测点上,因为皮下脂肪随测点不同而有变化,故把结果泛化到测点上时,G系数就会降低。又因为估价体脂百分比的方程是以测点而异的,因此把结果泛化到回归方程时,G系数也是不高的。【参考文献】:1 Cronbanh L J,et al.The British Journal of Sratistical Psychology,1963,16:137~1632 Safrit M J,et al.Physical education and Recreatin,19763 Stamm C L,et al.Research Quarterly for Exercisr and Sport,1980,51:382~3384 Morrow J R Jr,et al.Research Quarterly for Exercise and Sport,1986,187-195:575 Morrlw J R Jr.Generliazabiliby Theor Measarents on physical & Exercise Science,Inc:A Division of Human Kinetics publishers,1989,73~95(华南师范大学陈骏良教授撰) |
随便看 |
科学参考收录了7804条科技类词条,基本涵盖了常见科技类参考文献及英语词汇的翻译,是科学学习和研究的有利工具。