学位论文 > 优秀研究生学位论文题录展示

基于多元概化理论的CET-SET信度分析

作 者: 汪剑
导 师: 张森
学 校: 河北科技大学
专 业: 英语语言文学
关键词: 多元概化理论 大学英语四六级口语考试(CET-SET) 信度 评分员侧面 任务侧面 评分维度
分类号: H310.4
类 型: 硕士论文
年 份: 2012年
下 载: 31次
引 用: 0次
阅 读: 论文下载
 

内容摘要


大学英语四六级口语考试(CET-SET)施考十几年来,影响力日益扩大,报考人数日益增加。但与之相关研究并不多。主观性考试历来被认为在拥有高效度的同时,考试信度难以得到保证。那么该考试目前施考条件下,考试的信度如何值得关注。概化理论是经典真分数理论和方差分析结合的产物,它在估计各类考试,尤其是主观性考试的施考信度情况方面有很强大的功能,通过对各个考察侧面分数误差来源的估计,可以发现误差的大小和来源,并在此基础上估计更广泛的施考情况下考试的信度情况。多元概化理论是一元概化理论的推广和发展,对由多个变量合成的测量目标,可以提供各变量的分数的相关性和各变量的信度指数,并最终通过合成的信度指数来考察考试的信度情况。本文在在多元概化理论的框架下,对2010年11月大学英语四六级口语考试(CET-SET)某考点的全部数据进行实证分析,考察目前施考情况下,大学英语四六级口语考试的信度情况,并估计更广泛的施考情况下,考试的信度变化情况。据此为考试决策者提供改善施考条件的建议。本研究主要考察评分员侧面,任务(话题)侧面在三个评分变量维度的信度情况和合成信度情况,并考察三个评分变量的权重设置对合成信度的影响。研究的主要发现包括以下六个方面。第一,目前施考条件下,考试能等达到很高的信度;第二,三个评分变量维度上,大多数考场在概化系数和可靠性指数上显示出了非常高的信度。相比较而言,语言准确性和范围维度变量信度最高,话语长短和连贯性维度变量次之,语言灵活性和适切性最低;第三,随着评分员数量的增加,所以考场的信度都呈递增趋势,考虑到实际情况,每考场设置三个评分员数量达到能保证较高的信度,且考试成本不会有大的增加,可以取得最大的效果。第四,三个评分维度的权重设置虽然有提高的空间,但各个考场存在着差异性使得较目前的三个维度6:5:4权重比例设置,没有更好的替代选择。第五,在考试任务(话题)侧面,此次考试所采用的四个任务(话题)中,信度都在可接受的范围内,但与其他三个相比,第二个任务(话题)的信度指数较差,在某些考场甚至合成概化系数和合成可靠性指数分别只有0.60330和0.52324,所以需对第二个任务(话题)深入分析,并防止在以后考试中采用类似的任务(话题)。除去依照所提出的五个研究问题而得到对应的五个研发发现之外,本研究另外两个还有另外两个发现如下:一,三个评分维度侧面超高的相关度结果表明,虽然表明了对三个评分侧面进行合成得到合成分数具有合理性,但也显示出了在评分过程中,很多评分员的评分具有明显的“光环效应”,这可能会导致隐形的误差,据此建议提供专门的培训避免此现象。二,评分员的信度随着考试时间的推进呈现出逐渐提高的趋势,这与评分员根据经验的积累逐渐改善评分行为有关,据此建议每次考前进行打分热身,以提高考试信度。本研究在多元概化框架下对大学四六级口语考试(CET-SET)信度进行分析,为改善施考条件提供实证依据和建议,具有较大实际价值,同时对同类主观性考试也提供了参考,有较大的理论意义和实际意义。

全文目录


摘要  4-6
Abstract  6-10
Capter 1 Introduction  10-14
  1.1 Research Background  10-11
  1.2 Significance of the Present Study  11-12
  1.3 Organization of the Thesis  12-14
Chapter 2 Literature Review  14-24
  2.1 Previous Studies on Spoken Language Test  14-19
    2.1.1 Previous Studies on General Spoken Language Test  14-17
    2.1.2 Previous Studies on CET-SET  17-19
  2.2 Previous Studies on Reliability  19-21
    2.2.1 Classical True Score Theory (CTST)  19-21
    2.2.2 Item-response Theory (IRT)  21
  2.3 Previous Studies on Generalizability Theory (GT)  21-24
Chapter 3 Methodology  24-33
  3.1 Theoretical Basis of the Present Study  24-27
  3.2 Research Questions  27
  3.3 Instruments and Procedures  27-28
  3.4 Research Designs  28-29
  3.5 Data Collection  29-33
Chapter 4 Results and Discussion  33-51
  4.1 Design 1  33-46
    4.1.1 G Study for Design 1  33-36
    4.1.2 D Study for Design 1  36-46
      4.1.2.1 Defaulted D study  36-39
      4.1.2.2 D study 1  39-42
      4.1.2.3 D study 2  42-46
  4.2 Design 2  46-49
    4.2.1 G Study  46
    4.2.2 D study  46-49
  4.3 Summary  49-51
Chapter 5 Conclusion  51-54
  5.1 Major Findings of the Present Study  51-52
  5.2 Limitations of the Present Study and Suggestions for Future Researeh  52-54
Appendix  54-60
  Appendix A  54-60
References  60-63
攻读硕士学位期间所发表的论文  63-64
Acknowledgements  64

相似论文

  1. 中国核电厂操纵人员心理健康测评量表的初步修订,B849
  2. 应用需要层次理论和人性关怀照护理论构建最优陪护模式的研究,R47
  3. 埃森儿童青少年创伤问卷中文版信效度研究,B841
  4. 正常人动态平衡能力测试的信度和效度,R87
  5. 护理行为六维度量表的编译评价及适用性研究,R47
  6. 新疆住院冠心病患者自我管理行为及相关因素的研究,R473.5
  7. 妇科恶性肿瘤患者心理问题评估量表及其常模的研制,R473.73
  8. 肝炎后肝硬化中医PRO量表的修订与考核,R259
  9. 医学研究生PBL模式教学质量评价体系研究,R-4
  10. DAP-R中文版修订及在中老年基督教信徒中的应用,B978
  11. 重庆市基层干部领导行为与选拔任用干部公信度的关系研究,D262.3
  12. 公众期望与选用干部公信度的关系研究,D262.3
  13. 手机依赖性尺度变量探索,C912
  14. 中文版轻躁症状自评量表(HCL-32)在综合医院精神/心理科门诊患者中的应用,R749.4
  15. 超声波联合推拿治疗肌筋膜疼痛综合征的临床观察,R686.3
  16. 中文版行走受损问卷在2型糖尿病外周动脉疾病及2型糖尿病人群中的应用研究,R587.1
  17. 神经根型颈椎病“病证结合”量表信度效度验证,R274.9
  18. 大学生心理弹性问卷的编制及其初步应用,B841.7
  19. 慢性病患者生命质量测定量表体系之骨关节炎量表QLICD-OA的研制与初步应用,R195
  20. 公众感知公平性与选拔任用干部公信度的关系研究,D262.3

中图分类: > 语言、文字 > 常用外国语 > 英语 > 英语水平考试
© 2012 www.xueweilunwen.com