学位论文 > 优秀研究生学位论文题录展示
基于多元概化理论的CET-SET信度分析
作 者: 汪剑
导 师: 张森
学 校: 河北科技大学
专 业: 英语语言文学
关键词: 多元概化理论 大学英语四六级口语考试(CET-SET) 信度 评分员侧面 任务侧面 评分维度
分类号: H310.4
类 型: 硕士论文
年 份: 2012年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
大学英语四六级口语考试(CET-SET)施考十几年来,影响力日益扩大,报考人数日益增加。但与之相关研究并不多。主观性考试历来被认为在拥有高效度的同时,考试信度难以得到保证。那么该考试目前施考条件下,考试的信度如何值得关注。概化理论是经典真分数理论和方差分析结合的产物,它在估计各类考试,尤其是主观性考试的施考信度情况方面有很强大的功能,通过对各个考察侧面分数误差来源的估计,可以发现误差的大小和来源,并在此基础上估计更广泛的施考情况下考试的信度情况。多元概化理论是一元概化理论的推广和发展,对由多个变量合成的测量目标,可以提供各变量的分数的相关性和各变量的信度指数,并最终通过合成的信度指数来考察考试的信度情况。本文在在多元概化理论的框架下,对2010年11月大学英语四六级口语考试(CET-SET)某考点的全部数据进行实证分析,考察目前施考情况下,大学英语四六级口语考试的信度情况,并估计更广泛的施考情况下,考试的信度变化情况。据此为考试决策者提供改善施考条件的建议。本研究主要考察评分员侧面,任务(话题)侧面在三个评分变量维度的信度情况和合成信度情况,并考察三个评分变量的权重设置对合成信度的影响。研究的主要发现包括以下六个方面。第一,目前施考条件下,考试能等达到很高的信度;第二,三个评分变量维度上,大多数考场在概化系数和可靠性指数上显示出了非常高的信度。相比较而言,语言准确性和范围维度变量信度最高,话语长短和连贯性维度变量次之,语言灵活性和适切性最低;第三,随着评分员数量的增加,所以考场的信度都呈递增趋势,考虑到实际情况,每考场设置三个评分员数量达到能保证较高的信度,且考试成本不会有大的增加,可以取得最大的效果。第四,三个评分维度的权重设置虽然有提高的空间,但各个考场存在着差异性使得较目前的三个维度6:5:4权重比例设置,没有更好的替代选择。第五,在考试任务(话题)侧面,此次考试所采用的四个任务(话题)中,信度都在可接受的范围内,但与其他三个相比,第二个任务(话题)的信度指数较差,在某些考场甚至合成概化系数和合成可靠性指数分别只有0.60330和0.52324,所以需对第二个任务(话题)深入分析,并防止在以后考试中采用类似的任务(话题)。除去依照所提出的五个研究问题而得到对应的五个研发发现之外,本研究另外两个还有另外两个发现如下:一,三个评分维度侧面超高的相关度结果表明,虽然表明了对三个评分侧面进行合成得到合成分数具有合理性,但也显示出了在评分过程中,很多评分员的评分具有明显的“光环效应”,这可能会导致隐形的误差,据此建议提供专门的培训避免此现象。二,评分员的信度随着考试时间的推进呈现出逐渐提高的趋势,这与评分员根据经验的积累逐渐改善评分行为有关,据此建议每次考前进行打分热身,以提高考试信度。本研究在多元概化框架下对大学四六级口语考试(CET-SET)信度进行分析,为改善施考条件提供实证依据和建议,具有较大实际价值,同时对同类主观性考试也提供了参考,有较大的理论意义和实际意义。
|
全文目录
摘要 4-6 Abstract 6-10 Capter 1 Introduction 10-14 1.1 Research Background 10-11 1.2 Significance of the Present Study 11-12 1.3 Organization of the Thesis 12-14 Chapter 2 Literature Review 14-24 2.1 Previous Studies on Spoken Language Test 14-19 2.1.1 Previous Studies on General Spoken Language Test 14-17 2.1.2 Previous Studies on CET-SET 17-19 2.2 Previous Studies on Reliability 19-21 2.2.1 Classical True Score Theory (CTST) 19-21 2.2.2 Item-response Theory (IRT) 21 2.3 Previous Studies on Generalizability Theory (GT) 21-24 Chapter 3 Methodology 24-33 3.1 Theoretical Basis of the Present Study 24-27 3.2 Research Questions 27 3.3 Instruments and Procedures 27-28 3.4 Research Designs 28-29 3.5 Data Collection 29-33 Chapter 4 Results and Discussion 33-51 4.1 Design 1 33-46 4.1.1 G Study for Design 1 33-36 4.1.2 D Study for Design 1 36-46 4.1.2.1 Defaulted D study 36-39 4.1.2.2 D study 1 39-42 4.1.2.3 D study 2 42-46 4.2 Design 2 46-49 4.2.1 G Study 46 4.2.2 D study 46-49 4.3 Summary 49-51 Chapter 5 Conclusion 51-54 5.1 Major Findings of the Present Study 51-52 5.2 Limitations of the Present Study and Suggestions for Future Researeh 52-54 Appendix 54-60 Appendix A 54-60 References 60-63 攻读硕士学位期间所发表的论文 63-64 Acknowledgements 64
|
相似论文
- 中国核电厂操纵人员心理健康测评量表的初步修订,B849
- 应用需要层次理论和人性关怀照护理论构建最优陪护模式的研究,R47
- 埃森儿童青少年创伤问卷中文版信效度研究,B841
- 正常人动态平衡能力测试的信度和效度,R87
- 护理行为六维度量表的编译评价及适用性研究,R47
- 新疆住院冠心病患者自我管理行为及相关因素的研究,R473.5
- 妇科恶性肿瘤患者心理问题评估量表及其常模的研制,R473.73
- 肝炎后肝硬化中医PRO量表的修订与考核,R259
- 医学研究生PBL模式教学质量评价体系研究,R-4
- DAP-R中文版修订及在中老年基督教信徒中的应用,B978
- 重庆市基层干部领导行为与选拔任用干部公信度的关系研究,D262.3
- 公众期望与选用干部公信度的关系研究,D262.3
- 手机依赖性尺度变量探索,C912
- 中文版轻躁症状自评量表(HCL-32)在综合医院精神/心理科门诊患者中的应用,R749.4
- 超声波联合推拿治疗肌筋膜疼痛综合征的临床观察,R686.3
- 中文版行走受损问卷在2型糖尿病外周动脉疾病及2型糖尿病人群中的应用研究,R587.1
- 神经根型颈椎病“病证结合”量表信度效度验证,R274.9
- 大学生心理弹性问卷的编制及其初步应用,B841.7
- 慢性病患者生命质量测定量表体系之骨关节炎量表QLICD-OA的研制与初步应用,R195
- 公众感知公平性与选拔任用干部公信度的关系研究,D262.3
中图分类: > 语言、文字 > 常用外国语 > 英语 > 英语水平考试
© 2012 www.xueweilunwen.com
|