学位论文 > 优秀研究生学位论文题录展示

单题作答人数和单人作答题数对群体IRT参数估计的影响

作 者: 徐晶颖
导 师: 董圣鸿
学 校: 江西师范大学
专 业: 心理学
关键词: 群体水平评估 单题作答人数 单人作答题数 IRT GIRT
分类号: B841
类 型: 硕士论文
年 份: 2013年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在实际工作中,为了确保能对被试某个心理特征水平进行准确估计,就必须保证所使用的试题是该特质领域的代表性样本,这需要较大的题量。这样一个问题在个体水平估计存在一定的矛盾,因为被试一次测试能够接受的题量却远远小于那个题量。因此不能单一地考虑试题样本代表性的问题,还要兼顾考虑到个体的实际情况。通常只能折衷让被试答完一个恰当题量的试题。而在群体水平的估计中,这个问题是可以克服的。群体水平评估是指针对由一定数量个人所组成的单位、团体和组织进行的评估。即在群体水平估计中,只需对群体水平做估计,不需要对个体水平做估计。因此,在群体水平估计时就可以采用矩阵抽样的方法,每个被试只需要完成试题中一部分,每题只由一部分的被试去完成。如此就能对群体水平做出比较好的估计。在实际工作中的一些大型测试,如PISA、PIRLS、NEAP,其中PISA中学生样本所做的阅读、数学和科学素养认知测试取自难度覆盖广泛的且具有Rasch测量题目参数的大型题库,测验有若干个试题册,每名学生样本只要求作答其中的一套,依据随机原则将每名学生样本分配到每套试题册。目前我国大型测试还没实现上述测验方法,现有的大规模测验主要在大题量试题的基础上完成个体水平估计,群体水平以个人水平的均值或百分比作为指标。针对这种情况,IRT方法提供了另一种估计途径,它先获得某群体在各题上的正确作答概率,然后利用正确作答概率估计群体水平,蔡艳(2010)就采用这种群体水平直接估计法。然该方法必须要探讨每人做多少题,每题多少人做才能达到对群体水平的准确估计。而以前的研究采用的每人答一题,每题10人答,且只有20道题,以上均与实际条件差距太大。因此本研究要单题作答人数和单人作答题数对群体水平估计的影响,共分为3个部分。研究结果如下:实验一旨在检验研究的基础设想的可行性。采用Monte Carlo模拟方法模拟出100个群体在30个项目上的完整作答矩阵,每个群体1000人。采用两参数logistic模型,群体能力服从标准正态分布,且项目参数均服从正态分布。模拟测验情境中单人作答题数有1题、3题、5题和10题等4个水平,单题作答人数有6人、9人、12人、15人、20人、25人和30人等7个水平,总共28个实验条件。采用矩阵抽样设计完成各种实验条件下各群体的被试抽样工作。每个实验条件重复15次。最后在CY_GIRT程序下完成的群体被试能力参数估计值和项目参数与其预设值做比较,其绝对差值和均方根越大则估计效果越差,绝对差值和均方误差越小则估计效果越好。数据表明单题作答人数在25人左右,单人作答5到10题较为适宜。不但能准确估计能力值,而且项目区分度和难度估计值的精确性和稳定性也均可接受。个体作答多题的效果优于个体只答一题的效果。实验二将模拟的项目数增加至120,模拟测验情境中单人作答题数进行变化,从10题,20题,30题,40题;单题作答人数进行变化,从5人,15人,25人,35人,总共16个实验条件。实验方法和过程与实验一相同。数据结果表明,单人作答20题和30题且单题有25和35人作答时,能力参数估计效果较好;单人作答题数越多,项目参数的估计效果越好。实验三的目的探讨每人做多少题,每题多少人做才能达到对群体水平的准确估计。模拟的项目数为120,模拟测验情境中单人作答题数从10题,15题,20题,25题,30题中变化;单题作答人数从20人,25人,30人,35人中变化。实验方法和过程与实验一相同。结果显示单题作答人数为30且单人作答题数为25,是最佳选择。

全文目录


摘要  3-5
Abstract  5-9
1 文献综述  9-15
  1.1 群体水平估计的概念  9-11
    1.1.1 群体水平估计的概念  9
    1.1.2 群体 IRT 的由来与背景  9-10
    1.1.3 我国教育评估现状  10-11
  1.2 群体水平估计的方法  11-12
    1.2.1 经典测量理论框架下的群体水平估计  11
    1.2.2 IRT 框架下的群体水平估计  11-12
      1.2.2.1 以个体水平均值作为群体水平的方法  12
      1.2.2.2 群体水平直接估计法  12
  1.3 群体水平项目反应理论的基本知识  12-14
  1.4 关于群体水平估计研究的现状  14-15
2 问题提出与研究思路  15-20
  2.1 问题的提出  15-17
  2.2 研究目的  17-18
  2.3 研究思路  18-19
  2.4 研究的意义  19-20
3 实验一  20-27
  3.1 研究目的  20
  3.2 研究方法与过程  20-22
    3.2.1 研究设计  20
    3.2.2 研究基本过程  20-21
    3.2.3 分析工具  21-22
  3.3 数据结果与分析  22-26
    3.3.1 对能力值的估计  22-24
      3.3.1.1 能力参数估计结果的基本情况  22
      3.3.1.2 各因素对能力参数估计的影响  22-24
    3.3.2 对项目区分度和项目难度的估计  24-26
      3.3.2.1 项目区分度和项目难度估计的基本情况  24
      3.3.2.2 各因素对项目区分度和项目难度估计的影响  24-26
  3.4 结果与讨论  26-27
4 实验二  27-36
  4.1 研究目的  27
  4.2 研究方法与过程  27-28
    4.2.1 研究设计  27
    4.2.2 研究基本过程  27-28
    4.2.3 分析工具  28
  4.3 研究结果与分析  28-34
    4.3.1 对能力值的估计  28-31
      4.3.1.1 对能力参数估计的基本情况  28-29
      4.3.1.2 各因素对能力参数估计的影响  29-31
    4.3.2 对项目区分度和项目难度的估计  31-34
      4.3.2.1 项目区分度和项目难度估计的基本情况  31-32
      4.3.2.2 各因素对项目区分度和项目难度估计的影响  32-34
  4.4 结果与讨论  34-36
5 实验三  36-47
  5.1 研究目的  36
  5.2 研究方法与过程  36-38
    5.2.1 研究设计  36
    5.2.2 研究基本过程  36-37
    5.2.3 分析工具  37-38
  5.3 研究结果与分析  38-46
    5.3.1 对能力参数的估计  38-41
      5.3.1.1 对能力参数估计的基本情况  38
      5.3.1.2 各因素对能力参数估计的影响  38-41
    5.3.2 对项目区分度和项目难度的估计  41-46
      5.3.2.1 项目区分度和项目难度估计的基本情况  41-42
      5.3.2.2 各因素对项目区分度和项目难度估计的影响  42-46
  5.4 结果与讨论  46-47
结论  47-49
参考文献  49-52
致谢  52-53
在读期间公开发表论文(著)及科研情况  53

相似论文

  1. 运用GPCM模型对我校研究生心理测量数据进行分析,G444
  2. 基于IRT计算机自适应测试的研究,TP274
  3. 基于J2EE的考试题库管理系统的研究和应用,TP311.52
  4. 多课程试题库软件系统的研究与实现,TP311.52
  5. 大学生性别角色行为量表的编制,B844.2
  6. 基于Web的在线考试评价系统的设计与实现,TP311.52
  7. 基于PROFINET协议的现场总线设备研究,TP273.5
  8. 个人拟合指数对人格测验中不同偏差行为的检测效果,B840
  9. 基于等级IRT模型的多级PFS对心理测验中典型偏差反应的检测性能,B842
  10. 基于项目反应理论的计算机化自适应测试a分层法的优化,TP274
  11. 关节炎PRO量表的研制与评价,R195
  12. “基于高血压患者报告的临床结局评价量表”的编制与评价,R195
  13. 红外热成像技术指导针灸干预亚健康临床的环境标准基础研究,R245
  14. 基于Flex的自适应测试系统的设计与实现,TP311.52
  15. 小学生学习焦虑测验的初步编制,G444
  16. 小学生学习偏好量表的初步编制,G44
  17. 基于IRT的自适应考试系统的研究与设计,TP311.52
  18. 基于GPCM的高中数学教师评价指标体系的研究,G633.6
  19. 三种测量不变性检验方法的比较研究,B841.7
  20. 基于移动Agent计算机自适应考试系统的研究,TP311.52
  21. 冠心病PRO量表的研制与评价,R195.4

中图分类: > 哲学、宗教 > 心理学 > 心理学研究方法
© 2012 www.xueweilunwen.com