简介:大规模语言运用测试(performanceassessment)中评分员的评分质量直接关系到考生的命运和考试成绩的信效度及公平性,因此如何通过有效的评分员培训最小化评分误差是确保考试成绩有效性的重要问题。本研究运用多层面Rasch模型(MFRM)中所提供的丰富的统计信息对评分员的评分数据进行诊断分析,研究表明,MFRM输出的统计结果可以较为全面地诊断评分员在评分中所存在的问题,为评分员培训提供更加具有针对性的反馈信息,也可以作为区分评分员准确度高低的依据,为更多评分员误差研究提供有效的测量工具。
简介:本文从评分人决策的变化探讨了评分人个性化反馈信息的有效性。研究人员首先邀请了三位不同经验和背景的CET4作文评分人对30篇CET4模拟作文评分并提供三条评分理由,然后对另外10篇作文进行有声思维。评分结束一周后,评分人收到包括多层面Rasch模型(MFRM)的分析结果(严厉度、内在一致性和偏差)以及评分理由编码分析结果的个人反馈信息报告。阅读完反馈报告后,评分人接着对新30篇CET4模拟作文评分并对另外10篇作文进行有声思维(其中5篇作文和前测相同)。本研究通过对比分析反馈前、后相同的5篇作文的有声思维数据,结果发现反馈信息能帮助评分人重视评分标准相关特征,并调整自己的决策行为。