普通话水平测试中的评分差异与评分误差
龚竞异
普通话水平测试是政府与专门机构主持实施的对应试人运用普通话所达到的标准程度的检测和评定,是一种国家规定的资格考试,具有较强的科学性、严肃性和权威性。测试员的评分必须具备较高的信度,关注测试员的评分信度,探寻提高测试员评分信度的途径,是普通话水平测试工作中迫切需要解决的一个问题。多年来在普通话水平测试的实践中,我们发现一个非常普遍的现象,即不同的测试员对同一应试人测评的分数完全相同的情况是罕见的,而测试员之间存在细微或较小的评分差异却是普遍存在的;同时,我们还发现有时候几个测试员之间最高分与最低分的差距竟达好几分,有的还造成“等”的差别,甚至“级”的不同。对这两种情况,我们称前者为“评分差异”,后者为“评分误差”。为什么会产生“评分差异”和“评分误差”,如何对待“评分差异”和“评分误差”,怎样切实有效地提高普通话水平测试的评分信度,本文拟就此谈一些粗浅认识。
一、成绩评定的主观性使评分差异不可避免
普通话水平测试的成绩评定具有主观性特点,测试员之间产生评分差异是不可避免的。
首先,语音标准的模糊性,决定了成绩评定具有主观性特点。
就一般意义上的考试而言,其标准答案具有确定性。主考人依据标准答案对应试人所答内容的正误判断,通常情况下不会出现误差。而普通话水平测试则不然,测试采取的是口试形式,所谓的标准答案主要是以一种“语音现象”存在于测试员的头脑之中,测试员要在稍纵即逝的语流瞬间捕捉语音信息,做出正误判断。但是测试员面对的自然语音,实际上是一种模糊变量,正误之间有不断过渡的一系列中介音。究竟怎样算“发音正确”,怎样算“发音缺陷”,怎样算“发音错误”,其划分标准事实上存在于测试员各自的主观意念之中,所谓的“标准答案”并没有一条清晰具体的界限,对于这些语音标准的把握,不同的测试员因其主观认识不同,宽严程度把握不同,在对应试人发音正误做判断时必然也会有所不同。因此说语音标准的模糊性决定了成绩评定带有主观性特点。
其二,评分标准的模糊性,使成绩评定带有主观性特征。
自然语言具有模糊性特征,决定了普通话水平测试的评分标准也具有相对的模糊性。尽管这套标准在“量化”方面近年来有很大改进,但仍然是一套定量与定性相结合的评价标准,其中模糊性评价因素占有相当的分量。比如:单音节字词和双音节词语的评分标准,看似有严格、细致的量化标准,但其中模糊性评价因素仍是它的基础。我们不妨选几个“缺陷音”的评判标准为例,声母发音中的:“zh、ch、sh发音靠前”;韵母发音中的:“合口呼、撮口呼韵母圆唇度明显不够”、“复韵母的动程明显不到位”;声调发音中的阴平声调:“保持平调调形,但音高较低”等等,这些都属于“发音缺陷”的评判标准,但是其中的“靠前”、“明显不够”、“明显不到位”、“较低”,都是些模糊性评价语言,不同的测试员对其标准尺度的把握必然不尽相同,即使都是经验丰富的测试员,认识和操作也不可能完全一致。又如,评分的分值标准也不能完全反映语言这个连续模糊变量的实际,比如:字的评分标准,正确为0.1,缺陷为0.05,错误为0,那些介于三者之间的0.09、0.08、0.07、0.06、0.04、0.03、0.02、0.01、0.009、0.008等发音状态在评分标准的分值中没有得到体现,测试员只能在0.1、0.05、0这三个变量中选择;还比如:朗读项中的“方言语调”评价标准分为方言色彩“浓重”、“比较明显”、“略有显露”;说话项中“语音面貌”划分为六个“档”,等等,这些都是综合性考核标准,评分弹性较大,其中虽有量化成分,但无疑仍属模糊性评价,而这种模糊性评分标准必然使成绩评定带上主观性特征。
其三,评分标准的某种不完善,使成绩评定带上主观性色彩。
普通话水平测试是我国试行不久的一项新的语言测试,目前尚属研究探索的初创阶段,其评分标准也正处于不断修订和完善之中。由于语音现象的复杂性,目前实施的评分标准还没有覆盖测试中现实出现的所有语音现象。比如:有的应试人读单音节字或双音节词语时速度很快,每个字或词发音不完全,时值很短;有的应试人,读双音节词语时,一字一顿,割裂了词的整体,有“字化”倾向;有的应试人朗读遇到不认识的字时,突然停住琢磨良久才又接着读,虽未造成对语句的肢解或歧义,但停顿时间显然过长。类似情况还有许多,对这些现象如何扣分,评分标准中都没有明确规定,扣不扣分,扣多少分,测试员中见仁见智各不相同,没有统一的做法,评分的主观性由此可见一斑。
综上所述,普通话水平测试的成绩评定不可避免地带有主观性特点,要完全杜绝测试员之间的评分差异是不可能的,测试员之间出现评分差异是正常现象。但是普通话水平测试的严肃性和权威性要求我们,必须尽量缩小测试员之间的评分差异,必须将评分差异限定在一个正常的范围之中,超出这一范围就应视为“评分误差”,而出现评分误差是不能允许的,因为作业测试员一定要清楚评分误差的“正常范围”有多大。宋欣桥在《普通话水平测试中的评分差异》一文中对这个问题做了专门阐释,他认为这种正常范围的差异反映在以下几个方面:①“在同一等级中的评分差异”;②“在同一评分档或评分段的差异”;③“在低分段非临界的较小差异,或在高分段非临界的细微差异”,这种差异具体如下:“一级差异在0.9分以内,其中甲等差异在0.5分以内,乙等差异在0.9分以内;二级差异在1.5分以内;三级差异在2分以内。”同时,他还解释说“评分差异”是指不同测试员对同一应试人评分中“最高分”与“最低分”之间的非临界差异,不可误解为以平均分值为依据的上下评分幅度。并且特别指出,如果“在同一‘级’中超出‘等’(即甲等和乙等之间)的评分差异虽仍属小的差异,但已经影响到等级的正确评定”,则视为“误差”。据此,我们可以将“评分差异”与“评分误差”两个概念明确区分开来,并且有理由认为是否消灭了评分误差是衡量一个测试员其评分信度高低的根本标志。如果一个测试员在评分中屡屡出现误差,就是一个评分信度低的不合格测试员。
二、测试员不良主观因素是造成评分误差的主要原因





