分数膨胀与等级膨胀：评教系统双重失效原因探析（二）-高教研究所

当前位置: 首页 >> 高教研究信息 >> 高教理论研究 >> 正文

分数膨胀与等级膨胀：评教系统双重失效原因探析（二）

发布时间：2012-04-20 文章录入：点击：[]

二、双重失效的原因探讨

虽然早有研究显现，评教只是促进教学的手段，但是现实中，很少有组织遵守这一规则，大家更愿意将之用作功利的目的；虽然理论上也有成果显示，评教从来都是在一定条件下有效的，但是在实际运用时少有人将限定条件考虑进去。根据管理理论，评教就是绩效评估，绩效评估就会有“绩效政治”。同时，绩效评估是一个系统，而非一个事件，系统的设计与所在组织系统本身都会影响评教结果。

（一）混淆了评教的手段与目的

评教的目的究竟为何？虽然很多专家从不同的角度进行了论述，但是殊途同归，都认为其本意是提高教学质量的手段，而不是目的。实际上在我国，评教更多时候并不是作为提高教学质量的手段出现的，其往往成为人事决策的依据。

美国教育家斯塔弗尔比姆说“：我提出的评价定义是：为决策提供信息的过程。”[8]克龙巴赫（Croabach）认为教育评价“是一个搜集和报告对课程研制有指导意义的信息的过程”。美国评价标准联合委员会发表的评价定义是：“对某些对象的价值和优缺点的系统调查。”以上观点道出了评价的真实含义，用斯塔弗尔比姆的话说就是“评价最重要的意图不是为了证明（prove），而是为了改进（improve）”[9]。其实，即便是营利组织绩效评价的目的亦非单一的，其顺序依次是战略的，管理的及开发的目的。

一个比较有意思的现象是，尽管有大量的研究告诉我们学生评教只能作为手段，但是现实中它却总被当成目的。在消费者至上的美国，学生评价已经成为最重要的评价方法，有时还是评价教员教学能力的唯一量度。[10]对大学教员应聘和提升职称所进行的教学工作审查评定必须征集学生的意见。[11]美国存在分数膨胀与等级膨胀的现象便毫不奇怪了。

我们在实际操作时过于单纯地看待评教问题，仅仅将其作为一种态度进行调查，没有从根本上认识到评教实质上是学生与教员之间的相互评价，而绩效评估从来都是一个高度情感化的过程[12]，是利益相关者之间的相互博弈。评估中不可避免地存在绩效政治，尤其是当评估与人事决策相关时[13]，考核者往往不愿意对被考核者的绩效做出区分，等级膨胀（包括分数膨胀）便不可避免地产生了。评教的目的不同，其客观性也大受影响，不仅如此，还会对评价者与被评价者均产生消极的影响。即便是在企业内部的上下级之间，下级绩效评价也是不可以运用于人事决策方面的。[14]

作为教员绩效的评价者———学生是如何看这个问题呢？调查显示：76.4%的学生认为评教结果应该改进教学，44.9%的学生认为评教结果可作为他们选课的参考。但也有部分学生认为评教结果应作为教员晋升职称、发放奖金、人事决策等的决策条件。作为利害相关者，学生很清楚，如果将之作为人事决策的唯一来源，可能有失公正，引起教员的抵触。评教是提高教学质量的手段，而不是目的。因此在运用评价结果时，学校方面应重在改进学校管理策略，从而帮助教员进一步提高教学水平；教员应重在对照、完善与提高，逐步形成独特的教学风格。

评教结果的不恰当使用不仅会对评教主体、客体均造成伤害，而且还会给学校战略目标的顺利实施带来严重的影响。这不仅背离了组织启用评教方法之目的，而且严重影响了人们对学生评教的正确认识。诚如Bloom所说：“评价是一把双刃剑，它或许能增进学生的学习和人格发展，或许会危害学生的学习和人格的发展，它对学生、教员、课堂和学校系统能够产生积极的影响，也能产生消极的影响。”问题的关键在于怎样运用学生评教的结果。不仅如此，评教奖赏那些在制度内做得好的员工，但却不奖赏那些试图提高制度的人。换言之，作为奖惩手段的评教不鼓励教员的创新与改进，并且作为相对绩效评估的评教也有鼓励教员间相互拆台及不合作的可能。

表5学生对如何运用评价结果的意见

题目	改进教学	选课参考	教员升职	发放奖金	人事决策
你认为学校应该怎样利用评价结果	279	164	101	83	97
你认为学校应该怎样利用评价结果	76.4%	44.9%	27.7%	22.7%	26.6 %

（二）忽视学生评教的局限性

关于学生评教的有效性方面学界并没有达成共识，即便是持肯定态度的研究也认为其有效性是有边界条件的，即其有效性受学生数量、学生的学习动机（对选修课的评分比必修课的评分高）、学生的期望分数、学习态度、教员的职称、表达能力、授课水平、课程领域等控制变量的影响。

学生评教的有效性存在明显的分歧。以格林瓦尔德为代表的观点认为学生评教是无效的。他对1971年至1995年间美国发表的论文进行统计，结果表明，1971-1980年认为学生评教无效和存在偏差的研究多于认为有效的研究；1981-1985年，认为学生评教有效的研究多于认为无效和存在偏差的研究；1986-1995年认为有效和无效或存在偏差的研究各占一半。[15]以马什（Marsh H·W）等人为代表的观点认为，学生评教是有效的，但也是在一些限定条件下的有效。

评教有效性的主要影响因素是学生数量。⑤[16]此外，当学生的学科兴趣较浓、期望得到高分、负荷量大、学科难度较高时，教员容易得到较高的评价。[17]卡森认为对评教结果有影响的10个因素为：教员的职称、表达能力；学生的学习动机（对选修课的评分比必修课的评分高）、学生的期望分数；课程水平、课程领域（人文艺术类比社会科学类评价高，而后者又比数学类评价高）、作业难度；评教采取匿名与否、学生评教时教员在场与否及评教目的等。[18]这一结论也为美国教育测量中心（ETS）森特拉博士的研究结果所证实，我国学者宋映泉、田勇强等的实证分析大部分验证了这一研究。[19]

其实，学生态度对评教结果的影响也不容忽视。评价是一种认识过程[20]，而人在认识过程中受到人心理活动的各种特点制约，因而造成人在认识事物过程中的误差。这种导致学生评分产生误差的心理活动过程称之为误差心理。[21]如戒备心理、应付心理、模式心理、晕轮心理、颠倒心理、报复心理、预设心理、刻板印象与从众心理等都会影响评教的结果。[22]无疑，这种误差心理会影响评教结果的有效性。因此，学生在评教中所持的态度是评教成败的关键。[23]

正如戴明所言：以测量或观察而定义的任何特性、状态或状况，并没有所谓的真值。只要改变测量或者观察的程序，就会产生新的数字。[24]评教在一定边界条件下有效，即评教结果的好坏并非教员完全可操控，而是受很多不可控因素的影响，比如学生方面的因素，评教方式及评教目的等等。从绩效管理理论而言，当绩效结果并非教员可完全操控时，管理者在运用这些结果时需要剔除影响因素对结果的干扰，如若不然，不仅会大大挫伤教员的积极性，而且会导致对教员评价和对学生评价的双重失效。

但是，在现实中我们却忽视评教的局限性，在反馈时既不考虑课程特征的不同，也不顾及学生个体特征的差异，更没有照顾到大学的多学科特点，以及学习任务的轻重，只是将学生评教分数简单地进行算术平均，并将平均分数反馈给教员或者教务部门，并以此作为生杀予夺教员职称的杀手锏。

（三）忽视评教是一个系统

评教并非简单的学生对教员的评价，它涉及到整个评价系统。除了上述学者们关注到的控制变量，评价系统还包括对教员绩效的定义，绩效指标与权重、绩效标准、考核方法、评价者的选择，评价的信度，评价信息的来源，评审系统，反馈系统与申诉系统等方面。作为一个系统，既有各组成部分之间的协调性、一致性的问题，也有该系统与组织整个系统的匹配度问题。

从绩效定义看，教员属于德鲁克所说的知识工作者，是“那些掌握和运用符号和概念，利用知识或信息工作的人”[25]。其特点是不可量化、模糊性、专业性、多维性、长期性等。在任何水平上进行公式化（formulation）的、短期的绩效评估和单一信息来源的评估都是不合适的。目前的评教是为了评估而评估，停留在对教员过去的表现考评上，没有关注与组织战略发展相关的胜任力、创新能力。这与组织使命战略背道而驰，错误的导向必然得到错误的结果。

从绩效指标看，一是指标不完整，二是指标缺乏区分度，三是指标没有主次之分。指标的不完整是指目前的评价指标集中于教员的教学态度、教学技能等任务绩效方面，这些指标既没有承担传递组织战略与价值观的责任，也很少关注组织公民行为等适合于知识工作者绩效的内容。评教指标多属任务绩效，而任务绩效比较适合于简单劳动，而对于复杂的知识工作，尤其是就大学的使命而言，关系绩效的重要性远远大于任务绩效。[26]指标的区分度是指所有教员共用一种调查表，未能反映各门学科之间的特点，新开设课程与成熟课程的区别，承担一门课程与多门课程的差异，教员的工作性质及不同课程内容的教学特点的迥异。指标的主次问题主要指不同的教员，不同的任务在重要性方面没有区分，没有体现组织对不同考核对象、不同任务重视程度的差异，以及战略重点的变动。

从评价标准看，大多数评教指标并不是着眼于关键事件或者行为事例，只是用询问的方式征求学生对教员执行某项任务的感觉，说到底是一种主观态度的调查。由于这些评估缺少客观评价标准，一方面使得评价者在评价时多凭主观感觉，另一方面被考核者也无法得到有针对性的反馈，只能看到分数的高低，不知道自己到底哪里需要改进，哪些方面需要继续保持。因此，对于教员来说，其行为模式很可能还是一如既往；对学生而言，所提出的意见并没有得到积极的回应，大大挫伤其提意见的积极性。

考核方法的选择除了需要考虑与评估系统中其他因素的相互影响外，还需要考虑工作性质与高校战略、使命的匹配。鉴于教员之间工作性质的千差万别，以及高校使命与价值观对团结、独立精神之尊崇，而A高校的这种将全校教员大排队的相对绩效评估方式与之是格格不入的。

评价者的选择是保证评教有效的非常重要的环节。评价者与被评价者的关系、评教的目的与标准，评价者的能力，评价者的个人特点等都是需要考虑的方面。学生与教员的关系不是消费者与生产者的关系，不适合用相互评估的方式，也不适合将学生的评分作为决定教员前程的唯一信息来源，否则会导致其关系的功利化，致使教员丧失“自由之精神”,“独立之人格”，一方面教员很难避免谄媚讨好，另一方面学生极容易陷入要挟偷懒。

作为特殊的评价者，学生的个体、群体特点均会影响评教结果。学生一方面具有自主性、目的性、有序性与沉稳性等优点，另一方面也表现出自制性差、自律性低、随意性大、多变与突发性的特点。[27]具有这些个体特点的大学生最典型的群体特点是从众、盲目、讲义气和感情用事，尤其是经历备受控制的高中生活，到达目的地的之后大学生行为与思想有报复性反弹的趋势，他们既需要教员的严格要求与积极引导，又可能因为教员的严格要求而受到挫伤，或者因为教员得罪了某个非正式组织的“头目”而遭到小群体的报复。在评教之前应该引导并培训他们，否则评教失效在所难免。

从评价者的能力看，作为考核者的学生必须做到以下两点：一是了解教员所从事工作的目的与目标，以便识别完成工作所必需的关键行为；二是有能力判断所观察到的行为是否令人满意，以便对教员在组织内的价值给出正确的评价。鉴于大学生的特点以及人性的弱点，没有经过培训的大学生很难正确地掌握学校的战略意图，加之评教系统中完全没有体现责权相当这一最古老的组织原理。因此，学生评教更多时候是学生从自身利益出发与教员间展开的利益博弈，而不是从组织战略目标角度展开的绩效评价。

从评教的信度看，基于评估者个体特征（即成绩的好坏，动机的强弱及期望的高低）对评教的影响，评教结果不能只看平均分数，而要关注评价者的内部信度。因为没有信度的评教不仅不能准确地诊断问题，也无法有的放矢地反馈问题，所以也无从因人而异地采用措施，其结果是教员不知道其绩效的改进点，学生看不到其建议被采纳。

从绩效信息来源看，教员的绩效特点决定了绩效信息来源应该是多方位的，而不能采用单一信息来源。因此，给予评估者恰当的权重是绩效体系成功与否的关键。学生作为利益相关者，在评教中所占的权重过大，甚至百分之百，不仅导致信息失真，而且致使教员不敢严格要求学生，而是一味讨好学生。这样既不利于学生的培养，又不利于教师自身的发展。

评审系统，反馈系统与申诉系统设置的目的是减少或者防止绩效评估系统出现偏差。评教系统如果具有这些方面，上述绩效问题，如指标与标准，评价者的信度，绩效信息来源等就会迎刃而解。因为，评审系统是通过绩效委员会及员工参与的形式审议绩效评估系统存在的问题；反馈系统在反馈之前需要对影响评教的各类因素做客观的评估，由管理者与被评估者通过面对面畅谈达成共识，管理者与被评估者就绩效改进计划形成一致的意见，并为组织培训提供参考；而申诉系统是保证评估正确，改正评估问题的最后一道防火墙。如此评教系统才可能达到可信性、有效性、减少偏差和实用性等四个方面的要求。

评教是一个系统，而不是一个孤立的事件。学生对课堂教学的评价并不是仅仅对某一事件的单纯反应，它不可避免地受评教系统框架因素的影响，设计不良的评教系统的任何方面均会影响其结果的正确性。可以想见，一个残缺不全的评教体系，一个内部存在着不一致性的评估系统，一个没有考虑到组织战略与系统协调匹配的体系，所有这些方面的问题最终都反映到评教结果上。如果不认真对待评教，建立及维护完善的评教系统，只是一味从教员身上寻找问题的原因，无异于缘木求鱼，不利于组织反思自身问题，不发生分数膨胀与等级膨胀才会令人百思不解。

其实，即便是设计精良的评估系统也难以避免系统本身及组织系统因素对其的影响。本文在下一点将详论之。

（四）忽略了评教是组织系统中的子系统

系统的观点认为，结构模式影响行为。当置身于一个系统中时，人们无论有多大的差别，都倾向于产生相似的行为结果。为了理解重要的问题，我们不能只看到个人失误或者运气不佳，也不能只看到人物和事件，我们必须看到隐藏在事物表面以下的结构模式。[28]评教本身是一个系统，这一系统对结果的影响主要表现在绩效指标的“因用而废”，评估系统的反作用力，以及组织系统因素对教员行为的影响。

由于缺乏系统的观念，我们对美国的经验简单地拿来是懒政的表现。美国的教育体系与我国不同，虽然存在分数膨胀，但是不至于危及教育的根本。因为美国高校分数膨胀与宽进严出是相辅相成的，高淘汰率的压力是保证学生认真学习的关键，是其大胆将评教结果运用到人事目的的底气。同时，美国高校的行政与教员之间是服务关系，而非管理关系，比较尊重与在乎教员的意见与建议，有问题也比较容易得到解决。我国既没有严格的学生淘汰制，也没有评教的评审制度与良好的反馈制度，加上教学与行政人员之间的隔膜，这些都不利于系统的整体改进，不利于发现与解决评教双重失效的问题。其实，美国式的管理并非总是好的，也并不总是适合我国。诚如质量管理大师戴明所说：美国什么东西都可以输出，但是就是不能输出管理，但不幸的是，美国管理已经蔓延至全世界。[29]

评估中的“因用而废”现象会导致评教的失效。这一现象与绩效测量标准的自身变化特点有关，即随着时间的流逝，绩效测量标准会由于进步学习、退步学习、选择、抑制及社会共识等原因逐步失效。[30]所谓进步学习是指人们在绩效相互观察和趋同的过程中发生的学习，使得绩效标准在执行过程中其变异减弱。退步学习意味着学习了错误的教训，从表面看绩效改善了，实际上真实的绩效并没有改变，甚至更糟。选择的意思是组织在绩效考核时会留下绩效出色的，淘汰差的，以至于绩效标准失去了原先的甄别能力。抑制是指绩效的差异往往受到抑制，尤其当绩效差异持续存在时，即便个体绩效存在显著差异的情况下，绩效评分会悄悄滑向高分一端，这也使得绩效指标的变异性减弱。社会共识指的是群体对某种标准或者事物看法的一致与否影响到评估者对其绩效的判定。

评教系统是一个控制系统，而控制的特点是，哪里有控制哪里就有反抗。绩效评估是人力资源管理控制系统中的一环。[31]当控制系统对人的行为进行控制时，并不能像控制任务和机器那样达到期望的结果。因为组织并不是一架精密的机器，而是由人组成的，人会对控制尤其是严密的控制产生反抗或者抵制。组织的管理者发现，作为被考核者都会想方设法影响考核结果。[32]因此，通过严密的管理控制系统以提升组织绩效的方法已经遭到越来越多的抵制与反抗，具体表现为机械的官僚行为、策略性的行为和抵制行为。[33]作为组织，在设计评估系统时就需要综合考虑到系统的反作用力对之的影响，采取相应的措施及时了解组织成员对组织制度与系统的意见与感受，以抵消或者减弱反控制的力量，营造和谐的组织氛围。

没有认识到评教系统与其他评估系统的关系及影响。教员的绩效由三个方面构成：教学、科研、项目。虽然教学排在第一位，但实际上真正对教员职称起决定作用的是后两者。而职称对教员来说，既重要又紧急，它决定了稀缺的时间与精力绝大部分分配在科研与项目上，而非教学上。从人力资本属性上看，科研与项目属于流动性资本，可以随着教员的流动而转移，教学更多具有专用人力资本的特点，很难随工作地点的变动而转移。聘任制下的教员失去安全感，具有增加流动资本，减少或者抵制专用资本对自己时间与精力的侵占的倾向。因此，注重评教系统与组织其他系统之间的联系而非简单地将评教作为杀手锏，更有利于问题的解决。

研究发现组织内成员对组织的满意感从来是一个综合的对组织整体状况的感受。其受组织情景因素的影响最大（占40%到60%），评价者个人特征因素次之（占10%到30%），两者的相互作用最小（10%到20%）。[34]与个人特征因素相比，组织情景因素是更为重要的影响因素。这种态度固然受被评价者（即教员）的影响，但是更受其对组织的整体态度，及自身因素的影响。正如戴明所说，员工方面的问题94%是组织的问题。[35]

以事件解决事件，头痛医头脚痛医脚，而不去思考事件背后深层次的原因是评教问题产生的领导方面的问题。组织因为要以学生为本，便简单地采取控制教员的做法，不考虑这一手段的前因变量，控制变量，系统的设计，以及该系统与其他系统的制衡与平衡，更没有考虑到在以学生为本的同时另一个不可忽视的因素是以教员为本。正如企业界所流行的，没有满意的员工，就没有满意的顾客。那么，没有满意的教员何来满意的学生？

评教结果不仅应该剔除我们前所述的控制变量或者调节与中介变量，还应该考虑到评估系统设计的因素，组织系统的政治因素，系统自身变化的特点，以及反控制因素等组织情景因素对之的影响。评教结果一方面作为诊断评价双方问题的依据，另一方面应该主要作为学校反思自身存在问题的契机，而不应单纯将之作为奖惩教员的依据。即便是公开评教结果，加大对教员的奖惩力度，其能够对组织绩效提升的影响也非常有限。因为教员作为整个系统中的一份子，其所能够左右的东西有限，组织层面的问题与学生层面的问题不能依靠教员的一己之力予以改变。所以组织需要反思与修正评价系统的问题，完善组织方面的不足。

总之，评教系统双重失效的原因或许是多样的，但是评教目的与手段的混淆是最主要最直接的原因。其次是将评教简单化，忽视其有效边界，没有意识到评教是一个系统，评教系统的设计与系统因素之间协调一致对评教的影响。更为重要的是，忽略作为组织系统的一个子系统，评教不可能不受组织系统因素的影响。因此，本文认为，评教应该是组织、教师和学生共同改进的契机。

三、建议

（一）明确评教的目的与有效边界

鉴于将评教结果运用人事目的所带来的评价失真的问题，首先管理者应该明确自己的责任不是监督而是领导，应致力于提高教员的质量理念。高校需要回归学生评教的目的性：即重在反馈而不是奖惩，重在提高教员的教学水平，而不是为了秋后算账。同时，以人事决策为目的的调查不可简单地使用平均数，可考虑使用中位数，必须排除评价者的个体特征因素及课程特征因素对之的影响；采用多信息来源的评价方式，比如督导评教，同事评价，考核委员会等多种形式，将学生评教作为参考之一，而不是唯一来源。这样不仅可以得到全面真实的信息，而且有助于提高教员维护教学质量的积极性与热情。

评教结果受很多控制变量的影响，其中有很多属于教员不可控因素，因此不可只是将其简单公布了事。评教系统中应预先设置控制这些变量的程序，在正式反馈前认真分析控制变量，属于组织层面的问题反馈给领导及相关职能部门，属于学生方面的问题，需要组织通过相应的制度与措施加以解决，这样才能给教员客观公正的反馈。准确的反馈意见既有利于促进教员有针对性的改进自身问题，而且教员可以做出符合学生及组织预期的改进，从而调动学生建言献策的积极性。

（二）完善组织的绩效评估系统

评价失效很大程度上是由评教系统的设计问题引起的。因此，通过评教和奖惩教员不仅不能改变组织的问题，也无法提高组织绩效。这要求组织首先加强过程控制，尤其需要做好前馈控制，建立集体备课制，确保投入正确的“质量要素”，而不是只做事后诸葛亮；其次根据学生与教员关系的微妙性，建立第三方的信息反馈渠道，将学生对教员及课程的意见及时反馈给教员，以便将不良的绩效控制在过程之中。针对评教系统中存在的教员绩效定义、绩效指标与标准的问题，应该建立与组织战略目标一致的教员绩效定义，将组织战略目标层层分解到评教指标中。评价指标能够真实地反映学校的战略目标，担负传递组织价值观的任务。从关注任务绩效转变到重点关心教员的关系绩效，以减少评价内容狭隘性和误导性，并尽量用行为化或者是描述性的评价标准，减少评价标准的主观色彩，增加评教的客观性及反馈的准确性与针对性。与高校的使命与价值观对应，确立纵向的绩效评估制度，即注重教员未来绩效提高方面，而不是仅仅纠缠于其过去的以及与其他教员相比之下的绩效。针对大学生及其评教的特点，学校必须定期开展学生评教培训工作，通过各种途径让学生学习有关评教知识，掌握评教技能与素质，使其了解、熟悉评教的方式方法及在评价中应该注意的一些问题，从而自觉运用评教理论指导评教实践，增加评教的信度。针对评估系统在评审反馈申诉方面的欠缺，成立教员绩效评估委员会，由管理者、专家、教员及学生代表共同组成，以保证评教体系的科学性和有效性；在发放评教结果的同时也发放教员反馈意见表，用以收集教员对评教结果的意见或建议，以不断改进评教系统。建立基于反馈系统的教员绩效改进与培训计划，解决现在只评教，而无教员改进计划和系统培训计划的弊端。

（三）评教结果为组织改进提供反馈信息

绩效评价系统的建立并不意味着可以一劳永逸，需要动态调整，以适应绩效测量工具逐渐失去变异性的特点。把评教结果仅仅作为反馈的手段，加强对评价者的培训等措施有助于减少和削弱评教的政治色彩及反控制效应。此外，利用竞争优势效应与合作优势效应也是很好的解决方法，比如基础课或者专业课用导师组的方式上课，既有利于教员间的相互学习，也有利于其相互比较与提升。组织需要综合协调各评估系统的权重分布，以便合理地引导教员的绩效与行为，减弱评教系统与其他评估系统的矛盾。组织需要用系统的观念，加强师生员工之间的沟通，建立组织信任、尊重的良好氛围，减少师生之间以及组织员工之间的对立与隔膜，注重与培养员工的关系绩效[36]，以提升教员的利他行为、利组织行为及利工作或任务行为，从而减少和削弱员工对管理控制系统的抵制与反抗。与此同时，加强成员的满意感调查，了解组织问题之所在，也体现出尊重、信任和体贴组织成员的文化，化解由控制系统带来不满与反抗。这些策略只有在组织层面才有改变的能力与改变的可能。因此，评教结果不应仅是给教员提供反馈，更是学校反思自身存在问题的契机。

（四）显而易见的解决方法往往无效

领导的目的不只是找出人们过去的失败，而且还要消除失败的原因，让员工花更少的时间就可以把工作做得更好。把变异、麻烦、失误、犯错、低产量及大多数意外的“共同原因”去除，是管理阶层的首要责任，但是“共同原因”还会接二连三地不断出现。其次，必须改进整个系统，使每个人能持续把工作做得更好、更满意。再次，处于系统内的绩效表现愈来愈稳定，让人与人之间的明显差异不断消除。而这些都需假以时日，绝非可以一蹴而就。

对付分数膨胀与等级膨胀最简单的方法是规定学生的分数和教员的绩效等级呈正态分布，这种方法当然有效，但这只是治标之术，不能达到治本之目的。同时，也与高分数的假性缺乏的原则相悖。[37]戴明所说的高分数的假性缺乏是指由评分与排名导致的现象，他认为好的学生和好的员工并不缺乏，为什么不能全班都得最高分，没有人垫底。当然，由于系统问题而产生的分数膨胀和等级膨胀与高分数的假性缺乏表面相同，但是有本质上的差异。

总之，以上建议是相辅相成的，明确评教的本性是解决分数膨胀及等级膨胀的关键；同时，重视评教的控制变量是解决评教问题的第一步；完善评教系统，有助于解决只是从教师身上寻找问题根源的思维定势与路径依赖。当然，最终需要组织整个系统的力量才能从根本上解决问题。

（感谢陈春声教授在论文写作过程中的宝贵意见！）

注释：

①本问卷的调查对象为部属A高校的全日制本科生，共计发放问卷400份，回收368份，有效问卷365份。男女生与文理科人数大致平衡。没有在教员中大规模发放问卷，只是做了一些访谈。该研究数据主要从学生角度进行的。在这里要特别感谢李泽华同学在问卷发放过程中所付出的辛勤劳动！

②本文认为，在评教结果作为人事决策的政策下，评教压力主要是针对教授以下的教员，因为这类教员的评教分数决定了他们在职称评审中会不会因此被否决，因此不能做到无欲则刚。所以，他们的反应比较能够说明问题。因此，有些副教授升到教授之后的第一个反应往往是自己可以特立独行了。当然，有些失去升职的希望与可能的教员也有可能做到比较超脱，本文选择访谈对象时也排除了这些人。

③新教员不适宜参加评估，组织应该给新教员三年的适应期。

④某学院随机抽取的14个较多给大学生上课的副教授及少数讲师网上评教的平均得分情况。

⑤学生评估的数量在20或20以上时，学生评估的可靠性就能通过最好的客观测验。而对班级规模在50-100人之间，分数则较低；人数在30人以下，与超过100人的班级教员易得高分。

上一条：高校优势学科群形成过程探析下一条：分数膨胀与等级膨胀：评教系统双重失效原因探析(一)