“1+X”证书制度建设对技术技能人才评价的挑战——世界技能大赛试题的启发

2020-04-01 14:06:43 赵志群孙钰林等责任编辑：小米

分享到：

《国家职业教育改革实施方案》启动职业院校和应用型本科的“1+X”证书制度试点工作，这是我国证书制度建设的一次重要探索，对职业教育人才培养质量保证具有重要的影响，其成功实施的基础是高质量的技能考试。世界技能大赛是全球最具影响力的技能考试。

　　《国家职业教育改革实施方案》启动职业院校和应用型本科的“1+X”证书制度试点工作，这是我国证书制度建设的一次重要探索，对职业教育人才培养质量保证具有重要的影响，其成功实施的基础是高质量的技能考试。世界技能大赛是全球最具影响力的技能考试。分析发现，“世赛”试题具有采用反映典型工作任务的竞赛题目、真实性评价考试模式、分析性量规，以及主、客观评分相补充的评分标准等特点。这启发我们，在“1+X”技能考试的设计中，应全面理解当代社会“技能”的涵义，采用真实性评价设计策略，关注行动能力，并借鉴能力测评理论开发高质量情境性考试题目。

一

“1+X”证书制度对技能评价技术的新要求

国务院颁布实施的《国家职业教育改革实施方案》(简称“职教20条”)提出在职业院校和应用型本科高校启动“学历证书+职业技能等级证书”(即“1+X”证书)试点工作，这是我国在双证书基础上进行职业证书制度建设的又一次重要探索。2019年4月教育部会同国家发展改革委等制定的《关于在院校实施“学历证书+若干职业技能等级证书”制度试点方案》明确提出“坚持以学生为中心，深化复合型技术技能人才培养培训模式和评价模式改革”的要求，把“1+X”证书制度作为“指导职业教育教学改革，提高人才培养质量，畅通技术技能人才成长通道，拓展就业创业本领”的重要手段，这赋予了“1+X”证书制度在指导人才培养质量提高方面的重大历史使命。

“1+X”证书制度建设在给职业教育发展带来机遇的同时，也面临着诸多挑战。回顾历史我们不难发现，我国双证书制度之所以没有取得完全成功的一个重要原因，就是职业资格证书考试的质量问题，即技能评价结果预测效度不高，没有完全反映企业对技术技能人才的真实要求，以至于最终没有被社会所认可。从目前公布的“X”证书试点资料看，业界对技能证书的内容和考试方式理解还很模糊。要想保证“1+X”证书制度成功实施，必须保证“X”技能评价的科学性，即技能评价要满足效度、信度、区分度和客观性等测评技术标准的要求。

技能评价是社会组织根据特定职业(或岗位)的技能要求，采用一定测量工具对特定人群进行的考试、测量和评估。传统的技能考试采用“知识+实践技能”考试方式，其中知识考试一般通过多种方式的笔试进行，实践技能部分通过对考生现场或模拟操作行为过程和结果的观察进行评分。随着人类工作活动复杂程度的提高，技能的内涵发生了深刻的变化，这直接影响了考试的方式和方法。一方面，研究发现，除了简单动手操作行为(如打字录入和点钞等)外，通过观察法进行的技能考试的结果信度很低，特别是在对心智技能要求较高的专业领域，这种行为导向的考试的局限性更大，更无法满足信息技术日新月异发展对专业考试的质量要求。另一方面，“引导行动的知识”的诊断方法也是一个巨大的难题。例如，如何确定究竟是哪些具体的知识片段能够决定专业人员是否可以完成工作任务？如何组合、以及按照什么顺序组合多种知识诊断方法，才能有效地判断出不同类型的知识(如条件知识、因果知识、程序知识和工具知识等等）。解决这些问题，也是利用人工智能技术实现复杂生产过程自动化的基础。

当今社会，信息技术发展在很大程度上改变了我们的工作和生活，互联网和人工智能更是开启了“工业4.0”的新时代。基于信息物理系统(CPS)的智能化、产品全生命周期的全制造流程数字化，催生了高度灵活和个性化生产与服务模式的建立，这对技术技能人才的职业能力和综合素养提出了新的更高的要求。技术人员要在最短时间内熟悉工作过程和工作环境，适时对工况进行准确认知，并做出合理的决策。数字化工作和学习方式扩大了对“人—机协作”模式和生产组织的设计空间，技术人员必须对“可能性世界”进行深入的理解和探索，这需要具备更高的制定计划、判断决策和分析复杂系统的能力，“技术正被深深地嵌入在社会情境中，并为各种复杂价值关系所左右”。这说明，在未来的技能评价过程中，必须用整体化的观念对待工作和技术的关系，在相对弱化简单和重复性操作技能的同时，加强对诸如技术敏感性等高层次实践能力的评价，从而促进学习者的“价值理性”和“事实性评价能力”的发展，这对技能评价技术提出了新的要求。

技能评价是人力资源管理的经典课题，也是一个世界性的难题，“1+X”制度的技能评价必须反映技术技能人才的发展性目标和职业规范的双重要求。国际的发展趋势是采用表现性评价方式，即采用在具体工作情境中针对复杂内容的开发性试题。这种基于建构主义的考评方式克服了传统标准化测验仅能考查书本知识的弊端，但是需要大量的组织和时间投入，这无疑又对教育技术研究提出了新的挑战，即：是否有可能开发针对开放性试题的自动评分系统？当前，深度学习等人工智能技术，特别是自然语言处理、复杂网络分析、异常诊断技术在知识产权保护、信息检索等领域已有重要的应用，这为未来的技能考试及其自动化评分系统设计提供了启发。

在技能评价领域，技能大(竞)赛是一种特殊的考试方式。世界技能大赛(World Skills Competition，下文简称“世赛”)是全球最具影响力的技能大赛，它在促进全球青年技能工作者(主要是职业院校学生)技能提升方面起到了积极作用，被誉为是技能领域的“世界奥林匹克”。对于专业技术水平和职业素质的检验，“世赛”有一整套更为准确和全面评价方法，对“世赛”的考试题目设计开展研究，可以为“1+X”证书制度的建立和发展提供方法和技术上的支持。

二

世界技能大赛的题目及评分标准分析

技能竞赛是为了解职业教育培训的成效，利用竞争形式对职业技能进行评价和激励的社会活动。与我国目前重要的技能考试，如职业院校技能大赛和高职院校招生的技能高考相比，“世赛”在竞赛目的、赛项设置、考核环境、考核内容和评分标准等方面有很多独特做法。限于篇幅，本文讨论“世赛”的考核内容和评分标准对技能考试设计的启发。

(一)反映典型工作任务的竞赛题目

世界技能大赛赛项涉及信息与通信技术、制造与工程技术、创意艺术与时尚等国民经济的六大主要领域，包括企业生产和社会生活所需的多数技能。“世赛”试题设计的基本理念是：职业技能无法通过一道考试题来考察和甄别，每个赛项的试题都是由一组内容相互关联的题目组成，被称之为“模块”。如第44届“世赛”“商务软件解决方案”赛项试题由5个模块组成，比赛时间共计20小时。其中，模块一“分析和设计软件解决方案(4小时)”要求选手按照给定商业案例，使用系统建模技术进行分析、确定软件功能模块、绘制核心业务流程UML图、绘制数据库ER图、设计数据字典并完成数据分析与处理；模块二“开发软件解决方案(13小时)”要求对功能进行代码实现，开发客户端服务器系统、网络和移动终端接口；模块三“测试软件解决方案(1小时)”对所开发的系统进行全面测试，编制测试报告；模块四“编写软件解决方案技术文档(1小时)”，为日后软件系统升级维护提供指导；模块五“制作解决方案PPT(1小时)”总结提炼开发思路、系统实现的功能。可以看出，“世赛”题目是一个工作过程结构完整的综合性工作任务。

整体上说，“世赛”试题体现了人文主义的技术观，它将社会价值融入到技术的设计与使用过程中，完整地展现了技术与社会文化间的互动，体现了技术的自然属性和社会属性的统一。又如“世赛”“网络设计”赛项有四个模块，分别是“设计”“布局”“客户端”和“服务器端”。其中“客户端”又分为两个子模块，即“客户端A——拼图”和“客户端B——奥林匹克竞赛”。前者需要3小时完成，占总分值的14.75%；后者需要2小时完成，占总分值的10.25%，两项合计占总分值的25%。

可以看出，“世赛”试题是按照职业的“典型工作任务”(Professional Task，建立在工业社会学理论基础上的职业教育学概念)理念设计的，即“代表着一个职业的专业化水平的任务”。网络设计赛项是编程工程师或程序员职业的典型工作任务，它有以下特征：(1)工作过程结构完整，包括获取信息、制定计划、决策、实施、检查控制和评估反思等环节；(2)涉及所有的工作要素，如工作的对象、工具、材料、工作方法、工作组织形式和工作要求；(3)工作的结果或工作流程具有一定开放性；(4)能够促进从业者职业能力的发展。尽管“世赛”试题会提前半年公布，但是最终比赛时具体内容和要求仍然会有30%的变化。完成此类任务需要很强的综合职业能力，特别是获取信息、学习新知和解决问题的能力，这对选手的专业知识、技能和技巧，以及学习能力提出了很大挑战。由于比赛现场有很大的发挥空间，选手还需要有较强的现场反应能力和创新能力。

(二)涉及范围广的分析性量规

为了判断工作表现和任务完成情况，技能考试一般会采用两种不同类型的量规，即“整体性量规”和“分析性量规”。“世赛”采用分析性量规，其特点是内容精确，对细节进行详细的描述。如网络设计赛项满分100分，分163个评分点，其中最大的评分点3分，最小评分点仅为0.15分。在我们分析的两个模块“客户端A——拼图”和“客户端B——奥林匹克竞赛”中，最大的评分点为2，最小为0.15。如评分点“应用程序中提供的动画的质量(旋转件、提升件、显示模态)”赋分0.7分，分4个等级，即“所有事件都没有动画”“使用简单或较差的动画”“有些动画很好，有些则很差”和“所有的动画都很好”，藉此可以准确评分。可以看出，“世赛”的评分方式与我国传统技术技能考试有较大差别。后者一般采用整体性量规，综合考虑多方面要求，概括性强但不够精细。例如，湖北省的技能高考是我国目前组织较为严密，设计精致的技能高考，代表着我国的高水平技能考试设计。2019年湖北省计算机类技能高考的“操作”部分共有8个部分考核项目，如电子表格处理、幻灯片制作、计算机网络应用等，它们都是根据总体结果进行评判的。即便在其他一些操作性比较强的专业如汽车维修，尽管加入了操作安全方面的要求，如“造成人身、设备重大事故……，立即终止考试，扣8分”等等，但这里采用的仍然是整体性量规。

分析性量规不是简单的操作技能标准，也不是用来考核学生书本知识的积累水平，而是来源于企业生产实际或产品质量的真实技术标准，它不仅针对最终作品的完成情况和技术水平，而且还关注整个工作过程的质量，反映行业的规范性要求，这不但为主观性评分提供了质量保障，也为职业素养的评估提供了可能。

(三)采用真实性评价方式

传统的技能考试通过行为观察法和标准化考试衡量考生对专业知识和技能的掌握程度，而“世赛”通过与现实工作世界类似的真实性任务，让选手应用专业知识、技能和策略解决问题，展现其对知识的理解水平和应用能力，这反映了“真实性评价策略”，即通过完成与工作情境相似的真实性任务展示知识技能的应用能力。从以上案例可以看出，“世赛”试题反映的基于情境学习理论的真实性评价策略的特点是：(1)基于工作实践中具有完整工作过程的真实工作任务，不把职业活动分割成更小的子任务或操作单元；(2)评价标准包括内容标准、过程标准和价值标准等多个维度，按照企业要求进行全面评估，而不仅仅考核知识技能点的学习获得；(3)评价量规细致全面，包括评分标准陈述和等级达成度。通过真实性工作任务考查解决专业问题的能力，可反映选手对复杂工作的理解和把握程度以及相关实践经验，这克服了传统标准化考试仅能考察低水平书本知识和孤立操作技能的局限性，体现了职业的效度。

“世赛”评分标准按照企业实际工艺标准和产品精度要求制定，这与我国通常做法不同，后者主要围绕教育主管部门或学校制定的教学标准建立标准体系。真实性评价不仅关注工作结果，还关注工作中的技能细节，其评价的环境、方式和内容均需反映真实工作世界的要求，这体现了建构主义学习理念，即知识是在具体工作情境中由主体建构的。

(四)主观性评分和客观评分相互补充

正常情况下，典型工作任务没有唯一正确的答案或工艺流程，如软件开发和网络设计等，裁判的个人偏好和主观感受会对评判结果产生重要影响。为了降低评分的随意性，提高评分信度和可操作性，“世赛”采用了主观评分和客观评分两部分评分标准。如“路标和终点要求”部分有六个客观分评分点，两个主观分评分点。主观评分标准分四档，如“道路尽头奔跑的山丘的动画质量”这个主观评价指标下，“没有动画或跑步者直接出现在山顶”得0分，“跑步者在爬山时呈现出非常单一或较差的动画与相同的跑步动作”得1分，“跑步者爬山呈现出良好的动画效果”得2分，“跑步者沿着跑道爬山时呈现了一个出色的动画”得3分。三名裁判同时打分，当评分相差大于1时，差异较大的两名裁判需说明理由并降低分差，以保证评分者间信度。

客观分有严格的评判依据，也分两类。一类是“是”“否”判断，如“游戏打开时会显示欢迎屏幕”；另一类规定明确的扣分点，如“在每场比赛中，必须至少有5个障碍物在路上，随机放置在跑步场”，每错过一个障碍扣0.10，障碍物位置不随机扣0.25。与此相比，我国传统技能考试通常采用主观评分。例如，同样是设计类的技能大赛，全国高职院校服装设计与工艺技能大赛评分标准有6个评分项，如“服装整体效果美观；规格准确，比例协调；工艺精致，松度平衡”。但什么是“工艺精致，整体效果美观”？评分标准中未有说明，裁判需根据经验进行主观评判。可以看出，建立主、客观评分标准相互补充的评分标准，可更好地反映企业的实际，这不仅有利于考察被试学生的专业知识和技能，也有利于综合职业能力的评价。

三

世界技能大赛考试设计对X技能证书考试的启发

当前我国的技能考试方法存在很多问题，在技术上还很难完全支撑“1+X”制度的建立和发展，这表现在考试的理念和方法方面。“世赛”作为国际高水平的技能考试，为X证书制度的考试设计提供了范例。

(一)全面理解当代社会中的“技能”

技能是个体在已有知识和经验基础上，经过练习形成的规则性的动作体系，是“智力活动方式和肢体动作方式的复杂系统”。在现代技术和社会条件下，技能的涵义得到了极大的丰富。“世赛”的题目说明，技能已扩大到了“能力”的范畴。事实上，英文的Skill与能力(Competence)几乎是同义的，能力是“人们在程序化的资格考试中展示出来的技能”。技能的能力化发展趋势也反映在《欧洲资格框架》(European Qualification Framework)等国际有重要影响的法律法规文献中。据此，技能是“学习者应用知识以完成任务和解决问题的能力”，包括认知技能和操作技能。国务院“职教20条”明确指出“院校内实施的职业技能等级证书……，反映职业活动和个人职业生涯发展所需要的综合能力”。X证书的技能考试应当反映被试的综合能力发展水平，这意味着不仅要评价动手操作技能，而且还要评价认知技能(或称为心智技能)。由于认知技能具有动作对象的观念性、动作执行的内潜性和动作结构的简缩性等复杂性特征，对认知技能的鉴定无法通过简单的操作技能考试实现，这是“1+X”制度建设的一个主要技术性困难，在此必须关注有关能力评价的理论和实践。

(二)真实性评价的试题设计策略

从国际上看，建立技能等级(资格)证书最早是从经济学和人力资源管理的角度考虑的，主要采用行为主义评价方式，如英国的国家职业资格证书制度(NVQs)等。据此，技能作为“可利用的学习成果”，具有统一性和可被测量的特征；技能考试旨在考察“经过有目的、有组织反复练习形成的自动化的动作和技巧”。在现代社会，这种行为主义的操作技能考试无疑有很大的局限性，因为即便是雇主理解的技能也还包含一些其他属性，如可靠性、无监督工作的能力和稳定性等，这些无法通过行为观察评定的要素，恰恰是综合能力的重要组成部分。

在教育学视野中，技能考试需要关注认知和精神运动领域的内容，甚至个性化发展特征。例如按照情境学习理论，从事一项工作所需能力是在特定工作情境中被调查和获知的，这只能采用案例分析或民族志方法来评估；属于隐性知识范畴的工作过程知识也只能在特定情境下才能被辨识出来。高质量的技能考试需要在真实的工作情境中(以情境考试方式)进行，这是“世赛”对我们的重要启发。当然，针对不同级别技能的评价方法有所不同：对初、中级技能的评价相对简单，而高技能人才评价需要更复杂的综合性方法，有时甚至需要依据学习档案和工作业绩等成长记录。基于真实性评价理念的操作技能和认知技能发展考试范式，对X证书制度中较高级别和高新技术领域的技能认证，具有直接的指导作用。

(三)考试的重点是“行动能力”

“职教20条”要求X证书要反映综合能力发展水平，即反映与生涯发展相关的方法、知识、技能和价值观，这只能在具体的职业行动(Action)中表现出来，即X证书考试要考察学生的职业行动能力。

行动理论认为，“行动”和“行为”的最大区别在于是否具有意向性。行为是单纯的肢体运用，而行动具有意向性和社会属性，是一定社会语境下的行动，即：在行动之前分析问题、寻找可能的解决方案、比较判断并做出行动决策；在行动过程中遇到新情况时修正原来的行动方案或制定新的行动方案。行动过程就是能力的发展过程，需要遵守书面或经验性学习的规则。相应的，职业行动能力是“个人在特定职业、社会和私人情境中，进行缜密而恰当的思考并对个人和社会负责任行事的意愿和本领”。对行动能力的评价，只能采用综合性工作任务考试形式，考察考生在工作中的规划、实施、控制调试和总结反思的能力。

我国传统技能考试常把复杂任务简化成小的子任务，并对考试设备做一些人为的设定(预设故障等)，这在提高可行性的同时，却大大降低了任务的复杂性，因为碎片化的子任务和标准化试题无法体现综合能力的整体性要求。如何不把综合性任务分解成子任务(即符合亚里士多德的“整体大于部分之和”思想)而又能进行技能考试？“世赛”的考试题目和评分方法无疑具有重要的指导作用。职业行动能力概念的推广，是职业教育从“技能训练”发展到“能力发展”，反映了社会发展对技术技能人才要求的变化和提高。

(四)借鉴职业能力测评理论和方法

现代化的职业能力评价不仅关注能力发展的结果，而且还关注能力发展过程，这就在传统技能考试基础上发展出了第二种能力评价方式，即“能力测评”。二者的区别是：“考试”针对教学标准，考察对学习内容的掌握程度，有对错之分，反映课程的效度；“测评”评价与特定工作相关的认知特征和认知水平，针对职业能力发展状况，只有水平高低之分而没有标准答案，反映职业的效度。尽管有很大区别，但是能力测评方法仍然能为技能考试的方法设计提供参考。

职业能力测评旨在评估学生应用专业知识和技能解决实际工作问题的能力，可采用质性、量化和混合式的评价方法。质性方法可对被评价者的内隐特征进行考察，常见的如能力总结汇总法(Competence Balance)和能力护照(Qualipass)等。此类方法实施过程比较复杂，对评价人员的专业要求较高，与职业院校的过程性评价有很大联系，可作为院校实施“1+X”制度的参考和补充性工具。纯量化方法很难用于有效的技能评价，目前较多采用混合式测评方法，国际有影响的能力测评方法如COMET(职业能力与职业认同感测评，英语Competence Measurement的缩写)[33]、ASCOT(技术支持的技能与能力测评法，英语Technology-based Assessment of Skills and Competences in VET的缩写)[34]和SOLO(可观察学习结果结构法，英语Structure of the Observed Learning Outcome的缩写)均采用心理测量技术建立测评模型。实践证明，以“从初学者到专家”(From Novice to Expert)能力发展逻辑为基础建立的COMET职业能力测评法有较高的评价效度，其开放性的测试题目也被企业和学生所认可。这提醒我们，应考虑参照能力测评方法建立X技能考试模型，包括考试组织流程和评分模式(笔试、实操和口试)，以及全方位呈现考试结果的方式，既保证专业内容效度，又满足科学性要求。

(五)情境性考试题目的开发

行动能力评价的最大困难是开发情境性考试题目，即有助于观察和确立工作能力和态度的标准化案例性任务，它既要反映重要的实践价值，又要能藉此评判被试者的职业技能的高低。专家智能(Expertise)研究发现，只有完成典型工作任务过程中的问题解决方式才可以被抽象化和普世化，并被迁移到类似的工作任务中，对职业能力(技能)的全面评价只能在完成典型任务的过程中进行。教育家格鲁施卡(A.Gruschka)在发展性任务(Developmental Tasks)理论基础上定义了情境性考试任务，即被试在真实工作条件下进行工作，通过对其工作行为、工作成果的观察和必要时对特殊工作环节的解释，评价其职业能力发展水平，通过解决(或未成功解决)问题的方式，揭示实践问题解决策略，包括职业学习策略、专业化的工作策略和专业合作策略等。在情境考试中，考生以规划形式制定项目方案并详细说明理由，做实施准备，并将计划付诸实施；在口试中考生展示工作结果，对工作结果和过程进行自我评估，对实施结果偏离计划的情况进行说明。情境性考试与真实的工作过程联系紧密，这不但能对个体的职业能力进行评价，也为职业教育的课程和教学改革提供了重要的启发。

在信息化和智能化时代，一个社会组织在履行其管理和生产职能、建立高效的生产、服务和组织管理模式时，经济技术指标已经不是唯一的决策依据，员工的技能和综合素养具有重要的影响，包括基本技能、解决问题能力和创新能力，“工作的人性化设计”具有重要的意义。人性化的工作设计是智能化发展的必然要求，也是高素质技术技能人才成长的必要条件，这意味着职业教育必须实现从“适应导向”向“设计导向”的范式转变，培养的学生不仅要适应技术和社会的发展，还要有能力“本着对社会、经济和环境负责的态度，(参与)设计和塑造未来的技术和工作世界”。未来的职业教育人才评估应当按照“完整的行动模式”(Vollständige Handlung)，将考试题目设计成为学生全程参与的包括计划、实施和评价等步骤的完整的工作过程，避免过分精细的任务划分。这样，不但可以较好地解决促进学习者个性发展的“教育性目标”和适应企业岗位要求的“实用性目标”之间的矛盾，满足企业岗位工作的现实需求，也可以为学习者的全面发展奠定扎实的基础。从更高一个层次看，这也是我国职业教育实现立德树人教育目标的要求，即职业教育培养的不仅是简单的操作者和实施者，而是具有系统职业能力和领域特长的、德智体美劳全面发展的社会主义接班人和劳动者。

“世赛”在组织设计方面也为“1+X”制度建设提供了重要的借鉴经验，如建立权威的“实践专家”组织，依托行业部门推荐遴选权威专家而不仅仅是个别公司组织的专家团队，通过专家团队的权威性保证试题命制的科学性；完善组织实施过程，包括技术文件公布、合作企业遴选、技术平台和评判细节的确定等环节，而不仅仅由各“技能评价组织”确定，等等。“世赛”比赛过程全程开放观摩，对推动职业院校的课程和教学改革也有重要的示范作用。

返回顶部↑

更多>>精彩推荐