Objectieve scriptie evaluatie ? Of eerder “keeping up appearances” !

Samenvatting uit: ScienceGuide, 11 februari 2020

Een scriptiebeoordeling past niet in een schema

Opinie | door Menno van der Schoot

https://www.scienceguide.nl/2020/02/een-scriptiebeoordeling-past-niet-in-een-schema/

In het hoger onderwijs heerst in toenemende mate een cultuur waarin begrippen als controleerbaarheid, meetbaarheid, en standaardisatie de toon aangeven. Docenten worden steeds meer in een keurslijf geplaatst om het meten en controleren mogelijk te maken, waardoor zij hun autonomie en vakmanschap bekneld zien raken onder een deken van regels en procedures.

Een goed voorbeeld van die alom aanwezige beheerszucht betreft de onstuitbare opmars van digitale beoordelingsschema’s (ook wel rubrics genoemd), waarbij ‘schema’ onschuldiger klinkt dan het beoordelingsharnas dat het voor veel docenten in werkelijkheid is.

Gedaald vertrouwen in docenten leidt tot verantwoordingscultus

Nog niet zo lang geleden werd het oordeel over leerresultaten (scripties, onderzoeksverslagen, thesen, stageverslagen, etc.) overgelaten aan de professionaliteit van docenten. Zij werden op grond van hun opleiding, kennis, kunde en ervaring bekwaam geacht om studentenwerk adequaat te beoordelen. Dat vertrouwen is de laatste jaren geslonken. Mede onder druk van de toenemende juridische betwistingen wordt door overheid en schoolbesturen een verantwoordingscultus opgelegd. Het vertrouwen in studentbeoordeling door de docent is geleidelijk aan verschoven naar vertrouwen in studentbeoordeling door ‘het systeem’. In dit geval een systematiek in de vorm van een digitaal beoordelingsschema dat is ingericht op meetbaarheid, controleerbaarheid (transparantie), standaardisatie, en uniformiteit. Zo’n schema bestaat uit een lange lijst criteria waarop docenten het studentenwerk dienen te evalueren.

Voorbeeld: https://toetsing.uva.nl/binaries/content/assets/subsites/toetsing/rubric—thw-criteria-cijfers-ba-scriptiebeoordelingen.pdf

Weg van de willekeur?

Door beoordelingsschalen op logisch-analytische wijze te structureren kan een transparante correspondentie worden gegarandeerd tussen de inhoudelijke kwaliteitsoordelen van de docent en het toegekende eindcijfer. Maar kan de kwaliteit van een scriptie wel gelijk worden gesteld aan de optelsom van de kwaliteit van de onderdelen waar het uit bestaat?

Schijnobjectiviteit

Hoe zit het allereerst met de objectiviteit die rubrics zouden waarborgen? Kan de ‘subjectiviteit’ die bij een complexe beoordeling komt kijken teniet worden gedaan door de beoordelaar een afvinklijst van ‘objectieve’ prestatie-criteria te geven? Een rubric verschaft de docent weliswaar de criteria waarop hij een student dient te beoordelen, maar biedt verder geen ‘sturende handvatten’ bij het vormen van die oordelen, hoe objectief en fijnmazig de criteria ook zijn beschreven. Uiteindelijk komt het bij het beoordelen van studentenwerk aan op de interpretaties van de criteria, en de inschatting van de kwaliteit en waarde van het geleverde werk bínnen die interpretaties. En ja, die interpretaties en kwaliteitsinschattingen zijn in sterke mate onderhevig aan de subjectiviteit van de docent.

De beoordelaar blijft een factor

De belangrijkste bron van subjectiviteit zit in de verschillen die er nu eenmaal bestaan tussen docenten op kenmerken die van invloed zijn op hun oordeelsvorming. Accepteer dat docenten verschillen in hun beoordelingsstijl, accepteer dat je betrekkelijk weinig aan die verschillen kunt veranderen, en accepteer dat er vanwege die verschillen altijd een zekere beoordelingsbias zal zitten in de door docenten toegekende cijfers. Het is een illusie om te denken dat een rubric het oordeel over complex studentenwerk zodanig kan objectiveren dat het ongevoelig wordt voor beoordelaarseffecten.

Het belang van ervaring

De beoordelaar blijft dus een factor van betekenis, alhoewel er hier wel een onderscheid gemaakt moet worden tussen ervaren en minder ervaren docenten. Hoe meer studenten een docent in het verleden heeft begeleid en beoordeeld, hoe sterker zich in zijn hoofd een ‘eigen norm’ heeft gevormd betreffende het gemiddelde niveau van studenten. Het is veilig om te veronderstellen dat hij deze norm vervolgens, bewust of onbewust, zal gebruiken om het niveau van zijn huidige studenten tegen af te zetten.

Het probleem waar ervaren docenten tegenaan lopen is dat de (eind)beoordeling waar de rubric-scores hen naartoe leiden niet altijd overeenkomt met de beoordeling waar zij op basis van hun ‘eigen normen en standaarden’ op zouden uitkomen. Dit dilemma zie je nogal eens terug in de manier waarop zij rubrics strategisch invullen, zodat hun toegekende deelscores aan het eind precies optellen tot de eindbeoordeling die ze vooraf al in hun hoofd hadden.

De rubric als weerspiegeling van een complexe cognitieve prestatie

Een andere basisaanname achter het gebruik van rubrics is dat de kwaliteit van studentproducten en de processen waarlangs die producten tot stand komen kan worden uitgedrukt in termen van een scoreprofiel op een standaardverzameling van voorgekookte en nauw geformuleerde prestatie-indicatoren. Deze vooronderstelling start vanuit het idee dat een bepaalde academische vaardigheid, zoals het schrijven van een scriptie, kan worden ontbonden in een eindig aantal dimensies waarop de vaardigheid dient te worden beoordeeld.

Eén beoordelingsbril voor álle scripties?

Een ander probleem dat kleeft aan het gebruik van rubrics houdt niet alleen verband met het aantal evaluatiecriteria en de inhoud daarvan, maar ook met hun weging. De criteria waarop een studentenwerk beoordeeld wordt wegen verschillend mee voor het eindcijfer. En dat is op zichzelf terecht. Maar wie of wat bepaalt, en op basis waarvan, hoevéél het ene criterium zwaarder meeweegt dan het andere? Het gebruik van een one-size-fits-all rubric doet geen recht aan deze rijke verscheidenheid aan prestaties die studenten kunnen etaleren. Iedere scriptie gaat immers door precies dezelfde mal. Dit betekent dat elk prestatie-onderdeel in elke scriptie even zwaar meeweegt in de eindcijferberekening, ongeacht de aard, omvang en complexiteit van de eisen die het onderdeel in een individueel traject stelt.

Strategisch handelen is niet hetzelfde als leren

De reductionistische eigenschappen van rubrics werken ook de andere kant op. Ze schieten niet alleen tekort in het erkennen van originaliteit en het vangen van intellectuele complexiteit. Voor een deel van de studenten zullen de beoordelingsschema’s betekenen dat ze minder origineel en creatief te werk gaan.

Met de paplepel

Het voorkauwen van een leeropdracht in hapklare brokken staat in de literatuur bekend als ‘spoon feeding’ (Smith, 2008), en het grootste gevaar waarop gewezen wordt is ‘criteria compliance’, een fenomeen dat onlangs kernachtig is beschreven door een groep Engelse onderwijsonderzoekers in het wetenschappelijke tijdschrift Frontiers in Education:

‘Some students may use explicit criteria to focus on exactly what needs to be done to reach a desired level of achievement, rather than actually learning material fully. Students’ and teachers’ conceptions of learning play a role in this; if teachers simply supply assessment requirements to students in a transactional manner, so they can passively “check boxes”, it is unlikely that students will engage with the criteria in a way that will develop their learning and self-regulation’ (Balloo et al., 2018).’

Door de bomen het bos niet meer zien

Rubrics hebben vermoedelijk eenzelfde soort blikvernauwend effect op docenten. Hun kijk op studentenwerk zal versmallen omdat de rubric hen, bewust of onbewust, dwingt in de richting van het herkennen van eigenschappen van het werk die beschreven staan in de prestatie-criteria. Het verplicht moeten afvinken hiervan zal in ieder geval niet bijdragen aan het vormen van een oordeel vanuit hun eigen vakmanschap, ervaring, kennis en kunde.

Niet meer maar minder valide beoordeling

Met de opmars van het rubric-denken verdwijnt het belang van een meer integrale, holistische lezing van studentenwerk steeds meer naar de achtergrond. In het eerste geval wordt de ‘betekenis’ van het werk gereduceerd tot de losse prestaties op de onderdelen waar het werk uit bestaat. In het tweede geval wordt het werk meer als geheel beschouwd. Dit vanuit het idee dat de betekenis en oorspronkelijkheid van creatief-intellectueel werk schuilgaan in context en samenhang, en dat je die niet, of veel moeilijker, kunt vinden in een beschouwing-op-onderdelen. In dit licht kun je haast niet tot een andere conclusie komen dan dat het gebruik van rubrics niet tot méér valide maar juist tot minder valide beoordelingen leidt.

Nabeschouwing

Alles overwegende lijkt de tijd rijp om als onderwijsmanagement en docentenkorps de handen ineen te slaan, en gezamenlijk te kijken naar alternatieve beoordelingswijzen voor rubrics, en daarmee tevens naar oplossingen voor het aan studenten ‘spoon feeden’ van de criteria waar hun werk aan moet voldoen.

M	D	W	D	V	Z	Z
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31