Forskning visar att elever lär bättre när lärare bedömer deras arbete. Samtidigt finns många missuppfattningar om hur det hela ska gå till.
Bedömning är en central process i all undervisning. Om elever lärde sig allt vi undervisade dem i skulle vi aldrig behöva bedöma – det skulle räcka med att vi skrev ned allt vi hade gått igenom. Men som varje lärare vet, lär många elever sig inte det som har ingått i undervisningen. När vi tar del av deras arbete är det faktiskt ibland så att vi undrar om de över huvud taget har varit närvarande i klassrummet. Det är i själva verket omöjligt att med säkerhet förutspå vad elever kommer att lära utifrån en viss sekvens av klassrumsaktiviteter. Och eftersom vi inte kan undervisa på ett bra sätt utan att veta var våra elever befinner sig, måste vi bedöma. Även om alla våra elever började från precis samma punkt (en högst osannolik situation!) skulle var och en av dem inom kort att ha nått olika förståelse av det studerade materialet. Det är därför som bedömning är bryggan mellan undervisning och lärande – det är bara genom bedömning som vi kan få reda på huruvida det som hänt i klassrummet har producerat det lärande som vi avsåg.
Självklart används bedömning även i andra syften inom utbildning, vilket komplicerar bilden. I alla länder bedöms enskilda elever för att avgöra vilka som är, och vilka som inte är, kvalificerade att fortsätta till nästa fas inom utbildningen och för att avgöra vilket slags utbildning elever borde få. I många länder används bedömning för att hålla lärare, skolor och myndigheter ansvariga gentemot föräldrar, skattebetalare och andra intressenter. Jag föreställer mig att det skulle vara svårt att hitta någon som tycker att de som tillhandahåller utbildning inte på något sätt ska behöva redovisa sin verksamhet för dem som betalat och för dem som tagit del av den, men i vissa länder har detta ändå fått kännbart negativa konsekvenser. I ett fåtal länder kan lärare avskedas och skolor stängas om elevers resultat på vissa tester bedöms vara otillräckliga.
På sätt och vis är den här önskan om att använda enskilda elevers resultat för att skapa ett system där ansvariga ställs till svars förståelig. I dag finns ganska starka bevis för att sådana system bidrar till att förbättra elevers prestationer lika mycket som om de studerat två månader extra. Men i varje enskilt fall där dessa ansvarsutkrävande system har implementerats har motstridiga och oavsedda konsekvenser avsevärt minskat, eller i vissa fall omintetgjort, systemets positiva effekter.
Det finns många orsaker till dessa oavsedda konsekvenser, men två är särskilt viktiga. Den första är att dessa ansvarsutkrävande system sällan är rättvisa mot lärare och skolor. Elevers resultat beror mer på vad de som individer lärt sig innan de började i skolan, olika socioekonomiska faktorer samt vilket stöd de får av sina föräldrar och andra familjemedlemmar än på skolans arbete. I Sverige var till exempel bara sex procent av elevernas resultat i naturvetenskapstesterna i Pisa 2006 avhängiga av skolan; resten berodde på faktorer som skolan inte hade någon kontroll över. Inget av länderna som deltog i Pisa det året kunde redovisa resultat där mer än en fjärdedel av variationen i elevers resultat kunde härledas till skolans insatser. Att hålla skolor och lärare ansvariga för något de inte har kontroll över förefaller strida mot vad som normalt uppfattas som rättvist, och därför finner många lärare och andra verksamma inom utbildningsfältet idén om ansvarsutkrävande tester så motbjudande. Men det är möjligt att skapa system med ”intelligent ansvarsutkrävande” (intelligent accountability) som tar hänsyn de faktorer skolor och lärare inte kan påverka, som elevers tidigare lärande, deras socioekonomiska status, deras etniska bakgrund och så vidare (det svenska verktyget SALSA är ett exempel på detta, redaktionens anmärkning). När detta är gjort ställs den traditionella rankingen av skolor på ända; skolor som tycks få goda resultat framstår som självbelåtna, eftersom den främsta framgångsfaktorn är deras förmåga att attrahera duktiga elever utan att man sedan tillför särskilt mycket, medan andra skolor med mer blygsamma resultat visar sig göra utomordentliga framsteg med elever med mindre privilegierad bakgrund.
Den andra viktiga orsaken till de oavsedda konsekvenserna är att det finns en tendens att använda samma resultat i flera olika syften eftersom resultat från bedömningar kan fylla flera funktioner. Man vill spara tid och pengar och minska bördan av prov och tester för elever. Trots att detta är lovvärda mål kan tillvägagångssättet leda till att inget av syftena med att bedöma uppfylls.
Ett intressant exempel på detta kom i dagen 1991. En amerikansk kommun som använde ett köpt standardiserat test fann att deras fjärdeklassare (i åldrarna tio till elva år) presterade väl över medel jämfört med den nationella normen för åldersgruppen. De låg cirka tre månader före i sitt lärande jämfört med fjärdeklassare i resten av landet. Året därpå använde kommunen ett annat test inom samma ämne, och upptäckte till sin förvåning att deras fjärdeklassare nu låg tre månader efter elever i samma årskurs. Under åren som följde förbättrades resultaten och tre år efter att det nya testet hade introducerats låg fjärdeklassarna än en gång tre månader längre fram än snittet. Samma år lät några forskare några av fjärdeklassarna i kommunen göra testet man hade frångått fyra år tidigare. Resultaten var att de låg tre månader efter det förväntade snittet för årskullen. Med andra ord hade lärarna blivit bättre och bättre på att undervisa om materialet som eleverna testades på, men elevernas prestationer i sådant de inte testades i blev sämre.
Ett annat exempel är hämtat från England där ett program för nationella prov introducerades 1998. Elevernas resultat på dessa prov har förbättrats, men resultaten på tester som används för att jämföra elever i olika länder, som Pisa och TIMsS, har försämrats. Dessa två exempel illustrerar ett mer generellt fenomen som är känt som Campbells lag: ”Ju mer en kvantitativ social indikator används som grund för socialt beslutsfattande, desto mer utsatt kommer den att vara för påverkan och desto mer benägen att förvränga och korrumpera de sociala processer som den var tänkt att följa”. I moderna utbildningssystem behöver vi sätt att beskriva elevers prestationer, men när vi använder enskilda elevers resultat för att dra slutsatser om skolors kvalitet, blir bedömningssystemen förvrängda på ett sätt som gör att resultaten blir mindre användbara indikatorer av vad enskilda elever uppnått. Den främsta orsaken till dessa förvrängningar är att bedömningar i de flesta länder bara täcker in en begränsad – och förutsägbar – del av det område de är tänkta att omfatta. Om vi vill bedöma hur väl en elev behärskar sitt modersmål borde vi utvärdera elevens förmåga att tala och lyssna samt förmågan att läsa och skriva, men få länder gör detta eftersom det är för tidskrävande och dyrt. På samma sätt har den som är bra på matematik en förmåga att förklara matematiska resonemang, konstruera bevis och på djupet utforska matematiska idéer, men återigen följer få länder upp detta.
Ett sätt att säkerställa att dessa svårbedömda aspekter av varje ämne trots allt inkluderas är att använda sig mer av de bedömningar som lärare gör i undervisningen, men också detta har visat sig vara problematiskt i många länder. I USA är betygssnittet den enskilt viktigaste information som universitet och högskolor använder sig av för att välja bland sökande. Snittet fås genom att omvandla de betyg en elev fått på sina kursuppgifter till siffror (A=4, B=3, C=2, D=1) och räkna ut snittet för varje kurs, samt för alla kurser sammanlagt. Detta resulterar i vad jag kallar för ”bankmodellen” där elever får behålla sitt betyg även om de sedan glömmer allt vad de kunde om ämnet. Modellen uppmuntrar alltså till en ytlig inställning till lärande och undervisning. Elever vet att de bara behöver minnas ämnesinnehållet i två till tre veckor tills de gjort provet, och att de sedan kan glömma alltihop. Det finns inget som sporrar dem att söka den djupare förståelse som krävs för att kunskapen ska finnas kvar länge. Lärarna tenderar att skapa prov som är lättfattliga, tydliga och som aldrig går utanför vad de har undervisat om; eftersom proven är förutsägbara gör motiverade elever väl ifrån sig och både elever och lärare känner tillfredsställelse.
Självklart är de alternativa system där all bedömning sker efter kursens slut och utförs av en extern part, som är fallet i Frankrike, Tyskland, Japan och många andra länder, inte bättre. I dessa länder deltar lärarna inte i bedömningen av sina elever, vilket gör att läraren kan koncentrera sig på att hjälpa varje elev att få bästa möjliga resultat, men eftersom bedömningen är begränsad blir det möjligt att ”undervisa inför provet” och även om lärare försöker ta ett bredare grepp på undervisningen, väcker det ofta motstånd hos eleverna som frågar: ”Men kommer det här på provet?”
Utmaningen är därför att skapa en bedömning som har en extern referens, sker ofta och löpande och är kumulativ. Bedömningssystemet måste ha externa referenser så att läraren ärligt kan säga till sin elev att ”det här är inte bara mina kriterier”. När det inte är läraren utan en annan auktoritet som formulerat de kriterier som eleverna måste uppnå, blir läraren fri att vara en coach i stället för en domare eller jury. När bedömningen sker löpande så att den omfattar hela kursen kommer de negativa effekterna av att läraren bara undervisar inför provet att minimeras. När bedömningen är kumulativ finns ingen anledning för elever och lärare att anta en ytlig inställning, för om materialet glöms bort måste det läras igen, eftersom det kommer att bedömas igen.
Det finns inte ett rätt sätt att nå dessa ideal, för varje system för bedömning måste ta hänsyn till den kultur i vilken det kommer att användas. I ett land där det finns en stor tilltro till lärares professionalism går det att få politiskt stöd för system som skulle vara svåra att tolerera i andra länder där den sortens tilltro saknas. Det viktigaste är att bedömningssystemet, så långt det är möjligt, skapar en positiv situation där lärare uppmuntras till att undervisa väl och elever till att studera och lära. När ett sådant bedömningssystem en gång är på plats, borde det smälta in och inte märkas, eftersom det är i linje med resten av systemet. Därmed skulle det också bli möjligt för lärare och elever att fokusera på att utvärdera och förbättra det som händer i klassrummet.
Idén om att bedömning ska användas för att förbättra lärande är inte ny, men på sistone har många forskningsstudier visat att bedömningar som görs löpande i undervisningen, snarare än i slutet av den – det som ibland kallas ”formativ bedömning” eller ”bedömning för lärande” – har större betydelse för hur snabbt elever lär än något annat.
Trots att begreppen formativ bedömning och bedömning för lärande definieras lite olika av olika personer finns det ett allt större samförstånd om att elever lär bättre med bedömning när den används rätt:
- När målen med lärandet och kriterierna för att nå målen är tydliga och delges eleverna på ett sätt så att de förstår.
- När det skapas diskussioner i klassrummet, aktiviteter och uppgifter som gör att eleverna presterar bevis på sitt lärande.
- När elever får feedback som för lärandet framåt.
- När elever fungerar som lärresurser för varandra.
- När elever aktivt äger sitt eget lärande.
För var och en av dessa fem nyckelstrategier för lärande finns en avsevärd forskningsbas; tillsammans utgör de en struktur för att säkerställa att elever och lärare arbetar tillsammans för att ta bedömningens kraft i anspråk och förbättra lärandet.
Men dessa forskningsresultat har också misstolkats på många sätt, vilket förhindrar spridningen av en effektiv praktik. Den kanske mest utbredda missuppfattningen är att all bedömning som avser att stödja lärande också kommer att göra det. På många skolor tror man att lärandet blir bättre av att man samlar in data över hur eleverna presterar och att man ställer samman resultaten i tabeller. Det finns absolut inga bevis på att ett sådant insamlande av information har någon inverkan på elevers lärande – eller som mina amerikanska vänner säger: ”Grisen blir inte fetare av att man väger den”. I andra änden av spektrumet finns en annan utbredd missuppfattning, nämligen idén om att bara för att en skola har börjat med formativ bedömning behöver man inte längre beskriva för elever var de befinner sig i sitt lärande. Var så säker, att sätta betyg och poäng allt för ofta kommer definitivt att sakta ner lärandet, men att inte ge eleverna några indikationer på hur långt de har kommit är lika förledande. Det viktigaste med feedback, hur den än ges, är att den sätter igång kognitiva processer. Om bedömningen däremot främst gör att eleven kopplar sin prestation till den egna individens värde (duger jag, duger jag inte?) i stället för att fokusera på uppgiften kan det innebära att eleven slutar att lära, men det finns sätt för lärare att undvika detta.
Som jag skrev inledningsvis är bedömning en central process i all undervisning. Utan bedömning blir det ingen interaktion – läraren skulle lika gärna kunna tala till en videokamera och filmen visas för elever i en annan stad. Bedömningar spelar roll för elever i övergångar mellan utbildningar, i övergången mellan utbildning och arbete, och de kan vara ett sätt för samhället att säkerställa att pengarna som satsats på utbildning används väl (vilket oftast är fallet). Men den viktigaste bedömningen sker minut för minut, och dag för dag, i varje klassrum och det är där som en investering i tid och resurser kommer att ha allra störst inverkan på elevernas lärande.
Dylan Wiliam