Warning: ksort() expects parameter 1 to be array, object given in /var/www/folkeskoleforaeldre.dk/public_html/wp-content/plugins/bbpress/includes/core/template-functions.php on line 316
Vores børn måles med terningekast – Folkeskoleforældre

FFFCharlotteBBAf Charlotte Birk Bruun, Bestyrelsesmedlem i Folkeskoleforældre

Med de nye nationale mål for folkeskolen, er det blevet fuldstændig afgørende, at de nationale test (DNT) fungerer optimalt. Folketinget har besluttet, at det er DNT man vil måle folkeskolereformens succes med og de danske elevers læring og progression.

Det ser ud til, at måleredskabet ikke er så godt som politikerne tror, og som man måske nok kunne forvente. I en redegørelse til folketinget fra 2013 står der følgende:

“Det har i forbindelse med den løbende kvalitetssikring af de nationale tests funktionsmåde vist sig, at den statistiske usikkerhed forbundet med resultaterne i de nationale test er større end hidtil antaget.
Den statistiske usikkerhed er størst på elev- og klasseniveau, mens den statistiske usikkerhed på større grupper af elevers testresultater, som fx på kommunalt eller nationalt niveau, fortsat er lav.”

Der er efterfølgende blevet lavet en gevaldig oprydning i opgavebanken, men i foråret ’15 er den stadig gal.
En skoleleder fortæller: “Vi er for usikre på de nationale test, så vi tør ikke lade dem stå alene, men supplerer med andre typer læse- og stavetest og vil også begynde at bruge en anden matematiktest”
Denne udtalelse kommer efter, at man på skolen har udført de nationale test på den samme gruppe elever med én uges mellemrum. Her har man kunne konstatere at de samme elever springer fra toppen til midten, og fra midten til bunden.

De færreste sætter sig almindeligvis ind i, hvordan en test fungerer og hvordan man ved at den reelt måler det, den siger, at den måler. Men i det her tilfælde, er det ret afgørende, at vi alle forstår princippet. De nationale test er ikke blot elektroniske. Mange tror fejlagtigt, at modstanden fra mange fagfolk mod de nationale test er, at de er elektroniske. Intet kunne være mere forkert.

Modstanden skyldes, at lærernes efterhånden mangeårige erfaringer med DNT fortæller dem, at den er gal. Når de sammenligner med de traditionelle læsetest, elever og forældres oplevelser og med hvordan eleverne klarer sig i undervisningen, så stemmer det ikke overens med resultatet fra DNT. En dygtig læser kan få et lunket resultat og en dårlig læser kan placere sig helt i top. Flere steder fra, er det blevet antydet, at denne uoverensstemmelse skyldes at DNT bedømmer mere neutralt.
Det kunne være en overvejelse, og dette kan nemt afprøve ved at lave en sammenligning med en anden elektronisk test. Men en sådan sammenligning forefindes ikke. Det burde den gøre, for så kunne man være mere sikker på, at DNT måler det den skal måle.
Hvorfor er der mon ikke lavet en sådan sammenligning?

Det særlige ved DNT er ikke, at de er elektroniske, men det at de er adaptive. Danmark er det eneste land i verden, der udfører adaptive nationale test, andre lande har valgt dem fra, for de har vist sig for svære at realisere. Det adaptive betyder, at testen løbende skal tilpasse sig elevens niveau på baggrund af de forrige besvarelser. Umiddelbart en rigtig god ide, men i virkeligheden, har det vist sig, at være meget vanskeligt, at lave selve opgaverne til denne store opgavebank.

I redegørelsen til folketinget fra 2013 står der:
“Udformningen af de nationale test som it-baserede adaptive test, hvor opgavernes sværhedsgrad løbende tilpasses elevens svarmønster, giver alt andet lige et statistisk mere sikkert resultat sammenlignet med fx papirbaserede test, hvor alle elever får de samme opgaver.”

At DNT statistisk giver et mere sikkert resultat, er dog ‘alt andet lige’ absolut ikke sikkert. Man har nemlig ifølge Peter Allerup professor i statistik, forsømt at teste målsikkerheden:

“Gennem ti års arbejde med de nationale test har man forsømt at teste deres målesikkerhed – altså om man får det samme resultat, hvis man måler det samme flere gange i træk. Man kunne have opdaget problemet, hvis man havde afprøvet testene på de samme elever flere gange, dengang de blev udviklet. Man kunne også have opdaget det, mener Peter Allerup, hvis man havde set på målesikkerheden, da testene første gang blev evalueret i 2007, men det gjorde man ikke, og man forsømte det også, da den store Rambøll-evaluering af testene blev gennemført i 2013.”

Årsagen til de store forskelle mellem den samme elevs testresultat kan, ifølge Svend Kreiner professor emeritus i statistik, skyldes to ting:
1. Man forsøger at måle tre forskellige profilområder i løbet af de 45 minutter. Der kan derfor kun stilles et relativt begrænset antal opgaver per profilområde, og det medfører en »ikke ubetydelig« usikkerhed på de enkelte målinger selv i et adaptivt testdesign.

2. »at spredningen af det store flertal af eleverne formodentlig er relativt begrænset, således at der er risiko for, at den svageste af to tilfældigt udvalgte elever får det bedste testresultat af rent tilfældige årsager«.

Den første årsag hænger sammen med antallet af løste opgaver, ved at forlænge testtiden, kunne man måske opnå en større sikkerhed. Det er forholdsvis nemt at afprøve. Men det er ikke gjort. Hvorfor ikke?

Den anden årsag hænger sammen med opgavernes design og bedømmelsen af deres sværhedsgrad. Normalt måler man en opgaves sværhedsgrad, ved at afprøve den på fx 500 elever, og så se hvor de lægger sig i forhold til en normalfordelingskurve. Ved multipel choice opgaver, er der altid en stor usikkerhed i forhold til tilfældighed. Hvis der fx er fire svarmuligheder at vælge imellem, så kan den dårlige elev ved ren held ramme det rigtige svar. Dette tager man højde for, ved at have en meget stor testgruppe, og ved at sammenligne den enkelte elevs svar på andre opgaver.
Om dette er gjort, og gjort ordentligt, har været helt op til leverandøren. Der ligger intet offentligt tilgængeligt materiale, som fortæller noget om opgaverne og hvordan man har bedømt sværhedsgraden. Andre test beskriver altid antallet af elever opgaverne er blevet afprøvet på, og hvor gamle de er, samt hvor de geografisk er placeret. Dette findes ikke i forhold til de nationale test. Hvorfor?

Det er på tide, at vi får testet testen ordentligt, det kan gøres således:
1. Der skal laves sammenligninger med andre elektroniske test, så vi kan sikre os at betingelserne er nogenlunde sammenfaldende.
2. Det skal afprøves, om det øger sikkerheden at forlænge testtiden
3. Offentligheden skal have adgang til at se, hvordan opgavernes sværhedsgrad er blevet bedømt.

Vi kan ikke være bekendt at bedømme vores børn ud fra terningekast, og lige nu ser det ud til, at det er det vi gør.

Kilder:
http://www.ft.dk/samling/20131/redegoerelse/r6/1312963.pdf
http://www.uvm.dk/Aktuelt/~/UVM-DK/Content/News/Udd/Folke/2014/Jan/140127-Statistisk-usikkerhed-i-de-nationale-test
https://www.folkeskolen.dk/572808/skoleleder-testresultater-svinger-som-vinden-blaeser
https://www.folkeskolen.dk/572813/eksperter-dumper-de-nationale-test
http://www.folkeskolen.dk/558396/det-stod-skidt-til-i-matematik
http://www.folkeskolen.dk/540229/nationale-test-klasse-havde-kaempe-udsving-paa-tre-dage

Vores børn måles med terningekast