Navigazione

Storia ed evoluzione delle Prove Standardizzate a livello internazionale

La validità delle valutazioni è un tema estremamente rilevante nel settore del testing. La AERA ha proposto come apertura del capitolo sulla valutazione del suo manuale di riferimento la seguente:

Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests[1]. (AERA, APA & NCME, 2014)

Questo tema è centrale per l'uso di prove in quanto permette di affermare che una prova misura effettivamente quello che afferma di misurare (quello che in psicologia viene indicato come concetto di validità di costrutto) e che nel misurare è libera da condizionamenti sociali e ambientali. Il concetto di validità non è però stabile e le stesse prove richiedono un costante aggiornamento e una costante verifica della qualità della loro misura.

Le discussioni relative alle conseguenze delle valutazioni su larga scala hanno toccato numerosi problemi tra i quali: il restringimento del curriculum agli argomenti specifici trattati nei test; l'insegnamento in funzione del test; l'impatto sui modelli di assunzione, sulla classe scolastica, sul morale, sulla credibilità, sulle promozioni; l'equità della valutazione. La storia dei test standardizzati è ricca di usi impropri che hanno portato a risultati scorretti. L'esempio più noto è quello del test di intelligenza creato da Binet per individuare i bambini più fragili e bisognosi di maggiore assistenza all'interno del sistema educativo francese. La traduzione in ambito statunitense venne usata per collocare i bambini di minoranze all'interno di percorsi per allievi denominati all'epoca come “ritardati" e per promuovere le teorie suprematiste.

Molti problemi si sono quindi posti nel corso degli anni e sono stati affrontati in un processo di progressivo miglioramento e affinamento. Nel mondo occidentale la storia dei test su larga scala è relativamente recente ma la storia è in realtà molto più lunga.

Nel presente testo verrà presentato il percorso evolutivo delle prove di valutazione nel tempo e della ricerca di validità delle prove stesse.

1. Le Origini

1.1. Una prima base: la Cina imperiale

Il sistema degli esami imperiali cinesi è probabilmente il primo esempio di valutazione su larga scala. Sebbene vi siano opinioni (in quanto non supportate da evidenze) differenti rispetto alla data di inizio di questa pratica, che in alcuni casi viene fatta risalire sino al 1115 o al 2020 AC, le prove documentali mostrano come almeno dal 196 AC questa pratica fosse presente. Questi esami, basati sulla conoscenza dei classici confuciani, erano utilizzati per selezionare funzionari governativi (Suen & Yu, 2006). La forma stabile venne raggiunta nel 606 DC e mantenuta sino al 1905 DC. Questi esami, denominati Keju, avvenivano ogni 3 anni. Gli esami erano organizzati in tre livelli sequenziali e i candidati erano isolati per la durata degli esami e valutati su: conoscenza della filosofia confuciana; storia; poesia; scrittura di documenti ufficiali; questioni di politica nazionale. Nella loro disamina Suen & Yu (2006) sottolineano come numerosi temi emergano da questa esperienza e siano stati trattati nel corso dei secoli, ad esempio il copiare e il barare o gli effetti del sovraccarico cognitivo ed emotivo degli esaminandi. Questo esame, imitato anche da Corea e Vietnam, era basato principalmente sulla capacità di memorizzare e ripetere contenuti definiti ma anche sull'anonimato dei candidati in modo tale da garantire equità di trattamento. Sebbene non fossero standardizzati nel senso moderno, stabilirono un precedente per valutazioni su larga scala basate su criteri uniformi (Elman, 2000) utilizzando prove scritte.

1.2. La tradizione occidentale sino al 1700

Il metodo di valutazione più diffuso nelle università medievali era la disputatio, un esercizio dialettico in cui studenti e maestri discutevano questioni filosofiche, teologiche o giuridiche secondo i principi della logica aristotelica (Weijers, 1987). Questo formato non mirava tanto a verificare la memorizzazione di nozioni, quanto piuttosto la capacità di argomentare in modo rigoroso, confutare tesi avverse e costruire ragionamenti coerenti. Le disputationes potevano essere ordinarie, cioè esercitazioni periodiche, o solenni, come quelle che concludevano il percorso di studi.

Nelle facoltà di arti liberali, come a Parigi o Bologna, la valutazione avveniva spesso attraverso la quaestio disputata, in cui lo studente doveva difendere una posizione contro le obiezioni dei docenti (Bianchi, 1999). Tale pratica non solo misurava la padronanza della materia, ma anche l'abilità retorica e la prontezza intellettuale, qualità essenziali per chi aspirava a una carriera ecclesiastica, giuridica o accademica.

Esistono degli esempi di valutazione sistematica, l'Università di Bologna nel 1219 sviluppò un sistema di accesso alla Facoltà di Legge tramite esame orale, le regole furono progressivamente definite sino alla formalizzazione finale nel 1275. Nel medesimo periodo nelle università di Parigi e Cambridge si introdussero delle prove scritte di valutazione.

I modelli di valutazione medievali erano altamente personalizzati e dipendevano dal prestigio dell'università, dalla disciplina e persino dall'influenza del maestro. Non esistevano criteri uniformi di valutazione, e il giudizio finale era spesso influenzato da fattori extradidattici, come le relazioni personali o le pressioni politiche (Cobban, 1975).

L'oralità dominava non solo nelle prove, ma anche nella trasmissione del sapere: i manoscritti erano costosi e rari, e gran parte dell'apprendimento avveniva attraverso le lezioni (lectiones) e le ripetizioni (repetitiones) orali. Di conseguenza, la valutazione privilegiava la capacità di rielaborare e discutere i testi piuttosto che la semplice riproduzione mnemonica (Rüegg, 1992).

Le sperimentazioni e le esperienze valutative rimasero poco sistematiche ma verso la fine del XVIII secolo si iniziarono a introdurre valutazioni quantitative, tendenzialmente traduzioni del giudizio in scale numeriche. La Prussia introdusse nel 1788 esami nazionali standardizzati (Abiturreglement) per l'ammissione alle università, influenzando anche altri sistemi europei (McClelland, 1980). Precedentemente, infatti, ogni università procedeva in modo autonomo.

L'emergere della valutazione standardizzata fu legato a trasformazioni socioeconomiche più ampie, in particolare alla necessità degli Stati moderni di creare apparati burocratici efficienti e sistemi educativi in grado di formare cittadini con competenze omogenee (Resnick, 1982). La Rivoluzione Industriale, con la sua richiesta di manodopera alfabetizzata e specializzata, accentuò la pressione per metodi di valutazione più oggettivi e scalabili. In questo contesto, i tradizionali esami orali, basati sull'interazione diretta tra insegnante e studente e spesso soggetti a favoritismi locali, vennero gradualmente sostituiti da prove scritte strutturate, ritenute più eque e verificabili (Labaree, 1997).

1.3. I precursori e la nascita dell'idea di test

Un momento cruciale in questa transizione fu l'introduzione dei test scritti standardizzati nelle scuole del Massachusetts nel 1837, su iniziativa del riformatore Mann. Sostituendo gli esami orali con prove scritte uniformi, Mann cercò di eliminare le discrepanze valutative tra diversi insegnanti e di stabilire criteri oggettivi per misurare il rendimento scolastico (Gallagher, 2003). Questo approccio, documentato nei rapporti del Boston School Committee, dimostrò come la standardizzazione potesse ridurre la soggettività e fornire dati comparabili tra diverse scuole, diventando un modello per altre regioni degli Stati Uniti. Sempre negli USA Rice introdusse un test di ortografia nel 1893.

In gran Bretagna nel 1862 entrò in funzione il Revised Code, noto come sistema dei "Payment by Results", che legava i finanziamenti governativi alle scuole ai risultati degli studenti in test standardizzati di lettura, scrittura e aritmetica (Sutherland, 1971). Sebbene questo meccanismo abbia incrementato l'attenzione verso le competenze di base, suscitò anche critiche per aver incentivato un insegnamento meccanicistico, focalizzato esclusivamente sulle abilità testate. L'esperimento britannico, seppur progressivamente abbandonato dal 1890, dimostrò l'impatto che i sistemi di valutazione standardizzati potevano avere sia sulle pratiche didattiche che sulle politiche pubbliche. Gli allievi erano valutati annualmente su lettura, scrittura e matematica, in base ai risultati venivano poi finanziate le scuole.

Sempre nell'800 stavano avvenendo degli sviluppi concettuali e operativi. Galton (1883) propose lo sviluppo di una disciplina autonoma che si occupasse di misurare le caratteristiche visibili e non visibili delle persone, ad esempio l'intelligenza. In Germania Wundt scoprì l'esistenza di differenze individuali nella sensazione e nella percezione della realtà. Questi percorsi si incrociarono anche con le nascenti teorie Darwiniane (Darwin era parente di Galton) e con il desiderio di Galton di esplorare l'ereditarietà delle abilità mentali degli individui. Il primo assistente di Wundt, Cattell, dopo aver lavorato nel laboratorio di Psicologia Sperimentale si spostò a Cambridge dove poté collaborare con Galton e quindi tornare negli USA. Dove nel 1890 pubblicò il testo che formalizza l'idea che le abilità mentali possano essere testate e misurate oggettivamente.

Sul finire dell'800 emersero i primi test di memoria per valutarne l'entità nei bambini (ad esempio Bolton, 1892), la possibilità dell'uso di stimoli materiali per misurare caratteristiche dell'individuo a quel punto era ormai accettata a livello di dibattito scientifico superando così quella che viene spesso richiamata come “interdizione kantiana".

1.4. La Nascita e lo sviluppo di test su larga scala

Nel 1904 Binet ideò il primo test d'intelligenza moderno, noto come Scala Metrica dell'Intelligenza in collaborazione con Simon (Binet & Simon, 1905). Questo strumento fu sviluppato su richiesta del governo francese per identificare gli studenti bisognosi di sostegno scolastico. Il test misurava abilità cognitive come memoria, attenzione e problem-solving (Siegler, 1992) ed esprimeva i risultati in termini di età mentale distinguendo nettamente la caratteristica che si intendeva valutare dai risultati scolastici e dai materiali scolastici. Successivamente lo strumento fu tradotto e adattato negli USA.

Nel 1917, con l'entrata degli Stati Uniti nella Prima Guerra Mondiale, l'esercito americano si trovò ad affrontare la sfida di valutare e classificare un enorme numero di reclute provenienti da tutta la popolazione. Un comitato della American Psychological Association (APA) sviluppò due test complementari: l'Army Alpha, destinato ai soggetti alfabetizzati, e l'Army Beta, concepito per coloro che non sapevano leggere o che non padroneggiavano sufficientemente l'inglese (Samelson, 1977).

L'Army Alpha consisteva in una batteria di otto subtest che valutavano diverse abilità cognitive, tra cui la comprensione verbale, le capacità aritmetiche e il ragionamento analogico. Il test era somministrato in forma scritta a gruppi di fino a 200 uomini alla volta, rappresentando così una significativa innovazione rispetto ai precedenti test individuali come lo Stanford-Binet (Kevles, 1968). L'Army Beta, era un test non verbale che utilizzava immagini, simboli e sequenze numeriche per valutare l'intelligenza senza basarsi su basi culturali. Quasi due milioni di uomini furono valutati tramite questi strumenti classificandoli in base alle capacità cognitive. Nonostante il tentativo di avere strumenti non influenzati dalla cultura è stato evidenziato come i soggetti di origine nord-europea fossero favoriti e come quelli provenienti da ambienti svantaggiati e/o con un'istruzione limitata fossero sfavoriti (Gould, 1981).

Come in altri campi gli Stati Uniti hanno assunto un ruolo guida nella definizione di modelli di riferimento in seguito ai conflitti mondiali. Nell'ambito delle valutazioni standardizzate l'introduzione dello Scholastic Aptitude Test (SAT) nel 1926 ha costituito un riferimento importante, fornendo un prototipo per le successive valutazioni dell'abilità accademica a livello universitario (Lemann, 1999). Questo strumento nasce per avere una valutazione comune a tutti gli allievi che, provenendo da modalità di formazione molto differenti (in relazione ai regolamenti dei diversi stati ma anche alla scolarizzazione familiare), intendono accedere ai percorsi terziari.

La seconda metà del Novecento, in seguito alla Seconda guerra mondiale, ha visto l'emergere di iniziative volte alla comparazione dei sistemi educativi a livello internazionale. L'International Association for the Evaluation of Educational Achievement (IEA), fondata nel 1958, ha rappresentato un attore fondamentale in questo processo, promuovendo i primi studi comparativi transnazionali (Husén & Postlethwaite, 1996). Il First International Mathematics Study (FIMS), condotto nel 1964, ha segnato una svolta metodologica, confrontando per la prima volta in modo sistematico le competenze matematiche degli studenti in dodici paesi (Husén, 1967). Questa esperienza pionieristica ha dimostrato la fattibilità delle valutazioni comparative su larga scala, aprendo la strada a successive indagini internazionali.

La fine del secolo scorso ha visto l'affermazione dell'approccio comparativo attraverso l'istituzione di programmi di valutazione periodici. Il Trends in International Mathematics and Science Study (TIMSS), avviato nel 1995, ha introdotto un modello ciclico di valutazione quadriennale delle competenze in matematica e scienze, permettendo il monitoraggio longitudinale (Mullis et al., 2016). Il Progress in International Reading Literacy Study (PIRLS), implementato a partire dal 2001, ha sviluppato metodologie specifiche per la misurazione della comprensione nella lettura tra gli studenti delle scuole primarie (Mullis & Martin, 2015). Questi programmi hanno contribuito a creare un framework comune per la valutazione degli apprendimenti, influenzando sia le politiche educative nazionali che il dibattito pedagogico internazionale.

Lo sviluppo e l'esperienza in questi programmi sono stati la base per impostare il Programme for International Student Assessment (PISA), lanciato dall'Organizzazione per la Cooperazione e lo Sviluppo Economico (OCSE) nel 2000, che rappresenta la più significativa di queste iniziative (OECD, 2019). Questo programma, che valuta le competenze dei quindicenni in lettura, matematica e scienze, si distingue per il suo focus sulle capacità applicative piuttosto che sulla semplice conoscenza dei contenuti curriculari.

L'influenza di PISA sui sistemi educativi nazionali è stata studiata ed è anche evidente dai cambiamenti avvenuti in alcuni paesi a seguito delle performances mostrate nel test (ad esempio in Finlandia e Singapore), questi hanno attuato significative riforme in risposta ai risultati in PISA (Sahlberg, 2011). Tuttavia, il programma ha anche suscitato un acceso dibattito accademico. Secondo alcuni studiosi, PISA promuoverebbe una visione economicistica, riducendo l'educazione a classifiche di performance e favorendo un approccio utilitaristico alla formazione (Meyer & Benavot, 2013). Questa critica mette in luce le tensioni tra le esigenze di comparabilità internazionale e la necessità di preservare le specificità culturali e pedagogiche dei diversi contesti nazionali.

Parallelamente a PISA, sono emersi altri programmi di valutazione. Il Programme for the International Assessment of Adult Competencies (PIAAC), anch'esso sviluppato dall'OCSE, ha esteso il campo di indagine alla popolazione adulta, valutando competenze fondamentali nell'era della conoscenza (OECD, 2013). Questo strumento ha fornito indicazioni sul rapporto tra formazione iniziale e apprendimento permanente. L'International Computer and Information Literacy Study (ICILS), ha introdotto parametri standardizzati per misurare l'alfabetizzazione digitale tra gli studenti (Fraillon et al., 2019). Questa iniziativa riflette la crescente importanza delle competenze tecnologiche nei moderni sistemi educativi e la necessità di strumenti di valutazione capaci di cogliere le nuove dimensioni dell'apprendimento nell'era digitale.

I diversi sistemi educativi si sono anche dotati di sistemi di monitoraggio interni basati su prove standardizzate organizzate secondo periodicità e modalità differenti. Queste valutazioni si giovano anche di modelli statistici di analisi progressivamente più raffinate che si sono evolute nel corso del tempo. Le prove interne ai sistemi hanno una grana di dettaglio maggiormente fine e permettono da un lato di individuare eventuali difficoltà e intervenire a sostegno di queste e dall'altro di verificare gli effetti in termini longitudinali di eventuali cambiamenti in corso.

[1] “La validità si riferisce al grado in cui le evidenze e la teoria sostengono le interpretazioni dei punteggi dei test per gli usi proposti per i quali sono pensati i test. La validità è quindi la considerazione fondamentale nello sviluppo e nella valutazione dei test." (tr. aut.)

Riferimenti bibliografici

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

Au, W. (2009). Unequal by design: High-stakes testing and the standardization of inequality. Routledge.

Bianchi, L. (1999). Censure et liberté intellectuelle à l'Université de Paris (XIIIe-XIVe siècles). Les Belles Lettres.

Binet, A., & Simon, T. (1904). Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L'Année Psychologique, 11, 191-244. https://doi.org/10.3406/psy.1904.3675

Bolton, T. L. (1892). The growth of memory in school children. American Journal of Psychology, 4(3), 362-380. https://doi.org/10.2307/1410946

Cattell, J. M. (1890). Mental tests and measurements. Mind, 15(59), 373-381. https://doi.org/10.1093/mind/os-XV.59.373

Cobban, A. B. (1975). The medieval universities: Their development and organization. Methuen.

Elman, B. A. (2000). A cultural history of civil examinations in late imperial China. University of California Press.

Fraillon, J., Ainley, J., Schulz, W., Friedman, T., & Duckworth, D. (2019). Preparing for life in a digital world: IEA International Computer and Information Literacy Study 2018 international report. Springer. https://doi.org/10.1007/978-3-030-38781-5

Gallagher, C. J. (2003). Reconciling a tradition of testing with a new learning paradigm. Educational Psychology Review, 15(1), 83-99. https://doi.org/10.1023/A:1021323509290

Galton, F. (1883). Inquiries into human faculty and its development. Macmillan.

Gould, S. J. (1981). The mismeasure of man. W. W. Norton.

Husén, T. (1967). International study of achievement in mathematics: A comparison of twelve countries (Vols. 1-2). Almqvist & Wiksell.

Husén, T., & Postlethwaite, T. N. (1996). A brief history of the International Association for the Evaluation of Educational Achievement. Assessment in Education: Principles, Policy & Practice, 3(2), 129-141. https://doi.org/10.1080/0969594960030202

Kevles, D. J. (1968). Testing the Army's intelligence: Psychologists and the military in World War I. Journal of American History, 55(3), 565-581. https://doi.org/10.2307/1891014

Labaree, D. F. (1997). How to succeed in school without really learning: The credentials race in American education. Yale University Press.

Leff, G. (1968). Paris and Oxford universities in the thirteenth and fourteenth centuries. Wiley.

Lemann, N. (1999). The big test: The secret history of the American meritocracy. Farrar, Straus and Giroux.

McClelland, C. E. (1980). *State, society, and university in Germany, 1700-1914*. Cambridge University Press.

Meyer, H.-D., & Benavot, A. (Eds.). (2013). PISA, power, and policy: The emergence of global educational governance. Symposium Books.

Mullis, I. V. S., & Martin, M. O. (Eds.). (2015). PIRLS 2016 assessment framework (2nd ed.). TIMSS & PIRLS International Study Center.

Mullis, I. V. S., Martin, M. O., Foy, P., & Hooper, M. (2016). TIMSS 2015 international results in mathematics. TIMSS & PIRLS International Study Center.

I ciclo

I ciclo

II ciclo

Area lingue

Area scienze

Area arti

Discipline

Materie

Storia ed evoluzione delle Prove Standardizzate a livello internazionale

I ciclo

I ciclo

II ciclo

Area lingue

Area scienze

Area arti

Discipline

Materie

Comunicazioni

Sussidi didattici

​​​​​Storia ed evoluzione delle Prove Standardizzate a livello internazionale

Storia ed evoluzione delle Prove Standardizzate a livello internazionale