Les évaluations certificatives et les notes

11. Les évaluations certificatives et les notes

11.1. Nous considérons qu’une évaluation certificative devrait s’appuyer sur les mêmes principes (présentés dans ce qui précède) qu’une évaluation formative. Ce qui viendrait en plus, c’est la production de notes et/ou de classements.

Dans les faits, on constate bien souvent que certains enseignants considèrent que les évaluations certificatives constituent une classe particulière d’évaluations dans laquelle, par exemple, il y aurait moins d’obligation d’informer et de préparer les apprenants ou moins d’obligation de fournir une rétroaction. Nous ne partageons pas ce point de vue.

11.2. Partons d’un exemple :

Construire une note

Une épreuve écrite comporte trois questions Q1, Q2 et Q3 ; les réponses sont interprétées et évaluées à l’aide de grilles critériées comportant chacune plusieurs critères évalués et cinq niveaux de performance : un niveau d’échec lourd, un niveau d’échec léger et trois niveaux de réussite (« satisfaisant », « bon », « excellent »). Les questions Q1 et Q2 correspondent à des acquis d’apprentissage considérés comme faisant partie du coeur de la matière. Il est demandé à l’enseignant-évaluateur de fournir une note (sur 20) pour chaque étudiant ayant présenté l’épreuve.

Avant de se préoccuper de la manière de produire la note demandée, on peut déjà faire l’observation suivante :

  • La note finale obtenue sera nécessairement très réductrice : elle comporte infiniment moins d’informations que ce que l’utilisation des grilles critériées a permis de produire. Il ne faudrait donc pas utiliser exclusivement cette note pour prendre des décisions à enjeux élevés telles que l’obtention ou non des crédits associés à une unité d’enseignement ou la réussite ou l’échec d’une année d’études (contrairement à ce qui se passe bien souvent).

Pour obtenir la note finale, il faut nécessairement agréger les informations obtenues par l’utilisation des grilles critériées pour les réponses à chaque question. Il y a de très nombreuses manières de le faire, qui se résument gé néralement à une approche additive (somme des notes attribuées à chaque question, moyenne pondérée ou non des notes attribuées à chaque question et autres variantes du même principe. Ceci mène à l’observation suivante :

  • Dans cette technique, un échec dans une partie de l’épreuve peut être compensé par un succès dans une autre partie. Une note de 12/20 peut ainsi être obtenue à partir de 11/20, 12/20 et 13/20, mais également à partir de 4/20, 12/20 et 20/20. Ces deux 12/20 sont-ils réellement équivalents ? Toute « compensation » est-elle acceptable ? Il est navrant de constater que certains arrêtés ministériels prévoient même la compensation entre des notes de matières différentes de semestres consécutifs3 : cela se passe de commentaires !

Pour remédier à ce que certains considèrent un défaut rédhibitoire, on peut avoir recours à des formules plus recherchées : moyenne géométrique ou arithmético-géométrique, algorithmes subtils et autres méthodes parfois alambiquées (et souvent difficiles à expliquer aux apprenants). Rien de tout ceci ne permet de masquer le fait que l’on essaie, en fait, de combiner des pommes et des poires !

11.3. Quel que soit l’algorithme utilisé pour produire la note finale, la méthode sera toujours contestable par son caractère éminemment réducteur. Nous pensons donc que les algorithmes les plus simples sont les meilleurs parce qu’ils sont facilement explicables et compréhensibles. Il n’en reste pas moins que la pertinence des inférences faites à partir de ces notes et des décisions prises en conséquence doivent rester sujettes à de grands doutes.

11.4. I l en va de même de la précision des notes obtenues par les algorithmes mis en oeuvre. Dans certains pays, on voit, dès l’enseignement primaire, des notes à quatre chiffres significatifs (par exemple : 17,36 / 20). Quand on prend conscience de la multitude de facteurs qui influencent les mesures à partir desquelles un calcul (certainement précis, lui) fournit ce type de résultats, ne devrait-on pas s’interroger sur la pertinence et la signification de classements dans lesquels 17,36 / 20 est considéré meilleur que 17,35 / 20 ? Les notes sur 20 ou sur 100 donnent souvent, à tort, un sentiment de grande précision dans la mesure, alors qu’il ne s’agit que de précision dans le calcul.

On constate aussi (c’est la « Loi de Posthumus ») que, lorsqu’il faut produire des notes, beaucoup d’enseignants cherchent, consciemment ou non, à se rapprocher d’une distribution normale (gaussienne). Certains affirment même qu’il faut obtenir une telle distribution des notes pour bien faire. [Yount 2011] explique très bien pourquoi c’est une erreur grossière de procéder de la sorte, mais on peut déjà s’interroger sur l’idée d’appliquer à des notes une distribution qui se rapporte à des mesures de phénomènes indépendants et aléatoires. Les apprentissages mesurés sont sans doute des phénomènes indépendants, mais pourquoi faudrait-il qu’ils soient aléatoires ? Cela reviendrait à nier a priori l’effet des activités de formation et de l’apprentissage !

cahier 4 image 15

11.5. Une approche différente consiste à distinguer deux décisions : celle qui concerne la réussite ou l’échec et celle qui concerne le niveau de réussite ou d’échec. En d’autres mots, l’enseignant (c’est son privilège et sa responsabilité)prend d’abord la première décision, sur base de critères qui lui sont propres, et ensuite il détermine le niveau (la note) sur base d’autres critères, plus appropriés.

 

Construire une note (suite)

Les questions Q1 et Q2 correspondant à des acquis d’apprentissage considérés comme faisant partie du coeur de la matière, un échec à Q1, à Q2 ou aux deux entrainera donc un échec à l’épreuve. Le résultat pour Q3 n’intervient pas dans cette décision. La réussite de Q1 et de Q2 entraine la réussite de l’épreuve.
La note finale pourrait être calculée, à partir des notes pour les trois questions, différemment pour ceux qui ont échoué et pour ceux qui ont réussi l’épreuve.

Nous laissons au lecteur le soin d’imaginer des algorithmes pour effectuer ces calculs !

 

Remarques

11.6. [Quinton 2005] présente différentes manières de noter des épreuves. Il discute également les techniques qui permettent d’évaluer des épreuves à partir d’indicateurs quantitatifs et qualitatifs : le taux de réussite, l’indice de difficulté et l’indice de discrimination.

11.7. On considère habituellement que la note désigne un niveau d’atteinte des acquis d’apprentissage visés. Ne serait-il pas opportun, dans certains cas, d’envisager des notes désignant une progression plutôt qu’un simple niveau ?

11.8. Parmi les résultats des études mentionnées dans [EPPI 2002], on relève que l’existence d’évaluations certificatives avec des enjeux élevés (« high stakes ») produit des effets importants sur les enseignants, qui ont tendance à favoriser des approches transmissives et à centrer les activités sur la réussite de ces évaluations, au détriment d’autres objectifs. En ce qui concerne les apprenants, ce type d’évaluations les incite à viser la performance plutôt que l’apprentissage.

11.9. Rappelons pour terminer que toute évaluation devrait donner lieu à une rétroaction, y compris les évaluations certificatives !

Dernière modification
17/12/2018