Evaluation réaliste

L’évaluation réaliste (en anglais Realistic Evaluation) est une approche méthodologique pensée pour évaluer des programmes, des projets ou des politiques publiques en contexte complexe. Elle a été développée au cours des années 1990 par Ray Pawson, méthodologue de la recherche sociale à l’Université de Leeds, et Nick Tilley, sociologue à Nottingham Trent University en détachement au Home Office britannique. Elle est formalisée dans leur ouvrage Realistic Evaluation (1997).

Attention : l’évaluation « réaliste » ne signifie pas ici une approche simplifiée ou pragmatique, mais fait référence au réalisme scientifique. C’est une posture qui cherche à découvrir les mécanismes réels, souvent invisibles, qui produisent des changements dans un contexte donné.

Leur terrain d’application initial : la criminologie. Ils cherchaient notamment à comprendre pourquoi l’installation de caméras de vidéosurveillance réduisait drastiquement la criminalité dans certains parkings, tout en n’ayant strictement aucun effet dans d’autres.

Contrairement aux évaluations traditionnelles qui se demandent simplement « est-ce que ce programme a marché ? », l’évaluation réaliste part du principe que la réalité sociale est complexe. Elle refuse la réponse binaire et cherche plutôt à ouvrir la boîte noire du programme pour répondre à une question centrale :

« Qu’est-ce qui fonctionne, pour qui, dans quelles circonstances, de quelle manière et pourquoi ? »

Pour y parvenir, elle décortique l’intervention à travers une formule analytique appelée la configuration CMO (de l’anglais Context + Mechanism = Outcome), parfois traduite CMR en français (Contexte + Mécanisme = Résultat).

Le Contexte (C) désigne les conditions dans lesquelles le programme est mis en place : l’environnement social, économique, culturel, géographique, ou même l’état d’esprit des participants. Un programme ne fonctionnera pas de la même manière dans une zone rurale isolée que dans une grande métropole.

Le Mécanisme (M) est le moteur du changement. Ce n’est pas le programme en lui-même, ni les activités ou les ressources fournies, mais la réaction, le raisonnement ou le changement de comportement que ce programme déclenche chez les acteurs concernés. Par exemple : la motivation, la prise de conscience, la peur de la sanction, le sentiment de confiance.

Le Résultat (R, ou Outcome) désigne les effets produits, souhaités ou non, prévus ou imprévus, lorsqu’un mécanisme donné est activé dans un contexte donné.

Le postulat de base est limpide : un programme, en lui-même, ne produit rien. Il se contente d’offrir des ressources ou de nouvelles opportunités. C’est le raisonnement et la réaction des acteurs face à ces ressources (le mécanisme), étroitement influencés par leur environnement local (le contexte), qui génèrent véritablement le changement. Le résultat.

Pourquoi utiliser l’évaluation réaliste ? Comprendre les échecs et les succès partiels : elle permet d’expliquer pourquoi un dispositif d’aide à l’emploi fonctionne très bien pour les jeunes diplômés urbains, mais échoue totalement pour des seniors en milieu rural. Éviter le copier-coller aveugle : elle aide les décideurs à comprendre quelles conditions doivent être réunies avant de reproduire un programme ailleurs. Ouvrir la boîte noire : elle ne se contente pas de mesurer l’impact final, mais explique le processus psychologique ou social qui y mène.

L’approche a depuis largement dépassé le champ de la criminologie pour devenir une référence reconnue en santé publique, en travail social, en éducation ou encore dans l’évaluation des programmes d’aide au développement.

Pour aller plus loin
Exemples d’évaluation réalistes

Cette étude propose une évaluation réaliste de l’approche Scaling Readiness, un outil d’aide à la décision sensible à la complexité utilisé dans deux projets CGIAR de transformation agroalimentaire (séchage flash de manioc et purée de patate douce orange, dans six pays d’Afrique et d’Amérique latine). Six mécanismes causaux sont formulés et testés empiriquement : renforcement des capacités conceptuelles en scaling, diagnostic systémique des goulots d’étranglement, exploration d’options stratégiques, profilage et analyse des réseaux de parties prenantes, négociation collective d’une stratégie partagée, et suivi réflexif de la mise en œuvre. Les résultats montrent que l’efficacité de cet outil est fortement modérée par des facteurs contextuels institutionnels — partenariats préexistants (qui peuvent autant faciliter que contraindre), pratiques enracinées de gestion de projet, et mécanismes de financement, d’incitation et de performance. L’étude souligne la nécessité d’investir dans un changement de culture institutionnelle orientée vers l’impact pour que de tels outils atteignent leur plein potentiel d’aide à la décision.

Cette étude de Tilley (1993) est l’une des premières applications empiriques de l’évaluation réaliste (cadre Pawson & Tilley). Elle montre que la vidéosurveillance dans les parkings ne réduit pas le crime par un effet mécanique direct, mais à travers divers mécanismes causaux (dissuasion perçue, déploiement de personnel, surveillance naturelle accrue, etc.) dont l’activation dépend étroitement du contexte : qualité technique, surveillance des moniteurs, mesures complémentaires, type de parking, publicité des succès. L’étude souligne aussi que l’effet tend à s’estomper avec le temps si la crédibilité du dispositif n’est pas périodiquement renforcée.

Improving Scaling Performance in Research for Development: Learning from a Realist Evaluation of the Scaling Readiness Approach, Damtew, Douthwaite, Schut, Sartas & Leeuwis, The European Journal of Development Research, 2023