Randomized controlled trial (RCT)

L’Essai Randomisé contrôlé (ERC) traduit de l’anglais Randomized controlled trial (RCT) est également appelé « approche expérimentale ».

En 1971, le psychologue américain Donald T. Campbel (qui se définit lui-même comme « évaluateur par accident« ) rêve lors de son discours d’introduction au congrès de l’Association Américaine de Psychologie, d’une société expérimentatrice : 

évaluation expérimentation Donald Campbel

« Une société expérimentatrice sera celle qui expérimentera vigoureusement des solutions à des problèmes récurrents, qui fera des évaluations déterminées et multidimensionnelle des résultats et qui s’orienteront vers de nouvelles alternatives lorsque les évaluations démontrent qu’une réforme a été inefficace voire dangereuse. Cette société n’existe pas à ce jour. »

eval.fr

En 2003, lors d’une conférence de la Banque Mondiale sur l’efficacité de l’aide, Esther Duflo déclare :

Esther Duflo évaluation d'impact eval.fr

« De la même manière que les évaluations randomisées ont révolutionné la médecine au 20ème siècle, elles ont le potentiel de révolutionner les politique sociales au 21ème. »

Pour certains acteurs, la définition de l’évaluation d’impact devient alors plus étroite que celle proposée par le CAD (voir ici).

Selon eux, une évaluation d’impact ne peut être rigoureuse qu’en présence d’un scénario contrefactuel. Voir par exemple la définition de l’USAID ci-dessous.

« Les évaluations d’impact mesurent le changement dans un effet de développement qui est attribuable à une intervention définie ; les évaluations d’impact sont basées sur des modèles de cause et d’effet et demandent un scénario contrefactuel crédible et rigoureusement défini pour contrôler les facteurs autres que l’intervention qui pourraient expliquer les changements observés. »

USAID

Ainsi la dénomination « évaluation d’impact » ne s’appliquerait que pour les études permettant de mesurer les effets strictement attribuables à une intervention grâce à un comparaison avec une modélisation de la situation en absence d’intervention (le contrefactuel).

RCT contrefactuel
Quelle est la situation en absence d’intervention ?

eval

évaluation d'impact
Comment discerner ce qui est strictement attribuable à l’intervention ?

Pourquoi RCT ?

TRIAL : l’étude porte sur une expérimentation dans le sens ou les effets du programme ou de la politique publique ne sont pas encore connus

CONTROLLED : l’expérience doit être contrôlée sur le temps du programme et requiert ainsi une constance méthodologique

RANDOMIZED : aléatoire, c’est à dire avec la mise en place de tirages au sort. Il s’agit de dégager une population similaire et terme de caractéristiques observables (âge, revenu, niveau d’éducation, etc.) mais aussi non-observables (motivation, détermination, etc.).

évaluation d'impact éthique
Tirage au sort des bénéficiaires (par exemple l’accès à une cantine scolaire) : quels enjeux éthiques? (Randomisation – Rash Brax)

A utiliser avec parcimonie

Après plusieurs expérimentations, l’AFD souligne dès 2012 l’intérêt de ce type d’approches limité à des programmes « tunnels« . En effet, pour obtenir une comparabilité et des caractéristiques identiques sur le temps du projet seront nécessaires :

  • des ressources prédéfinies et stables
  • une chaine de résultats peu sensible aux modifications de l’environnement
  • un traitement stable (c’est à dire que le bénéfice pour le participant doit rester constant => s’autoriser une amélioration de la prise en charge en cours de route biaise l’étude)
  • une cohorte de bénéficiaires constante et conséquente à suivre sur la durée de l’évaluation
  • des effets visibles et rapides (la plupart des RCT restent sur des temps relativement courts, environ 2 ans)
évaluation d'impact
Quelques leçons d’expérience de l’AFD sur les évaluations d’impact à assignation aléatoire. Jean-David Naudet, 2012
Les limites et points de vigilances dans la mise en place de RCT :
  • la maitrise de la complexité et l’appropriation des protocoles de recherche à travers toute la chaine de collecte d’information : chercheurs, traducteurs, superviseurs, enquêteurs,…
  • la détection de disparités de mise en oeuvre (la mise en oeuvre a-t-elle été distincte d’une région à l’autre, d’une école à l’autre, d’une ONG à l’autre, etc. ? En quoi la différence dans l’impact détecté est-il simplement du à une différence de mise en oeuvre ?)
  • la capacité à maintenir la rigueur méthodologique sur la durée (sur quelle période le financement est-il garanti ? quelle stabilité politique ou sécuritaire de la zone étudiée ? une réorientation stratégique pourrait-elle affecter la mise en oeuvre et par conséquent l’objet de la recherche et la fiabilité du protocole ?) 
Attention à la transposition des résultats

Ce qui était valable dans un contexte ne le sera bien sûr pas forcément dans un autre. Par ailleurs le changement d’échelle (le passage de l’expérimentation à l’essaimage) affectera certaines variables et leur reproductibilité. Au vu du coût élevé de ce type d’évaluation, c’est une limite sérieuse.

A titre illustratif, l’évaluation suivante « Les effets de l’internat d’excellence de Sourdun sur les élèves bénéficiaires : résultats d’une expérience contrôlée«  publiée en 2012 par J-Pal et l’IPP a duré 3 ans pour un coût total de 750000€. 

La première limite à cette évaluation selon les auteurs  :

« Cette étude nous apprend donc quels sont les impacts d’une scolarité à l’internat d’excellence de Sourdun, mais ne nous dit rien sur les effets produits par les autres internats. Extrapoler les impacts de Sourdun semble d’autant plus hasardeux que les populations d’élèves visés et les modes de fonctionnement varient fortement d’un internat à l’autre (Rayou et Glassman, 2012). « 

Pour aller plus loin
Articles/études

Chaque année, des milliards de dollars sont engagés sur des milliers de programmes visant l’amélioration de la santé, de l’éducation et autres enjeux sociaux des pays du sud. Très peu d’études néanmoins cherchent à comprendre si ces programmes ont véritablement fait bouger les choses. Cette absence de preuve est un problème urgent: hormis le gaspillage de ressources, c’est un déni de soutien aux populations pauvres pour l’amélioration de leurs conditions de vie.  Ce rapport réalisé par le « Evaluation Gap Working Group » affronte les lacunes de l’évaluation, réunit les preuves de ce qui fonctionne dans les programmes de développement et démontre qu’il est possible d’améliorer l’efficience de l’aide publique au développement en collectant ces informations indispensables au service de l’élaboration des politiques et des programmes de développement. 

Guides méthodologiques

De nombreuses interventions de développement semblent ne laisser aucune trace d’un changement positif ou durable et il est difficile de déterminer dans quelle mesure ces interventions font une différence. Pour cette raison, les évaluations d’impact dans l’aide au développement ont bénéficié d’une attention particulière au cours de ces dernières années. Ce document a été élaboré par le Réseau des réseaux sur l’évaluation d’impact dans le cadre d’un partage de méthodes visant à promouvoir la pratique de l’évaluation d’impact.

Ou encore :

3IE (International Initiative for Impact evaluations)

The Strategic Impact Evaluation Fund (SIEF)

Development innovation ventures (USAID)

J-PAL

Retour sur les méthodes et outils

Evaluations d’impact