Commission d’évaluation de l’aide publique au développement : début des nominations

Le décret relatif aux modalités de fonctionnement de la commission de l’aide publique au développement est paru le 8 février 2025. Pour rappel, la commission est composée de deux collèges : un collège de 4 parlementaires (2 députés, 2 sénateurs) et un collège de 10 experts indépendants (désignés par décret).

Les 2 postes de députés ont été pourvu le lundi 24 mars 2025, la Présidente de l’Assemblée nationale a désigné Sabrina Sebaihi et Hervé Berville.

Sabrina Sebaihi représente la 4e circonscription des Hauts-de-Seine et siège au groupe Écologiste et Social à l’Assemblée nationale. Elle est membre de la Commission des affaires étrangères et a été réélue en 2024. 

Egalement réélu en 2024 et membre de la Commission des affaires étrangères, Hervé Berville siège pour sa part avec le groupe Ensemble pour la République. Il a occupé le poste de Secrétaire d’État à la Mer de 2022 à 2024.

Un peu d’IA pour se projeter

Si nous demandons à Perplexity d’anticiper les critères d’évaluation ou questions évaluatives en fonction des profils des intéressés (voir ci-dessous), les retours sont très classiques avec des questions souvent récurrentes dans les projets et programmes de coopération.

Sauf peut-être la question de l’indépendance des mécanismes de suivi évaluation1. Qui est justement la raison même de l’existence de cette commission ! C’est donc déjà en ce moment même, à travers la nomination de ses membres, de leurs points de vue disruptifs ou non que ce joue l’utilité de cette commission. Bien sûr, des moyens qui lui seront alloués pour aller chercher des réponses.


Prompt : « Compte tenu des prises de positions antérieures de Sabrina Sebaihi et de Hervé Berville, ainsi que du contexte international actuel, quels critères et questions évaluatives pourraient-ils proposer conjointement pour évaluer l’aide publique au développement française ?

  1. Efficacité et redevabilité
    • Les fonds atteignent-ils réellement les populations les plus vulnérables, notamment dans les pays prioritaires ?
    • Existe-t-il des mécanismes de suivi et d’évaluation indépendants ?
  2. Partenariat équitable et horizontalité
    • L’approche dépasse-t-elle les relations État-État pour impliquer la société civile ?
    • Les pays bénéficiaires participent-ils à la définition des projets qui les concernent ?
  3. Durabilité environnementale et justice climatique
    • Comment l’APD contribue-t-elle à la protection de l’environnement et à la lutte contre le réchauffement climatique ?
    • Les projets financés sont-ils compatibles avec les objectifs de l’Accord de Paris ?
  4. Transparence budgétaire
    • La budgétisation des fonds permet-elle de distinguer l’APD « réelle » ?
    • Comment évaluer l’impact de la taxe sur les transactions financières dans le financement du développement ?
  5. Cohérence des politiques publiques
    • Existe-t-il une coordination efficace entre diplomatie, défense et développement (approche « 3D ») ?
    • L’APD est-elle alignée avec les autres politiques françaises (commerciale, migratoire, etc.) ?
  6. Inclusivité et réduction des inégalités
    • Les projets intègrent-ils une dimension de genre et favorisent-ils l’autonomisation des femmes ?
    • Comment l’APD contribue-t-elle à réduire les inégalités dans les pays partenaires ?
En conclusion

La commission d’évaluation, une fois constituée, pourra jouer la fonction d’évaluation indépendante.

La politique de suivi et d’évaluation du groupe AFD illustre, d’un point de vue interne, la gouvernance de l’évaluation2.

Le Fonds d’Innovation pour le développement, sous l’égide de l’AFD et présidé par Esther Duflo finance tranche par tranche et accompagne des projets innovants en les dotant de méthodes d’évaluations scientifiques et rigoureuses.

Du juste équilibre des 3 composantes, indépendance, gouvernance et expérimentation ainsi que de la fonctionnalité de chacune permettra d’analyser la cohérence d’ensemble du système de suivi et évaluation ainsi développé.

Néanmoins, quelle autre politique publique ou ministère dispose :

  • d’une commission indépendante d’évaluation ?
  • d’une politique interne de suivi et d’évaluation ?
  • d’un dispositif de financement de l’innovation présidé par un ou une prix Nobel d’économie ?

Ainsi, dès 2012, lors de la conférence « Malaise dans l’évaluation » , en 2012, l’AFD notait que si l’efficacité de l’aide au développement est régulièrement décriée, elle est sans doute la politique publique la plus évaluée.

Un enjeu sera ainsi le transfert de ses apprentissages et de cette structuration de l’évaluation à toute autre politique publique.

Pour aller plus loin
  1. Voir Un environnement propice à l’évaluation : quels leviers ? ↩︎
  2. Voir la gouvernance de l’évaluation et notamment les documents liés à l’institutionnalisation de l’évaluation, par exemple la loi espagnole : Ley de institucionalización de la evaluación de políticas públicas en la Administración General del Estado, 27/2022 ↩︎

Retour d’expérience sur l’utilisation de l’IA en évaluation de projets

Ce post informel vise à comparer deux évaluations de projets finales, réalisées en 2024/2025, la première sans recours à l’IA et la seconde avec un recours partiel à l’IA.

En terme de contexte, il s’agit d’évaluations externes de projets de coopération décentralisée, dans le domaine de la transition urbaine et de la transformation des territoires.

La première en Tunisie sur les thématiques de la mobilité douce et de la participation citoyenne (projet Autrement : Aménagement Urbain du Territoire pour REinventer les Mobilités et ENgager les Tunisiens). La seconde en Ouganda sur des thématiques multiples (éducation, agriculture urbaine, développement de corridors écologiques, réhabilitation de zones humides,…) : le projet SLICKS (Sustainable, Learning and Inclusive Cities).

L’IA n’a pas été utilisée pour des phases d’écriture. Plutôt pour éclaircir et analyser le contexte, résumer des documents, retrouver des informations éparpillées, très peu pour de la compilation de données.

Les outils utilisés ont été principalement : 

Chatbot arena est à l’origine un projet de recherche, très pratique, il permet sans compte et sans identification préalable de comparer les réponses de 2 modèles de IA, choisis de manière aléatoire, avec pour objet de voter pour la meilleure réponse. 

Ce retour d’expérience sur l’utilisation de l’IA en évaluation de projet est par essence déjà partiellement obsolète : l’interface de Perplexity pro a par exemple en l’espace de quelques mois déjà évoluée à de multiples reprises.

Etude documentaire

Dans le cadre de Autrement, moins d’une dizaine de documents avaient été fournis initialement, essentiels, et environ une demi-douzaine ont été sollicités en cours d’évaluation. En terme de bonne pratique, un dossier avait été préparé à destination de l’évaluateur avec un mémo présentant les différents documents. 

Sur fonds européens, une énorme attention avait été portée à la communication dont la production contractuelle d’une stratégie et d’un plan de communication. Très populaire en Tunisie, l’actualisation régulière de la page facebook du projet en était le vecteur principal. 

Aseptisés, les rapports semestriels de suivi ne permettaient que trop vaguement de retracer le cycle de vie du projet. Détourné de leur usage, seule la relecture des posts facebook souvent bi-hebdomadaires sur une durée de 3 ans a permis de saisir un certain quotidien du projet dans sa chronologie. S’imprégner des commentaires, analyser les images mises en avant ou comprendre en regardant les arrières plans (kakémonos, buffets, feuilles de présences,…) l’immense charge opérationnelle sur une équipe tout à fait réduite qui a organisé des centaines d’évènements. Une ré-appropriation tardive (le projet était alors déjà clôturé) mais nécessaire pour l’évaluateur, sans doute inaccessible via l’utilisation de l’IA.

A l’inverse, sur SLICKS, le projet avait produit et transmis près d’une centaine de documents, tous aussi intéressants les uns que les autres, mais encore en vrac, à l’approche de sa clôture. 

L’avantage de Perplexity pro était justement de pouvoir télécharger des documents. L’usage de l’IA a alors permis de compiler/résumer chaque document pour ensuite les intégrer manuellement dans un tableur avec le titre et la date de la production, les auteurs et une note de commentaire. 

L’avantage de la lecture directe – sans appui de l’IA – est cependant en bout de course, c’est à dire en fin d’évaluation, cette impression de connaitre « intimement » chaque document, parcouru des dizaines de fois, savoir où trouver une information précise, avoir détecté parfois en lisant à travers les lignes les sources de motivations, les déceptions, une appréciation sur la qualité des partenariats, les conflits larvés, les modes de travail, les grains de sables dans les rouages de la machine. Cette double lecture, déjà souvent rendue difficile en raison du discours policé des formats de reporting, devient alors totalement insaisissable avec l’IA, avec une masse uniforme des documents, ne reste plus qu’un tout impersonnel.  

A l’inverse, j’ai le souvenir de rapports semestriels tellement imbuvables (« le 12 janvier nous avons eu une réunion avec x, le 26 février se tenait le séminaire avec y,… ») que la fonction de résumé, d’extraction des idées clés, de simplification grâce à l’IA est tout autant extrêmement louable. 

Collecte de données 

Analyse du contexte

En ce qui concerne le contexte tunisien, étaient systématiquement évoquées des lourdeurs et complexités administratives. Néanmoins, les entretiens individuels n’ont jamais permis de reconstituer – dans le détail ou dans le temps imparti – la réalité de cette complexité. L’IA aurait sans doute été précieuse pour aider à reconstituer précisément chaque procédure administrative et identifier les principaux points de blocage.

En ce qui concerne l’évaluation ougandaise, l’IA a tout d’abord servi de béquille, toujours via l’accès aux documents (lorsque comme moi vous avez une mauvaise mémoire…) permettant surtout un gain de temps :

  • comment s’appelait tel agent de la municipalité ? et le nom de la zone humide ? l’acronyme de l’agence de l’environnement ? la date du deuxième comité de pilotage ?

Mais encore d’effectuer directement quelques calculs : quelle est la répartition du temps de projet entre la phase de développement et la phase de mise en œuvre ?

En ce qui concerne l’analyse du cadre logique, l’IA a peu été sollicitée. Quelques questions comme « quelle est la proportion d’indicateurs atteint/non atteint » ou « quels indicateurs potentiellement pertinents sont absents ? » ont bien été posées. Mais le format du cadre logique, avec de multiples notes qualitatives permettant d’apporter des nuances ou de mieux interpréter les résultats rendait périlleuse toute délégation qui n’aurait pas été vérifiée « manuellement. » 

Astuce : le prompt « trouve les indicateurs qui étaient présents dans le cadre logique initial et qui ne sont plus présents dans le cadre logique final » est bien plus éclairant pour identifier les objectifs abandonnés en cours de route que la seule analyse des indicateurs non atteints ! 

Par contre, en ce qui concerne l’analyse des contextes, l’IA permet sans doute d’aller droit au but dans ses recherches : quel est le montant des investissements français en Ouganda ? y’a-t-il eu des cas d’expropriation sur des projets de restauration de zone humide soutenus par des bailleurs de fonds ? Quelle est la proportion de l’aide française allouée à la coopération décentralisée ? Quelle est l’ampleur de la coupe budgétaire de l’APD française sur le budget 2025 ? », etc.

C’est sans doute à double tranchant car répondre à ces mêmes questions par tâtonnement tout en consultant de multiples sources permet d’obtenir progressivement et même involontairement d’autres éléments de contexte pertinents.

Phase d’écriture

Comme indiqué plus haut, l’IA n’a pas été utilisée pour générer du texte qui aurait été incorporé à l’évaluation. Des textes générés à titre d’essais pour reproduire le déroulé chronologique des actions n’étaient pas satisfaisants et devaient systématiquement être repris.

D’autres textes, toujours à titre d’expérimentation, étaient bluffants mais nécessitaient un travail préalable de génération de prompt aussi conséquent en terme de temps que le travail direct d’écriture…

L’IA aurait éventuellement pu permettre une fois l’écriture achevée, manuellement, de la ré-écrire dans le language attendu, plus direct, des phrases moins alambiquées, des clarifications pour des acteurs ayant des connaissances variables du projet. Cela demande néanmoins un certain détachement de l’évaluateur pour considérer son texte comme un objet purement administratif mais aussi une phase de travail complémentaire, afin d’exclure toute perte de sens du texte initial.  Une phase non prise en compte dans les termes de référence.

En bref 

J’ai souvent été pris entre 2 feux : entrer directement dans le vif du travail d’évaluation ou prendre le temps de s’en écarter pour générer des prompts de qualité, bien organiser ses espaces (les dossiers où sont rangés les documents de Perplexity) et les subtilités toujours changeantes entre les potentialités de requête (web, documents des espaces, académiques, forum de discussion,…).

Priorisant la première option, avec des requêtes mal formulées, sans comprendre comment s’organisait le périmètre de lecture ou la hiérarchisation des données lorsque qu’une requête recouvrait potentiellement des dizaines de documents, j’ai aussi souvent eu l’impression de perdre du temps. Ou encore, s’agacer face à des discussions qui ne suivent plus le fil de discussion et repartent de zéro. Commencer une tâche avec l’IA, pester et la finir humainement au « jus de cerveau déconfit » .

Ce n’est pas le même métier 

Au final, en terme de tâches, ce n’est plus vraiment le même métier. Dans son approche traditionnelle, artisanale, il y a une certaine satisfaction d’un travail d’évaluation achevé : construire un texte, organiser des points de vue, transmettre des recommandations. Satisfaction que je ne retrouve pas forcément en tant que « dresseur d’IA ». Pas plus qu’en tant que manager d’une équipe d’évaluation par ailleurs, chacun ses appétences. 

Du point de vue du bailleur ou du commanditaire 

Triste constat ou non, le gain de qualité d’une approche artisanale n’en vaut pas forcément le surcoût. Tout dépend des enjeux et du contrat initial.

En ce qui concerne les enjeux, bien sûr à l’échelle d’une politique publique, ce surcoût est négligeable. Ou plutôt à coût équivalent, une approche classique pourra utiliser l’IA pour couvrir un périmètre plus vaste et générer des analyses plus profondes.

Pour l’évaluation de relativements modestes projets de développement comme ceux pris ici en exemple, visant à analyser leurs performances dans un cadre contractuel, le gain d’une mobilisation d’un consultant sur 30 jours versus un premier jet rapide de « gavage » d’IA (analyser les documents de projets grâce à un prompt fourni et détaillé) est sans doute fine – mais encore pourrait générer un gain de cohérence global de l’exercice : même pondération, même appréciation des critères,…

D’où la référence au contrat initial, et particulièrement à l’adaptation des TdR (termes de référence).

En effet, au-delà de l’approche IA ou traditionnelle, de l’inclusion de l’IA ou non, les limites de ce genre d’exercice d’évaluation perdurent au fil des années puis des décennies :

  • l’évaluation arrive trop tardivement dans le cycle de projet et ne participe pas à révéler les valeurs qui sous-tendent l’action
  • le dispositif de suivi et évaluation ne concerne que la phase opérationnelle, les cafouillages récurrents et semble-t-il systématique des phases de montage de projet ne sont pas documentés et sortent du périmètre de l’évaluation 
  • le système de suivi évaluation n’est pas validé par le comité de pilotage sous la forme d’un document formalisé (comme peut l’être la stratégie de communication évoquée plus haut sur les projets européens)
  • les termes de références sont élaborés en amont et ne sont pas réactualisés tout au long de l’évaluation pour affiner les centres d’intérêt et questions évaluatives
  • les projets évoluent en silo sans mise en commun des apprentissages
  • des cycles de projets unique, trop court, ne permettant pas à l’évaluation de dégager des effets mais uniquement les impulsions générées
  • pas de visibilité sur le parcours de l’évaluation une fois celle-ci achevée
  • la perception partagée que seule la présentation powerpoint sera lue et que tout doit apparaitre dans le résumé exécutif « pour ceux qui ne lirons que le résumé exécutif » 

L’IA pourrait ainsi permettre, à budget égal de mieux répartir le suivi évaluation tout au long du cycle de projet

  • programmer dès le démarrage la remise de l’ensemble des pièces constitutives du système de suivi évaluation :  modélisation, cadre logique, présentation du SSE, évaluation à mi-parcours, évaluation finale
  • adopter des formats courts et itératifs (par exemple plutôt qu’un long rapport d’évaluation, une présentation type powerpoint qui va être présentée dès le retour du terrain puis évoluer à différents moments clés pour inclure les différentes perceptions qui auront émergées) 
  • améliorer les cadres logiques initiaux en fonction d’erreurs récurrentes sur l’utilisation de la méthode (omission des phases d’analyse initiale, absence d’indicateurs permettant de qualifier et quantifier l’évolution des risques, d’apprécier les vents contraires, déséquilibre entre indicateurs de réalisations et d’effets, terminologie qui diffère dans le cadre logique d’un projet à l’autre…)
  • extraire et confronter les apprentissages de projets similaires comme base préalable de toute écriture de projets

    Mais surtout, l’utilisation (voire l’autorisation ou non) de l’AI et sur quelles tâches doit être précisée dans les termes de références puis re-spécifié en fonction de la réponse de l’équipe d’évaluation. Un texte généré en quelques minutes ou un travail de recherche de plusieurs jours ne saurait être rémunéré de la même façon.


Un paragraphe dédié à l’utilisation de l’intelligence artificielle dans les ToR

L’utilisation et quelle utilisation de l’AI est autorisée ou attendue doit être explicité dans les termes de référence et discuté âprement avant tout contractualisation car elle modifie de manière substantielle le nombre de jours prestés.

Pour aller plus loin

Le monde du développement, des conflits d’intérêt à tous les niveaux

Valéry Ridde et Jean-Pierre Olivier de Sardan, « The Development World: Conflicts of Interest at All Levels », Revue internationale des études du développement, 249 | 2022, mis en ligne le 02 septembre 2022


Dans cet article, Valéry Ridde et Jean-Pierre Olivier de Sardan proposent une définition inclusive du conflit d’intérêt.

Le conflit d’intérêt intervient lorsqu’un acteur engagé à n’importe quel degré d’ingénierie de projet, humanitaire ou de développement, estime nécessaire d’afficher des opinions qui contredisent ses perceptions ou ses connaissances, de retenir des critiques ou d’ignorer les problèmes rencontrés par l’intervention. 

Ainsi, une surdité aux critiques émises par d’autres acteurs ou une auto-censure de ses propres critiques. Toute critique ouverte pouvant ainsi mettre en péril la position de chacun et chacune dans l’industrie du développement. Un univers ou l’auto-congratulation, l’auto-régulation, la parole élogieuse, la promotion des interventions et l’utilisation d’un langage stéréotypé est la norme.

Les enjeux sont divers : obtenir ou renouveler un financement, la crainte de ternir son image, « ne pas nuire » à sa carrière ou à son compte en banque.

Pour les consultants, la pression implicite des contractants de ne plus avoir recours à des profils estimés trop critiques. Une certaine connivence entre bailleurs et consultants, dans des espaces de temps de toute façon trop restreints pour des évaluations de qualité et coincés en tant que prestataire par des termes de référence qui imposent ce qui doit être étudié et comment. Sortir du cadre implique s’exposer à ce que le rapport ne soit pas « validé » et de fait non-payé. 

Les ONG et agences de mise en oeuvre, en tant que sous-traitantes, mises sur le renouvellement d’un contrat, voir jouent leur propre survie sur l’atteinte des résultats préalablement fixés au moment de la contractualisation du « partenariat ».

De la même manière, les services publics, exigus, sont enclins à dissimuler les échecs, montrer qu’ils sont bon élèves, que les activités prévues ont été menées de manière efficiente, quelle qu’en soit la qualité, afin d’engendrer ou renouveler l’appui. Par ailleurs, « à cheval donné, on ne regarde pas les dents ». 

Cette posture du bon élève se décline des échelons territoriaux jusqu’aux populations bénéficiaires, gommant les aspérités des arènes politiques locales, elles mêmes susceptibles d’accélérer ou de contraindre la réussite des initiatives. Peu importe l’issue, des narratifs idylliques sont attendus et produits pour les partenaires étrangers.

Bien sûr des exceptions existent, des expériences positives fleurissent, certains acteurs jouent selon les règles, sans censure, ni auto-censure. 

En conclusion, Valéry Ridde et Jean-Pierre Olivier de Sardan proposent diverses pistes :

  • orienter la recherche vers la compréhension et la documentation des conflits d’intérêt, explorer les exceptions positives
  • convaincre, argumenter, former : de la nécessité de regarder la réalité en face, sortir de l’obsession des résultats positifs, instaurer notamment une culture de diagnostic rigoureux
  • attendre des bailleurs, lesquels maitrisent les règles du jeu, d’impulser des mécanismes qui engendrent des évaluations réellement indépendantes, avec des méthodes mixtes, avec plus de poids pour les méthodes qualitatives
  • la publication et le libre-accès aux évaluations de manière systématique, incluant un droit de réponse et la transparence du débat
  • un fond pour la recherche piloté par un comité d’experts indépendants qui sélectionnerait les propositions de recherche (abondé par exemple à hauteur de 10% des montants engagés)

Ces propositions visent à stimuler un débat actuellement absent sur le rôle que devrait avoir les institutions de développement pour générer des analyses indépendantes, rigoureuses et sans complaisance.


Pour contribuer, modestement, à ce débat, nous mettons à disposition cet espace et sollicitons vos réactions. Les conflits d’intérêt, la norme ou l’exception ? Merci par avance de vos retours d’expérience.

Quelles sont les propositions des candidat.e.s à l’élection présidentielle en matière d’évaluation des politiques publiques ?

C’est la question que s’est posé Théophile Courtier dans cette courte note où il présente et décrypte les programmes des 12 candidats en matière d’évaluation des politiques publiques. Une lecture incontournable à quelques jours des élections présidentielles.

Ouvrages de référence en évaluation

Les ouvrages recommandés par d’anciens participants sont proposées aux nouveaux participants.

Lors du démarrage de la formation-action « concevoir et mettre en place un SSE », nous demandons aux participants quel est leur ouvrage de référence en suivi et évaluation. Celui en évidence sur leur table de chevet. Nous offrons alors les ressources préconisées aux participants de la session suivante, qui ont la possibilité de se mettre en contact avec leur « parrain ». Souvent, les participants restent pantois et n’ont pas forcément une référence en tête. Nous ouvrons alors le champs, à des ouvrages spécialisés ou techniques, des romans, des recueils de photos. A tel point qu’entre 2 sessions, nous reprenons partiellement la main en réintégrant partiellement les ouvrages spécialisés en évaluation… Au-delà d’offrir un souvenir qui fasse sens et de créer du lien entre participants de différentes sessions, avec des stagiaires issus de 17 nationalités, l’idée était également de pouvoir découvrir des publications qui n’auraient pas été détectés par nos radars.

Ci-dessous la liste des ouvrages recommandés à ce jour :

En lien direct avec l’évaluation :

  • L’évaluation des politiques publiques, Bernard Perret, 2001
  • Abc de l’évaluation évolutive, Jamie A.A. Gamble, 2008
  • Fact Fullness : Ten Reasons We’re Wrong About the World and Why Things Are Better Than You Think, Hans Rosling, 2008
  • L’évaluation des politiques publiques : le développement d’une nouvelle culture, Patrice Braconnier,Guy Cauquil, 2010
  • Agir pour le changement : guide méthodologique pour accompagner des processus de changement « complexe » : analyser, planifier, suivre et évaluer, F3E, Bruno de Reviers, Hédia Hadja-Castro, 2014

En lien, disons… plus indirect avec l’évaluation : 

  • Le savant et le politique, Max Weber, 1919
  • Gouverneurs de la rosée, Jacques Roumain, 1944
  • Questions de sociologie, Pierre Bourdieu, 1981
  • La faillite du développement en Afrique et dans le tiers monde, Samir Amine, 1989
  • Repenser l’inégalité, Amartya Sen, 2000
  • L’invention de la pauvreté, Tancrède Voituriez, Grasset, 2013
  • Pour une écologie de l’attention, Yves Citton, 2014
  • Repenser la pauvreté, Abhijit v. Banerjee, Esther Duflo, 2014
  • Americanah, Chimamanda Ngozi Adichi, Gallimard 2015
  • Petit Pays, Gaël Faye, 2016
  • L’économie symbiotique, Isabelle Delannoy, 2017