Formation, auteur/autrice sur EVAL

I-Delphi : une ingénierie éthique de l’IA

Proposition de projet : I-Delphi et Deep-Delphi : une ingénierie éthique de l’IA par et pour les opérateurs de politiques publiques

Présentation et contexte

Le déploiement de l’Intelligence Artificielle (IA) dans l’aide au développement et les politiques publiques mondiales créé un fossé critique : les cadres éthiques sont souvent élaborés par les puissances technologiques et économiques (les producteurs d’IA), mais les conséquences et les défaillances sont vécues par les communautés et les populations d’application (les utilisateurs finaux).

Pourtant, cette période de tâtonnement et de tests initiaux crée une urgence : celle de corriger les biais et les risques éthiques avant le déploiement massif et de potentiels effets négatifs voir irréversibles.

Actuellement, aucun organisme central ne constitue la mémoire institutionnelle des défaillances de l’IA sur le terrain. Les régulateurs se concentrent sur la conformité légale et manquent d’un système d’alerte précoce. Le projet I-Delphi cherche à combler ce vide en créant un mécanisme de veille éthique dynamique qui permette d’identifier les failles méthodologiques et les écueils éthiques afin de mieux piloter les phases de conceptions.

Objectif et méthodologie : créer une boucle de rétroaction factuelle

L’objectif du projet I-Delphi est de construire un Système d’Observatoire Éthique Participatif (OEP) pour générer des normes éthiques robustes, fondées sur les réalités du terrain.

L’intérêt n’est pas seulement de réparer les biais existants, mais d’intervenir en amont pour co-construire des solutions éthiques, intégrant ainsi la sûreté dès la phase de conception (Safety by Design).

1. La Rupture Méthodologique

Nous souhaitons transformer un réseau d’expertise patiemment construit d’environ 5 000 professionnels (responsables de projet, responsables de politiques publiques, ministères, ONG, agences) en une source de connaissance dynamique, en utilisant une méthodologie Delphi Augmentée par l’IA.

I-Delphi (la veille active)

C’est l’outil de scanning rapide qui mesure le sentiment éthique à grande échelle. L’IA soumet des questions flash au panel pour obtenir une photo immédiate des désalignements. Cette méthode permet de calculer l' »Indice de Faisabilité Éthique » d’un principe donné, révélant si les normes théoriques sont applicables et justes sur le terrain. L’objectif est la détection massive et la quantification du désaccord.

Deep-Delphi (accompagnement et analyse profonde)

Cette méthodologie est activée lorsque l’I-Delphi détecte un problème systémique. Le Deep-Delphi s’appuie sur des sous-panels ciblés et sur des cycles d’engagement longs. L’objectif est la prévention : en accompagnant les équipes en phase de test d’algorithmes (le « tâtonnement »), le Deep-Delphi identifie la causalité des biais et co-construit des solutions correctives avant le déploiement.

2. Le Système d’Alarme : Défaillances et Effets Non Anticipés

Le projet I-Delphi met en place un mécanisme de veille pour collecter et analyser les cas concrets de risques éthiques.

Veille dysfonctionnelle : le panel agit comme un réseau de sentinelles éthiques mondiales qui signalent les défaillances, les biais inattendus et les dommages indirects causés par l’IA dans les projets de développement et les politiques publiques.
Analyse de l’IA : la plateforme d’IA synthétise les remontées pour identifier les tendances systémiques (par opposition aux incidents isolés). Cela permet de distinguer un problème lié au projet d’aide d’un problème plus profond lié à la politique publique elle-même.

Exemple : une organisation développe une application mobile pour gérer l’aide alimentaire, utilisant l’IA pour optimiser les distributions. L’application, techniquement performante et sécurisée, nécessite un smartphone récent et une connexion stable. Les bénéficiaires avec des téléphones anciens sont exclus du système numérique et redirigés vers un processus manuel avec des temps d’attente triplés. Le panel détecte l’anomalie et propose des ajustements : version allégée compatible avec les anciens systèmes.

Effets souhaités

Le projet I-Delphi ambitionne de débloquer la paralysie de la gouvernance éthique en fournissant une base de preuves aux décideurs mondiaux.

Pour la coopération internationale : l’outil offre aux organisations multilatérales (UNESCO, ONU) et aux agences de développement des normes éthiques validées par le terrain, facilitant la transition d’une éthique déclarative à une éthique opérationnelle et co-construite.
Pour les financeurs : le système de veille produit des Bulletins d’Alerte Éthique factuels et des recommandations d’atténuation en temps réel, transformant l’investissement éthique en un outil de gestion des risques.

Le saviez-vous ? L’approche du projet I-Delphi s’inscrit dans une tradition de recherche de l’efficacité administrative débutée… il y a plus d’un siècle. En 1917, Henri Fayol fondait à Paris le Centre d’Études Administratives (CEA) avec une mission claire : détecter des faits d’administration manquée sur le terrain pour nourrir et valider la doctrine scientifique. Le Centre collectait, structurait et croisait des analyses pour transformer les échecs et les succès opérationnels du « management » en nouvelle connaissance systémique. De la même manière, I-Delphi souhaite utiliser l’Intelligence Artificielle pour collecter les défaillances algorithmiques et les effets non anticipés de l’IA (le « fait manqué » moderne) à l’échelle mondiale. Notre objectif est de suivre cette méthode factuelle : utiliser les erreurs de terrain pour vérifier l’applicabilité des principes éthiques et forger une gouvernance pertinente de l’IA. Pour en savoir plus sur cette continuité historique, vous pouvez consulter la page : Fayol et l’évaluation des politiques publiques.

Une mémoire institutionnelle manquante

En collectant et en croisant les expériences professionnels de terrain, nous ne faisons pas que signaler des défaillances ; nous créons une mémoire factuelle et une cartographie des risques éthiques de l’IA. Cette base de données de preuves vise à limiter une multiplication de standards et appuyer la convergence des régulateurs vers un noyau commun de principes éthiques.

Application de la méthodologie i-delphi au secteur technologique

La méthodologie i-delphi est également déclinée en une offre destinée aux entreprises du secteur technologique. L’objectif est de créer un dialogue structuré entre les concepteurs de technologies et les acteurs de terrain, en s’appuyant sur son Observatoire Éthique Participatif (OEP), un réseau de professionnels composé de cadres institutionnels, d’ONG et de consultants. Nous proposons ainsi une « évaluation ex ante des risques sociétaux » qui permet aux entreprises de soumettre leurs innovations à une analyse critique avant leur déploiement. Ce processus vise à identifier les externalités sociales potentielles et à fournir des recommandations pour adapter les produits aux divers contextes culturels de la francophonie. Cette approche préventive a pour but de transformer la gestion du risque éthique en une composante de la stratégie d’innovation.

Transformation institutionnelle

Le projet I-Delphi se positionne comme un mécanisme fluide capable de naviguer au sein de structures institutionnelles complexes. Face à la décentralisation des initiatives d’IA, I-Delphi reconstruit un noyau de valeurs communes en s’arrimant à l’ensemble des partenaires. Sa mission est d’identifier et de signaler les menaces qui pèsent sur le jugement humain, les risques de déresponsabilisation professionnelle et les effets rebonds. Deep-Delphi expose le risque potentiel en preuve factuelle et préventive, fournissant aux structures les leviers nécessaires pour diriger leur propre virage technologique et aligner leurs décisions d’innovation sur les principes fondamentaux de la pensée critique.

Pour aller plus loin

Prochaine étape : la consolidation de notre réseau d’expertise. Nous invitons les professionnels intéressés par la gouvernance éthique de l’IA par le terrain à se rapprocher. Contact

En bref : le projet I-Delphi vise à développer un dispositif participatif d’évaluation continue permettant la co-construction de référentiels normatifs éthiques ancrés dans les pratiques professionnelles. L’approche privilégie une logique préventive plutôt que corrective, intégrant les exigences éthiques dès la phase de conception des politiques. Le dispositif s’appuie sur la valorisation d’un capital d’expertise constitué d’environ 5 000 acteurs institutionnels et opérationnels (décideurs publics, opérateurs de programmes, organisations de la société civile, services déconcentrés). I-delphi est un système de monitoring continu permettant l’identification rapide des zones de tension entre principes théoriques et réalités d’implémentation. Deep-Delphi est un dispositif d’évaluation qualitative renforcée via un accompagnement méthodologique en phase expérimentale et la co-construction de mesures correctives avant généralisation. Ce dispositif établit une boucle d’apprentissage institutionnel permettant l’ajustement continu des politiques publiques à partir d’un retour d’expérience systématisé.

Voir également :

la méthode DELPHI

Le jour de la marmotte

Tout le monde a la référence de ce film des années 90 ? Bill Murray se retrouve condamné à revivre la même journée, éternellement.

En bas de cette page « CC EVAL 2010-2025 ». Quinze ans donc à lire et compiler des ouvrages, des guides et des manuels de suivi évaluation.

Avec l’aide de l’IA générative, c’est maintenant le moment de croiser ces publications.

Les recommandations se suivent et se ressemblent :

la conception du système de suivi et évaluation, c’est en amont de la mise en œuvre
les usagers participent à cette conception et tout particulièrement à la sélection des critères d’évaluation
les séminaires SEA réguliers permettent de faire vivre la participation et la consultation, de réorienter l’action, d’alimenter la mémoire institutionnelle afin de ne pas refaire éternellement les mêmes erreurs
la pérennité/durabilité est le point faible des projets et programmes, attention à l’intégrer dès la phase d’écriture

Parallèlement, nos formations et accompagnements à la mise en place de systèmes de suivi et évaluation s’enchainent, sur des dizaines de projets et programmes souvent déjà en phase opérationnelle. Les problématiques issues du terrain se suivent et se ressemblent également :

le système n’a pas été formalisé au démarrage
les usagers n’ont été ni inclus ni consultés dans la sélection des critères sur lesquels repose le système
une insuffisance d’échanges réguliers et ouverts, le SE souvent réduit à une séquence brève pendant les comités de pilotage
des cycles de projets trop courts pour en observer les effets
des évalutions finales uniquement, contractuelles
une relation qui se termine dès le rapport validé
des équipes d’évaluation composées par des consultants externes qui ne sont jamais invités à partager entre eux : sur quelle base ainsi d’accorder ou comparer ?
…

Ces constats pourraient être plus présents dans les guides et manuels d’évaluation. Une occasion de tout remettre à plat, d’admettre ses erreurs, de sortir des incantations. Ces manuels n’ont probablement été effleurés que par des aficionados déjà dans des dynamiques transparentes et participatives. Les inscrits aux formations en évaluations sont également déjà des convaincus. Les participants déclarent souvent être venus chercher des outils, mais les difficultés ou les blocages premiers sont rarement d’ordre méthodologique. Peaufiner la méthodologie est la cerise sur le gâteau lorsque tous les autres paramètres sont dégagés pour permettre une mise en application effective du système (voir un environnement propice à l’évaluation : quels leviers ?).

Mais encore, l’image d’en-tête de ce site, la même depuis 2010, représente des archives qui s’empilent et qui ne sont jamais consultées…

Heureusement, même si l’on fait souvent remonter l’origine de la discipline évaluative aux années 1960, Lev Semionovitch Vygotsky¹ aurait pu nous donner quelques tuyaux dès 1933.

Par exemple en s’intéressant aux motivations culturelles et aux valeurs qui ont présidé à la conception du programme, et à la manière dont ces motivations influencent les processus d’apprentissage et de développement qu’il vise à soutenir. Analyser la cohérence entre les objectifs déclarés, les outils socioculturels mis en œuvre et les résultats observés en termes de transformation des capacités cognitives et sociales des participants.

Selon Vygotski, le développement d’un individu est inséparable de sa culture et de ses interactions sociales. Tout programme est une création culturelle. Il n’est pas neutre. Il est conçu par des personnes qui ont une certaine vision du monde, de la réussite, de l’apprentissage. Ces valeurs sont le « code source » invisible du programme. Il s’agit alors d’identifier la culture de l’organisation qui a créé le programme. De détecter ou de confronter des incohérences fondamentales entre les pratiques culturelles et les mécanismes de mises en oeuvre.

Une préconisation serait ainsi de renverser complètement la vapeur. De pousser des expérimentations où tout le poids et les moyens dédiés à l’évaluation seraient déployés en phase de montage et dans l’évaluation des processus plutôt que des résultats. Et comparer avec les dizaines de systèmes dysfonctionnels dont nous disposons déjà.

Le Langage et la pensée, Lev Semionovitch Vygotsky, 1933 ↩︎

Transition vers des villes durables, apprenantes et inclusives : retour d’expérience

Le projet SLICKS (Sustainable, Learning and Inclusive Cities), fruit d’un partenariat entre deux municipalités, Kampala et Strasbourg, porte une ambition de transformation des territoires structurée autour de 3 axes : agriculture urbaine, éducation et paysages (espaces verts, biodiversité,…).

Ce projet de coopération décentralisé a été financé par l’AFD et opérationnel d’octobre 2023 à décembre 2024.

Ce retour d’expérience fait suite à l’évaluation finale externe contractuelle réalisée par EVAL entre novembre 2024 et mars 2025. Ce texte comme une goutte d’eau à apporter à la mémoire institutionnelle des organismes et institutions de développement.

Axé sur le partage d’expertise et la recherche de synergies, SLICKS a la particularité d’avoir actionné, sans le vouloir ou le rechercher explicitement, l’ensemble des objectifs de développement durable. Modestement, en interaction avec les 17 ODD !

Si le projet est unanimement reconnu comme un succès, une autre spécificité est sa clôture définitive, malgré les soutiens, malgré toutes les pistes de renouvellement explorées, illustrant l’incapacité des acteurs à s’extraire des mécanismes institutionnels et cadres de financement existants, afin de dimensionner et poursuivre une vision stratégique. De construire ou adapter le véhicule en fonction de la destination. Comme la poursuite d’une diplomatie d’influence¹. Car si SLICKS a avant tout bénéficié à la ville de Kampala, il a créé des émulsions à Strasbourg et surtout permettait à toute entité française d’enrichir ou de développer un lien privilégié peu à peu tissé avec l’Ouganda. A un moment où la carte des coopérations est à reconstruire et où fument encore les cendres des échecs sahéliens². Qu’avons-nous appris ?

« SLICKS » désigne également, dans le jargon des sports mécaniques, un modèle de pneu de course, réputé pour son adhérence. Une adhérence qui pourrait s’inscrire comme un critère d’évaluation à part entière : un alliage d’acceptation, d’appropriation et de pérennité.

Or la pérennité demeure, encore et toujours, le b.a.-ba, le point faible des projets, comme répété depuis des décennies dans les études de développement et rabâché dans les masters divers et variés en gestion de projets. La grande inconnue tellement prévisible dans ce type de format de coopération³.

Bien qu’adaptant des recettes connues (participation, flexibilité, démarche concertée et transformation des acquis en stratégie municipale,…), l’approche SLICKS a dépassé le cadre théorique pour se matérialiser de manière effective sur le terrain. SLICKS faisait figure de projet modèle. Une opportunité pour en souligner quelques limites et en extraire certaines préconisations, notamment dans le champs du suivi évaluation.

Quelques écueils et observations

Des écueils et observations tout particulièrement axés à l’intégration du SE dans le cycle de projets :

si la phase opérationnelle est « surmonitorée » (plus d’une centaine d’indicateurs de réalisations), la phase de montage n’est que peu documentée, la phase ex-post est complètement absente du cycle de projet

les retards initiaux, quelles qu’en soient les causes, récurrents au points d’en devenir systématiques, SLICKS ne faisant pas exception, sont insuffisamment compensés – lorsque la date de démarrage recule, la date de clôture à tendance à rester relativement fixe

la phase de montage est disproportionnée par rapport à la phase de mise en oeuvre (44 mois pour l’identification, l’instruction et la contractualisation, 27 mois d’opérationnalisation)

l’énergie consacrée à suivre la performance du projet réduit voire empêche de se concentrer et d’observer l’évolution des contextes, de voir se lever les vents contraires

les critères du CAD (pertinence, cohérence, efficacité, efficience, impact, durabilité) sur lesquels sont construits les termes de référence sont définitivement insuffisants, par exemple, ils n’intègrent pas l’évaluation de la gouvernance, qui était le point saillant de ce projet. S’attaquer à l’ensemble des critères du CAD oblige alors à faire le tour du propriétaire sans même savoir qui est le propriétaire…

une absence ou insuffisance d’espaces de concertation officiels afin d’évoquer les enjeux stratégiques. Les comités de pilotage sont avant tout considérés comme des espaces d’affichage des résultats.

la catégorie « population les plus vulnérables » reste générique et insuffisamment catégorisée

plus que les autres, les projets de coopération décentralisée sont rythmées par des échéances électorales multiples (deux municipalités, deux gouvernements, etc.) générant des accélérations, ralentissements et rebondissements multiples… Si ces écueils sont bien connus, ils restent relativement peu documentés à l’échelle des projets pour accompagner les équipes de mise en oeuvre dans la conduite dans « zones de turbulence » et de transition.

Apprentissages et recommandations récurrentes

➡ Le système de suivi évaluation doit être développé en phase de montage et validé par le comité de pilotage

➡ Elargir la gamme de critères du CAD par des critères complémentaires et transversaux. Le système de suivi et évaluation doit également exposer comment ont été sélectionnés et hiérarchisés ces critères, permettant ainsi d’éclairer les valeurs du projet et ses priorités

➡ Programmer des rencontres régulières afin d’actualiser les questions évaluatives. Le SE devient partie prenante du déroulé de l’action et de la gouvernance. Les séminaires SEA jouent un rôle d’adjuvant en en soutenant la démarche en continu, en marge des évaluations contractuelles (mi-parcours, finale).

➡ Valorisation des compétences en suivi-évaluation issues de la coopération pour la transition des territoires :

Au fil des années, les coordinateurs de projets de coopération ont acquis des compétences solides en suivi et évaluation. Ces savoir-faire, développés dans le cadre de la coopération internationale ou décentralisée, représentent un atout qui pourrait être mobilisé pour l’évaluation des projets de transition des territoires, et plus largement pour l’évaluation des politiques publiques à l’échelle nationale. Voir les métiers de l’évaluation.

➡ Mobiliser les compétences en gestion de projets des RRMA (réseaux régionaux multiacteurs)

Les forces et faiblesses de la coopération décentralisée soulignent les besoins des collectivités en gestion de projets. Les expertises des RRMA pourraient être mutualisées au service des projets de territoires ou de toute politique publique.

➡ Identifier les acteurs clés nationaux de la formation continue et systématiser des partenariats. Organiser un transfert des acquis (propriété intellectuelle, processus de mise à jour, utilisation à long terme) vers ces organismes nationaux.

Les projets de coopération investissent massivement dans le renforcement des capacités, mais omettent fréquemment de créer des liens structurés avec les institutions nationales responsables de la formation professionnelles.

➡ Intégrer systématiquement des expertises en ingénierie de formation à tout projet de coopération reposant sur du renforcement de capacité (notamment pour l’analyse des contextes d’apprentissage et l’évaluation des acquis)

Le renforcement des capacités est une expertise à part entière, qui ne saurait être laissée à la bonne volonté, si sincère soit-elle, des responsables de projets. Ce projet qui disposait par essence d’expertises pédagogiques embarquées (la participation du rectorat de Strasbourg) expose des mécanismes didactiques insoupçonnés et une rigueur méthodologique implacable.

➡ Engager une évaluation interne transversale, « au long-cours » avec toute la latitude permise par le département évaluation du bailleur de fonds, sur les causes fréquentes de retards en phase de montage. Proposer des outils d’anticipation et des parcours alternatifs en cas de blocage (quand bien même le bailleur n’est pas en cause dans ce retard). Diagnostiquer les points faibles récurrents qui freinent le lancement des projets. Développer des outils de prévention des retards, formaliser des plans B,…

Notamment, il existe un décalage entre le suivi évaluation du projet souvent très documenté et celui de la phase de montage. Il s’agira d‘harmoniser et renforcer le suivi-évaluation de la phase de montage pour qu’il soit au niveau de celui des projets (en terme d’outils, de manuel, de support,…).

➡ Intégrer dans le dispositif de financement un suivi post projet systématique d’environ 2 ans – un suivi à minima même si l’équipe projet n’est plus présente, la responsabilité de maintenir un lien entre responsables des institutions concernées pour suivre l’évolution des produits et services générés

➡ Systématiser dès le lancement du projet un partenariat avec une formation en gestion de projet d’un établissement d’enseignement supérieur. Une collaboration visant à partager les retour d’expérience du projet (difficultés, avancées) avec les étudiants et à créer, en lien avec le corps enseignant, des exercices pratiques fondés sur le projets

Ce type d’exercice d’évaluation finale externe, contractuelle, est surtout attendu pour servir la redevabilité : une justification de la bonne utilisation de fonds publics. Si tel est le cas, l’ensemble des rapports d’évaluations devrait être rendu public. ➡ vérifier la disponibilité et accessibilité des évaluations à travers une base de données simple d’utilisation et contribuer à développer la mémoire institutionnelle du développement

Des évaluations d’avantage axées sur l’apprentissage permettraient à des équipes d’évaluation mixte (interne/externe) d’accompagner tout au long du cycle de projet en endossant différentes casquettes, notamment celle de la facilitation ➡ orienter les ToR vers plus d’équilibre entre apprentissage et redevabilité pour un accompagnement SE itératif

L’intégration de la phase suivant la validation du rapport d’évaluation dans l’apprentissage institutionnel se fait par le double levier du suivi des recommandations/orientations de l’évaluation et de la capitalisation/mutalisation des enseignements tirés d’autres projets, programmes et composantes. ➡ les équipes d’évaluation doivent être impliqués au-delà de la validation du rapport

En conclusion, à trop vouloir réduire le suivi évaluation à des cadres de performance, les effets inverses sont obtenus. Le suivi évaluation enferme les projets dans leurs ambitions de départ. Des objectifs qui se cristallisent au moment où le contexte d’intervention et les montants budgétaires sont encore flous ; au lieu de les aider à monter en puissance et à réajuster le tir en permanence.

SLICKS, de par des diagnostics de départ approfondis, une rigueur méthodologique stricte, un alignement avec les politiques nationales, des liens forts avec la recherche, via la volonté de transformer ses expériences pilotes en plan d’action et stratégie des politiques municipales, et/ou plus simplement via la création des liens professionnels et amicaux évite ses écueils.

Mais encore grâce à une certaine souplesse du bailleur de fond permettant de saisir des opportunités localement. Sans oublier des équipes supports engagées, maitrisant parfaitement les rouages de l’instrument de financement. Enfin des compétences parfois disparates mais souvent solides en « project management » à Kampala à l’instar d’autres environnements anglophones.

Des qualités qui confère à SLICKS des allures de de projet modèle.

Un projet pourtant dorénavant clôturé, classé, sans opportunité de suivre ou de poursuivre les dynamiques engagées. Certains usages et ancrages perdureront probablement. D’autres non. Nous ne sommes plus en situation de le mesurer. As usual.

Si la mayonnaise ne prend pas toujours, la recette est pourtant connue.

La consultation, la participation, la réciprocité, l’adéquation au contexte, l’alignement avec les politiques nationales sont partie intégrante de tout manuel de suivi évaluation.

Une dernière recommandation alors qui vise un effet sur toute les autres :

➡ La création d’un pool d’accompagnement, multidisciplinaire, hébergé au niveau du bailleur

Ce type de structure (pôle d’expertise, centre d’assistance, facilité d’accompagnement,…) dans tout fond de subventions, vise des objectifs variés :

apporter un appui technique aux équipes opérationnelles pour le montage et la gestion de projet
contribuer et donner forme à la mémoire du développement
production de supports méthodologiques
favoriser activement les synergies entre la multitude de projets exécutés de manière isolée
établir un caractère permanent au lien avec la recherche

De nombreuses « facilités » existent déjà, néanmoins de manière isolées. Dans son absence, reste la perception ou le style de management de chaque responsable de programme : dans le contrôle ou l’accompagnement ?

Pour finir, constatons que les recommandations ci-dessus sont récurrentes depuis des décennies. Les lacunes, persistent. L’évaluation reste finale, contractuelle, inexploitée : pourquoi ? Dans le cadre de projets, suivre les facteurs favorables ou limitants est aussi cruciale que mesurer les effets. Il s’agira d’insérer systématiquement dans toute évaluation une partie liée à l’analyse du contexte propice ou non à l’évaluation. Le positionnement de l’évaluation dans l’organigramme. Analyser puis relier contribution directe des données et apprentissages SE à la prise de décision stratégique au plus haut niveau.

L’œuvre de Muramuzi explore la nature et la vie rurale-urbaine ougandaise, de la flore et la faune de son village à la vie animée de la ville, incluant les marchés, les habitants, les modes de transport ainsi que les paysages urbains ou plutôt architecturaux de la dynamique Kampala. Il a cultivé son talent en participant aux projets artistiques et initiatives de son école primaire, notamment en réalisant des illustrations artistiques sur tableaux noirs.

Village of flowers. John Bosco Muramuzi.
Transition vers des villes durables, apprenantes et inclusives : retour d’expérience — Village of flowers. John Bosco Muramuzi. L’œuvre de Muramuzi explore la nature et la vie rurale-urbaine ougandaise, de la flore et la faune de son village à la vie animée de la ville, incluant les marchés, les habitants, les modes de transport ainsi que les paysages urbains ou plutôt architecturaux de la dynamique Kampala. Il a cultivé son talent en participant aux projets artistiques et initiatives de son école primaire, notamment en réalisant des illustrations artistiques sur tableaux noirs.

En bref

L’expérience SLICKS permet d’entrevoir diverses recommandations pragmatiques applicables à tout projet de transformation urbaine.

Une recommandation néanmoins permettrait un effet levier sur toutes les autres : la constitution de pools d’accompagnement des projets au niveau du bailleur de fonds. Pour se faire, l’évaluation doit également être positionné à un niveau stratégique et non plus une simple mesure de la performance des équipes opérationnelles.

1. Formalisation du SSE en phase de montage

Définir et formaliser le système de suivi-évaluation dès la phase de montage, avec validation du comité de pilotage, tout en tenant compte de son caractère évolutif.

2. Accompagnement de la phase de montage

Au niveau du bailleur, engager une analyse transversale des blocages en phase de montage, et combler le déficit de littérature existante concernant l’appui à l’écriture de projet (vs manuel de mise en oeuvre). Réallouer les ressources pour renforcer la phase de montage, solliciter des scénarios alternatifs systématiques.

3. Dépasser les critères du CAD

Intégrer des critères d’évaluation spécifiques (gouvernance, consultation, participation, la réciprocité, adéquation au contexte, alignement avec les politiques nationales,…)

4. La maintenance du SSE comme outil de pilotage stratégique

Organiser des séminaires SEA périodiques, pour partager les apprentissages, libérer la parole, ajuster les questions évaluatives et les méthodes, renforcer les capacités des acteurs impliqués en SE

5. Organiser le transfert d’expérience et de compétences en SE, des programmes de coopération vers les politiques publiques

Reconnaître et valoriser les compétences structurées en suivi évaluation des coordinateurs de projets de coopération ; établir des passerelles afin de transférer l’expérience en suivi-évaluation de la coopération vers l’évaluation de politiques publiques

6. Embarquer une ingénierie pédagogique

Associer aussi systématiquement que possible une expertise interne en ingénierie de formation à tout projet de coopération incluant du renforcement de capacités

7. Embarquer les organisations de formation professionnelle

Approcher systématiquement les organismes nationaux de formation professionnelle continue dans les projets de coopération pour assurer le transfert et la durabilité des actions de renforcement des capacités.

8. De la coopération décentralisée à la transition des territoires

Favoriser une dynamique d’échanges réciproques entre agents des collectivités locales et opérateurs des RRMA afin de mutualiser les expertises et renforcer les capacités de tous les acteurs territoriaux.

9. Un pont entre théorie et pratique : les partenariats universitaires

Établir dès le lancement de chaque projet un partenariat avec une formation universitaire en gestion de projet pour le partage d’expériences et la création de supports de formation basés sur le projet.

10. Mémoire institutionnelle

Vérifier et garantir la publication systématique des évaluations finales externes et leur accès via une base de données simplement accessible afin de renforcer la redevabilité et consolider la mémoire institutionnelle.

11. Des termes de référence évolutif pour ajuster l’évaluation et répondre à des besoins opérationnel émergents

Ajuster les Termes de Référence (ToR) pour assurer un équilibre entre apprentissage et redevabilité, où l’évaluateur externe peut également jouer un rôle de facilitation et participer à prolonger les effets d’un projet clôturé

12. Poursuivre la relation au-delà de la remise du rapport d’évaluation

Impliquer les équipes d’évaluation après la validation du rapport pour assurer le suivi des recommandations et la capitalisation des enseignements.

Pour aller plus loin

Project summary, KCCA, 2024

Voir « feuille de route de l’influence, MEAE, 2021″ ↩︎
De « Vingt ans d’aide au Sahel – Trouver des problèmes aux solutions« , Club du Sahel, Jean-David Naudet, 1999 à « Quelle stratégie pour la France en Afrique ? Pierre Prod’homme, Revue Défense Nationale, 2023
↩︎
Par exemple, en 1973, Schumacher en prônant des solutions à petite échelle, des technologies appropriées et l’autonomisation locale, dans son ouvrage « Small Is Beautiful : A Study Of Economics As If People Mattered » fournit un cadre conceptuel pour concevoir des projets dont les bénéfices sont susceptibles de perdurer grâce à l’appropriation et aux capacités locales, rejoignant ainsi l’essence du critère de durabilité du CAD de l’OCDE (1991.) ↩︎

Commission d’évaluation de l’aide publique au développement : début des nominations

La parution du décret

Le décret relatif aux modalités de fonctionnement de la commission de l’aide publique au développement est paru le 8 février 2025. Pour rappel, la commission est composée de deux collèges : un collège de 4 parlementaires (2 députés, 2 sénateurs) et un collège de 10 experts indépendants (désignés par décret).

Les 2 postes de députés ont été pourvus le lundi 24 mars 2025, la Présidente de l’Assemblée nationale a désigné Sabrina Sebaihi et Hervé Berville.

Sabrina Sebaihi représente la 4e circonscription des Hauts-de-Seine et siège au groupe Écologiste et Social à l’Assemblée nationale. Elle est membre de la Commission des affaires étrangères et a été réélue en 2024.

Egalement réélu en 2024 et membre de la Commission des affaires étrangères, Hervé Berville siège pour sa part avec le groupe Ensemble pour la République. Il a occupé le poste de Secrétaire d’État à la Mer de 2022 à 2024.

Un peu d’IA pour se projeter et identifier quelques critères d’évaluation

Si nous demandons à Perplexity Pro d’anticiper les critères d’évaluation ou questions évaluatives en fonction des profils des intéressés (voir ci-dessous), les retours sont très classiques avec des questions souvent récurrentes dans les projets et programmes de coopération.

Sauf, sans doute, la question centrale de l’indépendance du mécanisme de suivi évaluation¹, qui constitue l’essence même de cette commission. Laquelle s’apprécie notamment à travers le recrutement et la composition de ses membres, actuellement en cours. A travers le choix des nominations, de l’autorisation de points de vue disruptifs ou non se joue en partie l’utilité de cette commission. Bien sûr, son champ d’action dépendra également des moyens alloués pour aller chercher des réponses.

Au coeur de la matrice, des critères sur l’indépendance de la Commission d’Évaluation

Prompt : « Quelles questions évaluative et critères pour estimer l’indépendance d’une commission d’évaluation de l’aide au développement ? (Gemini 2.5)

1. Indépendance statutaire et structurelle (les fondations)

Ce critère évalue si les textes fondateurs et la composition de la commission la protègent des influences politiques et institutionnelles.

➲ La composition et le processus de nomination garantissent-ils la pluralité et la compétence, à l’abri des pressions ?

Transparence de la nomination des experts : y a-t-il eu un appel à candidatures public ? Les critères de sélection sont-ils connus ?

Diversité des profils d’experts : la composition reflète-t-elle une diversité d’expertises (économie, sciences sociales, environnement, géopolitique) et de courants de pensée (critiques, réformistes, etc.) ?

Irrévocabilité du mandat : les membres peuvent-ils être démis de leurs fonctions avant la fin de leur mandat ? Si oui, pour quels motifs et selon quelle procédure ? Un mandat irrévocable (sauf faute grave) est un gage d’indépendance.

2. Indépendance opérationnelle et méthodologique (le pouvoir d’agir)

Ce critère apprécie la liberté de la commission dans la conduite de ses travaux au quotidien.

➲ La commission est-elle libre de définir son programme de travail et ses méthodes ?

Autonomie de programmation : qui décide des politiques et projets à évaluer ? La commission elle-même, ou répond-elle à des saisines du gouvernement ou de l’AFD ? Un bon équilibre serait une majorité de son agenda auto-défini.

Libre accès à l’information : la loi garantit-elle à la commission un accès total, direct et rapide à toutes les données et documents de l’AFD et des ministères concernés, y compris les informations confidentielles ?

Choix des méthodes : la commission est-elle souveraine dans le choix de ses méthodologies d’évaluation, sans que l’administration puisse imposer un cadre ou un angle d’analyse ?

3. Indépendance financière et matérielle (les moyens de l’indépendance)

Ce critère est crucial : sans moyens propres et suffisants, l’indépendance reste théorique.

➲ Les ressources de la commission sont-elles suffisantes et sanctuarisées ?

Origine et pérennité du budget : le budget est-il inscrit sur une ligne propre dans la loi de finances (voté par le Parlement) ou dépend-il du bon vouloir d’un ministère ou de l’AFD ? Est-il pluriannuel pour assurer une visibilité ?

Adéquation du budget : le montant alloué permet-il de mener plusieurs évaluations approfondies par an, incluant des missions de terrain coûteuses ?

Autonomie de gestion : la commission dispose-t-elle de son propre secrétariat permanent et peut-elle recruter librement son personnel et ses consultants externes, sans dépendre des effectifs des administrations qu’elle évalue ?

4. Indépendance dans la diffusion et le suivi (la portée des travaux)

Ce critère évalue si la commission peut communiquer ses résultats sans filtre et si ses recommandations ont un réel impact.

➲ La commission maîtrise-t-elle sa communication et le suivi de ses recommandations ?

Politique de publication : les rapports sont-ils rendus publics dans leur intégralité et de manière simultanée à leur remise au gouvernement et au Parlement ? Y a-t-il un risque de censure ou de retard de publication ?

Obligation de réponse : le gouvernement et l’AFD sont-ils légalement tenus de répondre publiquement aux recommandations de la commission dans un délai imparti ?

Dialogue direct avec le Parlement : la commission présente-t-elle ses travaux directement devant les commissions parlementaires (Affaires étrangères, Finances) pour alimenter le débat public et le contrôle démocratique ?

Avant de retomber sur une grille de questions évaluatives plus classique et transversale

Prompt : « Compte tenu des prises de positions antérieures de Sabrina Sebaihi et de Hervé Berville, ainsi que du contexte international actuel, quels critères et questions évaluatives pourraient-ils proposer conjointement pour évaluer l’aide publique au développement française ? (Perplexity pro)

Efficacité et redevabilité

A quel point les résultats sont-ils conformes aux objectifs ?
A quel point les rapports d’avancement sont précis, honnêtes et crédibles ?
Quel équilibre entre des différents niveaux de redevabilité (envers les citoyens, envers les différents parlements, envers les bailleurs de fonds, etc.)

Partenariat équitable et horizontalité
- L’approche dépasse-t-elle les relations État-État pour impliquer la société civile ?
- Les pays bénéficiaires participent-ils à la définition des projets qui les concernent ?
Durabilité environnementale et justice climatique
- Comment l’APD contribue-t-elle à la protection de l’environnement et à la lutte contre le réchauffement climatique ?
- Les projets financés sont-ils compatibles avec les objectifs de l’Accord de Paris ?
Transparence budgétaire
- La budgétisation des fonds permet-elle de distinguer l’APD « réelle » ?
- Comment évaluer l’impact de la taxe sur les transactions financières dans le financement du développement ?
Cohérence des politiques publiques
- Existe-t-il une coordination efficace entre diplomatie, défense et développement (approche « 3D ») ?
- L’APD est-elle alignée avec les autres politiques françaises (commerciale, migratoire, etc.) ?
Inclusivité et réduction des inégalités
- Les projets intègrent-ils une dimension de genre et favorisent-ils l’autonomisation des femmes ?
- Comment l’APD contribue-t-elle à réduire les inégalités dans les pays partenaires ?

En conclusion

Nous obtenons ainsi un triptyque.

La commission d’évaluation, une fois constituée, pourra jouer la fonction d’évaluation indépendante.
La politique de suivi et d’évaluation du groupe AFD illustre, d’un point de vue interne, la gouvernance de l’évaluation².
Le Fonds d’Innovation pour le développement, sous l’égide de l’AFD et présidé par Esther Duflo finance – tranche par tranche – et accompagne des projets innovants en les dotant de méthodes d’évaluations scientifiques et rigoureuses.

Du juste équilibre des 3 composantes, indépendance, gouvernance et expérimentation mais encore de la fonctionnalité de chacune, dépendra la cohérence d’ensemble du système de suivi et évaluation ainsi développé.

Néanmoins, quelle autre politique publique ou ministère dispose :

d’une commission indépendante d’évaluation ?
d’une politique interne de suivi et d’évaluation ?
d’un dispositif de financement de l’innovation présidé par un ou une prix Nobel d’économie ?

Ainsi, dès 2012, lors de la conférence « Malaise dans l’évaluation » , l’AFD notait que si l’efficacité de l’aide au développement est régulièrement décriée, elle est toutefois la politique publique la plus évaluée.

Un enjeu sera ainsi le transfert des apprentissages de cette commission et le déploiement de cette architecture de l’évaluation (commission indépendante, politique interne et financement de l’innovation) à toute autre politique publique. Notamment les politiques de transition des territoires.

Pour aller plus loin

Assemblée nationale : transparence, efficacité et impact de l’aide publique au développement, séance du jeudi 27 mars 2025
Politique de suivi et d’évaluation du groupe AFD, mars 2024
Fonds d’innovation pour le développement

Retour d’expérience sur l’utilisation de l’IA en évaluation de projets

Ce post informel vise à comparer deux évaluations de projets finales, réalisées en 2024/2025, la première sans recours à l’IA et la seconde avec un recours partiel à l’IA.

En terme de contexte, il s’agit d’évaluations externes de projets de coopération décentralisée, dans le domaine de la transition urbaine et de la transformation des territoires.

La première en Tunisie sur les thématiques de la mobilité douce et de la participation citoyenne (projet Autrement : Aménagement Urbain du Territoire pour REinventer les Mobilités et ENgager les Tunisiens). La seconde en Ouganda sur des thématiques multiples (éducation, agriculture urbaine, développement de corridors écologiques, réhabilitation de zones humides,…) : le projet SLICKS (Sustainable, Learning and Inclusive Cities).

L’IA n’a pas été utilisée pour des phases d’écriture. Plutôt pour éclaircir et analyser le contexte, résumer des documents, retrouver des informations éparpillées, très peu pour de la compilation de données.

Les outils utilisés ont été principalement :

l’abonnement pro de Perplexity (23€ par mois)
Chatbot arena

Chatbot arena est à l’origine un projet de recherche, très pratique, il permet sans compte et sans identification préalable de comparer les réponses de 2 modèles de IA, choisis de manière aléatoire, avec pour objet de voter pour la meilleure réponse.

Ce retour d’expérience sur l’utilisation de l’IA en évaluation de projet est par essence déjà partiellement obsolète : l’interface de Perplexity pro a par exemple en l’espace de quelques mois déjà évoluée à de multiples reprises.

Etude documentaire

Dans le cadre de Autrement, moins d’une dizaine de documents avaient été fournis initialement, essentiels, et environ une demi-douzaine ont été sollicités en cours d’évaluation. En terme de bonne pratique, un dossier avait été préparé à destination de l’évaluateur avec un mémo présentant les différents documents.

Sur fonds européens, une énorme attention avait été portée à la communication dont la production contractuelle d’une stratégie et d’un plan de communication. Très populaire en Tunisie, l’actualisation régulière de la page facebook du projet en était le vecteur principal.

Aseptisés, les rapports semestriels de suivi ne permettaient que trop vaguement de retracer le cycle de vie du projet. Détourné de leur usage, seule la relecture des posts facebook souvent bi-hebdomadaires sur une durée de 3 ans a permis de saisir un certain quotidien du projet dans sa chronologie. S’imprégner des commentaires, analyser les images mises en avant ou comprendre en regardant les arrières plans (kakémonos, buffets, feuilles de présences,…) l’immense charge opérationnelle sur une équipe tout à fait réduite qui a organisé des centaines d’évènements. Une ré-appropriation tardive (le projet était alors déjà clôturé) mais nécessaire pour l’évaluateur, sans doute inaccessible via l’utilisation de l’IA.

A l’inverse, sur SLICKS, le projet avait produit et transmis près d’une centaine de documents, tous aussi intéressants les uns que les autres, mais encore en vrac, à l’approche de sa clôture.

L’avantage de Perplexity pro était justement de pouvoir télécharger des documents. L’usage de l’IA a alors permis de compiler/résumer chaque document pour ensuite les intégrer manuellement dans un tableur avec le titre et la date de la production, les auteurs et une note de commentaire.

L’avantage de la lecture directe – sans appui de l’IA – est cependant en bout de course, c’est à dire en fin d’évaluation, cette impression de connaitre « intimement » chaque document, parcouru des dizaines de fois, savoir où trouver une information précise, avoir détecté parfois en lisant à travers les lignes les sources de motivations, les déceptions, une appréciation sur la qualité des partenariats, les conflits larvés, les modes de travail, les grains de sables dans les rouages de la machine. Cette double lecture, déjà souvent rendue difficile en raison du discours policé des formats de reporting, devient alors totalement insaisissable avec l’IA, avec une masse uniforme des documents, ne reste plus qu’un tout impersonnel.

A l’inverse, j’ai le souvenir sur d’autres projets de rapports semestriels tellement imbuvables (« le 12 janvier nous avons eu une réunion avec x, le 26 février se tenait le séminaire avec y,… ») que la fonction de résumé, d’extraction des idées clés, de simplification grâce à l’IA est alors extrêmement louable. Mais encore, il faut savoir paramétrer son IA car lui demander de lire « entre les lignes » peut être tout simplement bluffant.

Collecte de données

Analyse du contexte

En ce qui concerne le contexte tunisien, étaient systématiquement évoquées des lourdeurs et complexités administratives. Néanmoins, les entretiens individuels n’ont jamais permis de reconstituer – dans le détail ou dans le temps imparti – la réalité de cette complexité. L’IA aurait sans doute été précieuse pour aider à reconstituer précisément chaque procédure administrative et identifier les principaux points de blocage.

En ce qui concerne l’évaluation ougandaise, l’IA a tout d’abord servi de béquille, toujours via l’accès aux documents (lorsque comme moi vous avez une mauvaise mémoire…) permettant surtout un gain de temps :

Comment s’appelait tel agent de la municipalité ? Et le nom de la zone humide ? L’acronyme de l’agence de l’environnement ? La date du deuxième comité de pilotage ?

Mais encore d’effectuer directement quelques calculs : quelle est la répartition du temps de projet entre la phase de développement et la phase de mise en œuvre ?

En ce qui concerne l’analyse du cadre logique, l’IA a peu été sollicitée. Quelques questions comme « quelle est la proportion d’indicateurs atteint/non atteint » ou « quels indicateurs potentiellement pertinents sont absents ? » ont bien été posées. Mais le format du cadre logique, avec de multiples notes qualitatives permettant d’apporter des nuances ou de mieux interpréter les résultats rendait périlleuse toute délégation qui n’aurait pas été vérifiée « manuellement. »

Astuce : le prompt « trouve les indicateurs qui étaient présents dans le cadre logique initial et qui ne sont plus présents dans le cadre logique final » est bien plus éclairant pour identifier les objectifs abandonnés en cours de route que la seule analyse des indicateurs non atteints !

Par contre, en ce qui concerne l’analyse des contextes, l’IA permet sans doute d’aller droit au but dans ses recherches : « quel est le montant des investissements français en Ouganda ? y’a-t-il eu des cas d’expropriation sur des projets de restauration de zone humide soutenus par des bailleurs de fonds ? Quelle est la proportion de l’aide française allouée à la coopération décentralisée ? Quelle est l’ampleur de la coupe budgétaire de l’APD française sur le budget 2025 ? », etc.

C’est sans doute à double tranchant car répondre à ces mêmes questions par tâtonnement tout en consultant de multiples sources permet d’obtenir progressivement et même involontairement d’autres éléments de contexte pertinents.

Phase d’écriture

Comme indiqué plus haut, l’IA n’a pas été utilisée pour générer du texte qui aurait été incorporé à l’évaluation. Des textes générés, à titre d’essais, pour reproduire le déroulé chronologique des actions n’étaient pas satisfaisants et devaient systématiquement être repris.

D’autres textes, toujours à titre d’expérimentation, étaient bluffants mais nécessitaient un travail préalable de génération de prompt aussi conséquent en terme de temps que le travail direct d’écriture…

L’IA aurait éventuellement pu permettre une fois l’écriture achevée, manuellement, de tout reformuler dans le language attendu, plus direct, des phrases moins alambiquées que celles que vous subissez ici, des clarifications pour des acteurs ayant des connaissances variables du projet. Décliner plusieurs versions en un simple clic, etc. Cela demande néanmoins un certain détachement de l’évaluateur pour considérer son texte comme un objet purement administratif mais aussi une phase de travail complémentaire, afin d’exclure toute perte de sens du texte initial. Une nouvelle phase chronophage et non prise en compte dans les termes de référence initiaux.

En bref

J’ai souvent été pris entre 2 feux : entrer directement dans le vif du travail d’évaluation ou prendre le temps de s’en écarter pour générer des prompts de qualité, bien organiser ses espaces (les dossiers où sont rangés les documents dans Perplexity) et les subtilités toujours changeantes entre les potentialités de requête (web, documents des espaces, académiques, forum de discussion,…). Dans cette période de far west de l’IA, les mises à jour et évolutions ergonomiques étaient quasi-quotidiennes.

Priorisant la première option, avec des requêtes mal formulées, sans comprendre comment s’organisait le périmètre de lecture ou la hiérarchisation des données lorsque qu’une requête recouvrait potentiellement des dizaines de documents, j’ai aussi souvent eu l’impression de perdre du temps. Ou encore, s’agacer face à des discussions qui ne suivent plus le fil de discussion et repartent de zéro. Commencer une tâche avec l’IA, pester et la finir humainement au « jus de cerveau déconfit » .

Ce n’est pas le même métier

Au final, en terme de tâches, ce n’est plus vraiment le même métier. Dans son approche traditionnelle, artisanale, il y a une certaine satisfaction d’un travail d’évaluation achevé : construire un texte, organiser des points de vue, transmettre des recommandations. Satisfaction que je ne retrouve pas forcément en tant que « dresseur d’IA ». Pas plus qu’en tant que manager d’une équipe d’évaluation par ailleurs, chacun ses appétences.

Du point de vue du bailleur ou du commanditaire

Triste constat ou non, le gain de qualité d’une approche artisanale n’en vaut pas forcément le surcoût. Tout dépend des enjeux et du contrat initial.

En ce qui concerne les enjeux, bien sûr à l’échelle d’une politique publique, ce surcoût est négligeable. Ou plutôt à coût équivalent, une approche classique pourra utiliser l’IA pour couvrir un périmètre plus vaste et générer des analyses plus profondes.

Pour l’évaluation de relativements modestes projets de développement comme ceux pris ici en exemple, visant à analyser leurs performances dans un cadre contractuel, le gain d’une mobilisation d’un consultant sur 30 jours versus un premier jet rapide de « gavage » d’IA (analyser les documents de projets grâce à un prompt fourni et détaillé) est sans doute fine – mais encore pourrait générer un gain de cohérence global de l’exercice : même pondération, même appréciation des critères,…

D’où la référence au contrat initial, et particulièrement à l’adaptation des TdR (termes de référence).

En effet, au-delà de l’approche IA ou traditionnelle, de l’inclusion de l’IA ou non, les limites de ce genre d’exercice d’évaluation perdurent au fil des années puis des décennies :

l’évaluation arrive trop tardivement dans le cycle de projet et ne participe pas à révéler les valeurs qui sous-tendent l’action
le dispositif de suivi et évaluation ne concerne que la phase opérationnelle, les cafouillages récurrents et semble-t-il systématique des phases de montage de projet ne sont pas documentés et sortent du périmètre de l’évaluation
le système de suivi évaluation n’est pas validé par le comité de pilotage sous la forme d’un document formalisé (comme peut l’être la stratégie de communication évoquée plus haut sur les projets européens)
les termes de références sont élaborés en amont et ne sont pas réactualisés tout au long de l’évaluation pour affiner les centres d’intérêt et questions évaluatives
les projets évoluent en silo sans mise en commun des apprentissages
des cycles de projets unique, trop court, ne permettant pas à l’évaluation de dégager des effets mais uniquement les impulsions générées
pas de visibilité sur le parcours de l’évaluation une fois celle-ci achevée
la perception partagée que seule la présentation powerpoint sera lue et que tout doit apparaitre dans le résumé exécutif « pour ceux qui ne lirons que le résumé exécutif »

L’IA pourrait ainsi permettre, à budget égal de mieux répartir le suivi évaluation tout au long du cycle de projet :

programmer dès le démarrage la remise de l’ensemble des pièces constitutives du système de suivi évaluation : modélisation, cadre logique, présentation du SSE, évaluation à mi-parcours, évaluation finale
adopter des formats courts et itératifs (par exemple plutôt qu’un long rapport d’évaluation, une présentation type powerpoint qui va être présentée dès le retour du terrain puis évoluer à différents moments clés pour inclure les différentes perceptions qui auront émergées)
améliorer les cadres logiques initiaux en fonction d’erreurs récurrentes sur l’utilisation de la méthode (omission des phases d’analyse initiale, absence d’indicateurs permettant de qualifier et quantifier l’évolution des risques, d’apprécier les vents contraires, déséquilibre entre indicateurs de réalisations et d’effets, terminologie qui diffère dans le cadre logique d’un projet à l’autre…)
extraire et confronter les apprentissages de projets similaires comme base préalable de toute écriture de projets

Mais surtout, l’utilisation (voire l’autorisation ou non) de l’AI et sur quelles tâches doit être précisée dans les termes de références puis re-spécifié en fonction de la réponse de l’équipe d’évaluation. Un texte généré en quelques minutes ou un travail de recherche de plusieurs jours ne saurait être rémunéré de la même façon.

Un paragraphe dédié à l’utilisation de l’intelligence artificielle dans les ToR

L’utilisation et quelle utilisation de l’AI est autorisée ou attendue doit être explicité dans les termes de référence et discuté âprement avant tout contractualisation car elle modifie de manière substantielle le nombre de jours prestés.

Quelques outils IA :

Des centaines d’onglets ouverts, des questions qui tournent dans plusieurs fenêtres et vous ne savez plus ni où est votre question initiale ni comment accéder aux réponses générées ? Allez vous coucher ou essayer le lien suivant comme base de départ :

Recueil d’outils IA

Contexte :

En bref : cet article présente une expérimentation d’outils IA dans le cadre d’une évaluation de projet en Ouganda, dans la foulée d’une autre évaluation menée sans IA en Tunisie (les deux phases de terrain ayant eu lieu en 2024). L’objectif était de voir concrètement ce que l’IA pouvait apporter au métier d’évaluateur.

L’IA s’est montrée particulièrement efficace pour des tâches de recherche et de synthèse d’informations factuelles :

– Clarifier le contexte : retrouver des informations sur des procédures administratives, des acronymes, des dates, etc.

– Traiter une grande masse de documents : pour le projet en Ouganda, l’IA a permis de compiler et de résumer une centaine de documents, ce qui aurait été particulièrement chronophage manuellement.

– Perte de la « compréhension intime » : l’analyse manuelle des documents, bien que plus lente, permet une immersion profonde dans le projet, des points de détails aléatoires, une compréhension des non-dits et des dynamiques humaines que l’IA ne saisit pas forcément.

L’IA a été peu utile pour analyser des éléments du cadre logique, car le risque d’hallucination et les nécessaires vérifications rendaient une analyse automatisée plus chronophage qu’une simple analyse manuelle. De la même manière, non convaincu par la qualité des textes fourni et des multiples niveaux d’adaptation nécessaires, une écriture manuelle était jugée plus rapide.

Néanmoins avec l’amélioration continue des modèles, le temps dédié à la génération de prompts est de mieux en mieux investi, avec des possibilités d’exploitation vertigineuses. En quelque secondes, il est désormais possible de faire analyser un étude de base, une évaluation à mi-parcours une évaluation finale d’un même projet et obtenir un niveau de qualité, qui même s’il est perfectible, freinera les ardeurs de tout commanditaire à mobiliser des ressources complémentaires.

Retour d’expérience sur l’utilisation de l’IA en évaluation de projets — Les métiers de l’évaluation : avant/après

Ressources en ligne

Considerations and Practical Applications for Using Artificial Intelligence (AI) in Evaluations, Technical Note, D. Cekova, L. Corsetti, S. Ferretti and S.Vaca, CGIAR, june 2025

UNEG Ethical Principles for Harnessing AI in United Nations Evaluations, 2025

Pour aller plus loin

Intelligence artificielle : les outils
Retour d’expérience sur l’utilisation de l’IA en évaluation de projets
Structurer un système de suivi évaluation apprentissage avec l’IA
Ressources IA
Notes

Commission d’aide publique au développement

CEAPD : publication du décret relatif aux modalités de fonctionnement

Trois ans et demi après la promulgation de la loi instituant la commission d’évaluation de l’aide publique au développement (APD), le décret relatif aux modalités de fonctionnement est paru le 8 février 2025. La commission sera composée de deux collèges :

un collège de 4 parlementaires (2 députés, 2 sénateurs)
un collège de 10 experts indépendants (désignés par décret)

La commission s’assurera par exemple que « les évaluations réalisées par les différents acteurs français de la politique de développement soient publiques et disponibles de manière centralisée » .

Le président sera élu parmi les membres du collège des experts à la majorité simple. Dans l’exercice de leurs missions au titre de la commission d’évaluation, ses membres ne reçoivent aucune instruction.

A titre comparatif, l’ICAI britannique (Independent Commission for Aid Impact) qui a inspiré cette commission avait mis un peu moins de 14 mois pour être installé en 2011 avec un mécanisme de revue triennale pour ajuster son mandat. Quelques éléments d’inspiration de l’ICAI :

une indépendance opérationnelle : budget propre de 1,8 millions de livres en 2023
suivi des recommandations : 89 % des recommandations de l’ICAI sont mises en œuvre sous 12 mois
méthode « beneficiary first » avec 45% du budget alloué aux enquêtes locales
des mécanismes de plainte directe pour les bénéficiaires (12 000 signalements traités en 2024)

Ce délai de 3 ans et demi entre le vote de la loi et le décret relatif aux modalités de fonctionnement soulève son lot de questions évaluatives. Notamment celle du périmètre de l’évaluation des politiques publiques. Dans quelle commission d’évaluation s’enchâsse celle de l’aide publique au développement ? Quelles mécanismes de contrôle et de régulation autorisent de tels délais ? L’évaluation des programmes de développement doit être rattachée à un tout et à l’évaluation des politiques publiques dans son ensemble.

Voir également : les profils de coopération pour le développement : France, OCDE, juin 2025

Commission d’évaluation de l’aide publique au développement

Instaurée par la loi du 4 aout 2021, la commission d’évaluation de l’aide publique au développement attendait début 2025 son décret pour la nomination effective de ses membres.

Cette commission d’évaluation de l’aide publique au développement a été inspirée par la britannique ICAI (Independent Commission for Aid Impact), installée en 2011 avec un mécanisme d’évaluation triennale de son mandat.

Ainsi, si la commission d’évaluation française disposait du même mécanisme de revue triennale que ses homologues britanniques, avec une première échéance théoriquement due en 2024, l’autorité aurait simplement pu constater que 3 ans après la promulgation de la loi, les membres attendaient toujours d’être nommés.

Dans ce long tunnel d’attente de l’installation, voici quelques autres fondements du mécanisme britannique dont la commission française pourrait s’inspirer :

indépendance opérationnelle : budget propre de 1,8 millions de livres en 2023
suivi des recommandations : 89 % des recommandations de l’ICAI sont mises en œuvre sous 12 mois
méthode « beneficiary first » avec 45% du budget alloué aux enquêtes locales
des mécanismes de plainte directe pour les bénéficiaires (12 000 signalements traités en 2024)

La première « review » de l’ICAI en 2013 s’interrogeait par ailleurs son propre rôle : viser l’exhaustivité de la répartition de l’aide ou plutôt se concentrer sur des thématiques spécifiques, en réponse aux besoins exprimés par la DFID (Department for International Development, aujourd’hui remplacée par le Foreign & Commonwealth Office) ?

Le budget de l’ICAI correspond à 0,022 % du total des dépenses d’APD du Royaume-Uni en 2023, estimé à une enveloppe totale de 8,3 milliards de livres sterling. Un montant toutefois considéré comme bien faible pour prétendre à une quelconque exhaustivité de l’évaluation de l’aide, lorsque à l’échelle d’un seul programme/projet, 3 à 7% du budget global devrait être consacré à la mise en place du système de suivi et évaluation.

Les différents périmètres de l’évaluation

L’évaluation des projets et programmes de développement (souvent évalués à titre contractuel), s’imbriquent dans l’évaluation de l’aide publique au développement (dont la commission attend la nomination effective), laquelle s’imbrique de manière plus large dans l’évaluation des politiques publiques.

Avancer sur un seul périmètre (l’évaluation de la politique d’aide au développement) sans développer un mécanisme plus large d’institutionnalisation de l’évaluation empêche de hiérarchiser les questions évaluatives, d’interroger la cohérence de l’ensemble pour aboutir à ce type de dérive, 3 ans pour la simple nomination d’une commission.

La principale question évaluative émanant de cette expérience étant de comprendre les mécanismes, de trouver les parades et modalités de prises de décision, d’engager des responsabilités afin que ce type de délais entre promulgation et mise en application ne soit plus acceptable ou toléré.

En bref : instaurée par la loi du 4 août 2021, la commission française d’évaluation de l’aide publique au développement n’est toujours pas opérationnelle, début 2025 ses membres attendent leur nomination par décret. Ce blocage révèle une difficulté à institutionnaliser l’évaluation des politiques publiques mais surtout la priorité d’appliquer l’évaluation à une question plus large et basique : comment analyser, comprendre et corriger les défaillances institutionnelles qui permettent un tel délai entre la promulgation d’une loi et sa mise en application effective ?

Commission d’évaluation de l’aide publique au développement

Pour aller plus loin :

les différents types d’évaluation/les différents périmètres de l’évaluation

Pauvreté, climat inégalités mondiales : appliquer la loi d’orientation et de programmation sur la solidarité internationale, Coordination Sud, juillet 2024

Evaluations embarquées

Mobilité urbaine et participation citoyenne

Le centre de ressources EVAL a réalisé en 2024 l’évaluation finale du projet AUTREMENT, dont l’objet est de promouvoir un développement urbain durable autour de deux axes : le développement de modes de mobilités douces par la mise en place d’aménagements urbains dédiés, le renforcement de la participation citoyenne dans la gouvernance locale.

En complément de l’exercice d’évaluation externe, contractuel, il a été proposé de constituer un groupe d’utilisateurs et d’utilisatrices de l’évaluation, c’est à dire d’identifier des responsables de projets/programmes sur des thématiques similaires, susceptibles d’utiliser les leçons apprises sur le projet Autrement, afin de les insuffler dans l’écriture de leur propres projets/programmes.

Les leçons apprises ne sont pas spécifiques au secteur de la mobilité douce et concernent avant tout l’intégration adéquate du suivi évaluation dans le cycle de projet. Egalement, une page internet a été créée sur ce site afin d’héberger les principales productions du projet Autrement et conserver les ressources d’intérêt pour tout programme en lien avec la mobilité active ou la participation citoyenne. Voir ci-dessous :

Ressources : projet Autrement

Déception, désillusion et malaise dans le secteur de l’aide au développement : invitation à une conversation

Ce rassemblement a eu lieu lors de la conférence Australasian AID 2023, malheureusement sans laisser de traces consultables. Les questions cependant demeurent.

Invitation to a conversation : what would it look like if we acted our discomfort about international development ?

Vous demandez-vous parfois à quoi ressemblerait le développement international s’il était véritablement équitable, juste et sincère ? Ce qu’il se passerait si nous agissions délibérément sur ce malaise concernant le secteur du développement ? N’hésitez pas à partager avec celles et ceux qui s’intéressent à ces questions et aimeraient être impliqués. En fonction de l’interêt d’un premier évènement en décembre 2023 en marge de la conférence Australasian AID, un rassemblement en ligne pourrait avoir lieu en 2024 avec un nombre plus important de participants.

Déception, désillusion et malaise dans le secteur de l'aide au développement : invitation à une conversation

What would it look like if we acted our discomfort about international development

Voir également : approches critiques de l’aide au développement

Evaluation embarquée

Le centre de ressources EVAL a été retenu pour mener l’évaluation externe finale du projet AUTREMENT (Aménagement Urbain du Territoire pour REinventer les Mobilités et ENgager les Tunisiens) sur les villes de Kairouan et Madhia.

Nous souhaitons faire monter à bord des utilisateurs potentiels de cette évaluation : tout acteur intéressé par les questions de mobilité durable ou de participation citoyenne, particulièrement si vous êtes en phase de montage de projet similaire.

L’engagement souhaité est le suivant :

prendre connaissance du projet dans ses grandes lignes et faire remonter vos questions
une fois la phase de terrain achevée, réagir aux premières recommandations

Quelques échanges en visio seront proposés. L’idée est de faire vivre le groupe au delà de l’évaluation dans une dynamique de communauté de pratique.

Pour plus de détail ou manifester votre intérêt, voir ici.

Pour aller plus loin :

Ressources et retour d’expérience sur un projet d’urbanisme tactique, d’encouragement des mobilités douces à travers une participation citoyenne : le projet Autrement

Proposition de projet : I-Delphi et Deep-Delphi : une ingénierie éthique de l’IA par et pour les opérateurs de politiques publiques

Présentation et contexte

Objectif et méthodologie : créer une boucle de rétroaction factuelle

1. La Rupture Méthodologique

I-Delphi (la veille active)

Deep-Delphi (accompagnement et analyse profonde)

2. Le Système d’Alarme : Défaillances et Effets Non Anticipés

Effets souhaités

Une mémoire institutionnelle manquante

Application de la méthodologie i-delphi au secteur technologique

Transformation institutionnelle

Pour aller plus loin

Quelques écueils et observations

Apprentissages et recommandations récurrentes

Pour aller plus loin

La parution du décret

Un peu d’IA pour se projeter et identifier quelques critères d’évaluation

Au coeur de la matrice, des critères sur l’indépendance de la Commission d’Évaluation

Avant de retomber sur une grille de questions évaluatives plus classique et transversale

En conclusion

Pour aller plus loin

Sur le même sujet

Etude documentaire

Collecte de données

Phase d’écriture

En bref

Ce n’est pas le même métier

Du point de vue du bailleur ou du commanditaire

Quelques outils IA :

Ressources en ligne

Pour aller plus loin

CEAPD : publication du décret relatif aux modalités de fonctionnement

Sur le même sujet

Les différents périmètres de l’évaluation

Pour aller plus loin :

Sur le même sujet

Pour aller plus loin :