I-Delphi : une ingénierie éthique de l’IA

Proposition de projet : I-Delphi et Deep-Delphi : une ingénierie éthique de l’IA par et pour les opérateurs de politiques publiques
Présentation et contexte

Le déploiement de l’Intelligence Artificielle (IA) dans l’aide au développement et les politiques publiques mondiales créé un fossé critique : les cadres éthiques sont souvent élaborés par les puissances technologiques et économiques (les producteurs d’IA), mais les conséquences et les défaillances sont vécues par les communautés et les populations d’application (les utilisateurs finaux).

Pourtant, cette période de tâtonnement et de tests initiaux crée une urgence : celle de corriger les biais et les risques éthiques avant le déploiement massif et de potentiels effets négatifs voir irréversibles.

Actuellement, aucun organisme central ne constitue la mémoire institutionnelle des défaillances de l’IA sur le terrain. Les régulateurs se concentrent sur la conformité légale et manquent d’un système d’alerte précoce. Le projet I-Delphi cherche à combler ce vide en créant un mécanisme de veille éthique dynamique qui permette d’identifier les failles méthodologiques et les écueils éthiques afin de mieux piloter les phases de conceptions.


Objectif et méthodologie : créer une boucle de rétroaction factuelle

L’objectif du projet I-Delphi est de construire un Système d’Observatoire Éthique Participatif (OEP) pour générer des normes éthiques robustes, fondées sur les réalités du terrain.

L’intérêt n’est pas seulement de réparer les biais existants, mais d’intervenir en amont pour co-construire des solutions éthiques, intégrant ainsi la sûreté dès la phase de conception (Safety by Design).

1. La Rupture Méthodologique

Nous souhaitons transformer un réseau d’expertise patiemment construit d’environ 5 000 professionnels (responsables de projet, responsables de politiques publiques, ministères, ONG, agences) en une source de connaissance dynamique, en utilisant une méthodologie Delphi Augmentée par l’IA.

I-Delphi (la veille active)

C’est l’outil de scanning rapide qui mesure le sentiment éthique à grande échelle. L’IA soumet des questions flash au panel pour obtenir une photo immédiate des désalignements. Cette méthode permet de calculer l' »Indice de Faisabilité Éthique » d’un principe donné, révélant si les normes théoriques sont applicables et justes sur le terrain. L’objectif est la détection massive et la quantification du désaccord.

Deep-Delphi (accompagnement et analyse profonde)

Cette méthodologie est activée lorsque l’I-Delphi détecte un problème systémique. Le Deep-Delphi s’appuie sur des sous-panels ciblés et sur des cycles d’engagement longs. L’objectif est la prévention : en accompagnant les équipes en phase de test d’algorithmes (le « tâtonnement »), le Deep-Delphi identifie la causalité des biais et co-construit des solutions correctives avant le déploiement.

2. Le Système d’Alarme : Défaillances et Effets Non Anticipés

Le projet I-Delphi met en place un mécanisme de veille pour collecter et analyser les cas concrets de risques éthiques.

  • Veille dysfonctionnelle : le panel agit comme un réseau de sentinelles éthiques mondiales qui signalent les défaillances, les biais inattendus et les dommages indirects causés par l’IA dans les projets de développement et les politiques publiques.

  • Analyse de l’IA : la plateforme d’IA synthétise les remontées pour identifier les tendances systémiques (par opposition aux incidents isolés). Cela permet de distinguer un problème lié au projet d’aide d’un problème plus profond lié à la politique publique elle-même.

Exemple : une organisation développe une application mobile pour gérer l’aide alimentaire, utilisant l’IA pour optimiser les distributions. L’application, techniquement performante et sécurisée, nécessite un smartphone récent et une connexion stable. Les bénéficiaires avec des téléphones anciens sont exclus du système numérique et redirigés vers un processus manuel avec des temps d’attente triplés. Le panel détecte l’anomalie et propose des ajustements : version allégée compatible avec les anciens systèmes.


Effets souhaités

Le projet I-Delphi ambitionne de débloquer la paralysie de la gouvernance éthique en fournissant une base de preuves aux décideurs mondiaux.

  • Pour la coopération internationale : l’outil offre aux organisations multilatérales (UNESCO, ONU) et aux agences de développement des normes éthiques validées par le terrain, facilitant la transition d’une éthique déclarative à une éthique opérationnelle et co-construite.

  • Pour les financeurs : le système de veille produit des Bulletins d’Alerte Éthique factuels et des recommandations d’atténuation en temps réel, transformant l’investissement éthique en un outil de gestion des risques.

Le saviez-vous ? L’approche du projet I-Delphi s’inscrit dans une tradition de recherche de l’efficacité administrative débutée… il y a plus d’un siècle. En 1917, Henri Fayol fondait à Paris le Centre d’Études Administratives (CEA) avec une mission claire : détecter des faits d’administration manquée sur le terrain pour nourrir et valider la doctrine scientifique. Le Centre collectait, structurait et croisait des analyses pour transformer les échecs et les succès opérationnels du « management » en nouvelle connaissance systémique. De la même manière, I-Delphi souhaite utiliser l’Intelligence Artificielle pour collecter les défaillances algorithmiques et les effets non anticipés de l’IA (le « fait manqué » moderne) à l’échelle mondiale. Notre objectif est de suivre cette méthode factuelle : utiliser les erreurs de terrain pour vérifier l’applicabilité des principes éthiques et forger une gouvernance pertinente de l’IA. Pour en savoir plus sur cette continuité historique, vous pouvez consulter la page : Fayol et l’évaluation des politiques publiques.

Une mémoire institutionnelle manquante

En collectant et en croisant les expériences professionnels de terrain, nous ne faisons pas que signaler des défaillances ; nous créons une mémoire factuelle et une cartographie des risques éthiques de l’IA. Cette base de données de preuves vise à limiter une multiplication de standards et appuyer la convergence des régulateurs vers un noyau commun de principes éthiques.

Application de la méthodologie i-delphi au secteur technologique

La méthodologie i-delphi est également déclinée en une offre destinée aux entreprises du secteur technologique. L’objectif est de créer un dialogue structuré entre les concepteurs de technologies et les acteurs de terrain, en s’appuyant sur son Observatoire Éthique Participatif (OEP), un réseau de professionnels composé de cadres institutionnels, d’ONG et de consultants. Nous proposons ainsi une « évaluation ex ante des risques sociétaux » qui permet aux entreprises de soumettre leurs innovations à une analyse critique avant leur déploiement. Ce processus vise à identifier les externalités sociales potentielles et à fournir des recommandations pour adapter les produits aux divers contextes culturels de la francophonie. Cette approche préventive a pour but de transformer la gestion du risque éthique en une composante de la stratégie d’innovation.

Transformation institutionnelle

Le projet I-Delphi se positionne comme un mécanisme fluide capable de naviguer au sein de structures institutionnelles complexes. Face à la décentralisation des initiatives d’IA, I-Delphi reconstruit un noyau de valeurs communes en s’arrimant à l’ensemble des partenaires. Sa mission est d’identifier et de signaler les menaces qui pèsent sur le jugement humain, les risques de déresponsabilisation professionnelle et les effets rebonds. Deep-Delphi expose le risque potentiel en preuve factuelle et préventive, fournissant aux structures les leviers nécessaires pour diriger leur propre virage technologique et aligner leurs décisions d’innovation sur les principes fondamentaux de la pensée critique.

Pour aller plus loin

Prochaine étape : la consolidation de notre réseau d’expertise. Nous invitons les professionnels intéressés par la gouvernance éthique de l’IA par le terrain à se rapprocher. Contact

En bref : le projet I-Delphi vise à développer un dispositif participatif d’évaluation continue permettant la co-construction de référentiels normatifs éthiques ancrés dans les pratiques professionnelles. L’approche privilégie une logique préventive plutôt que corrective, intégrant les exigences éthiques dès la phase de conception des politiques. Le dispositif s’appuie sur la valorisation d’un capital d’expertise constitué d’environ 5 000 acteurs institutionnels et opérationnels (décideurs publics, opérateurs de programmes, organisations de la société civile, services déconcentrés). I-delphi est un système de monitoring continu permettant l’identification rapide des zones de tension entre principes théoriques et réalités d’implémentation. Deep-Delphi est un dispositif d’évaluation qualitative renforcée via un accompagnement méthodologique en phase expérimentale et la co-construction de mesures correctives avant généralisation. Ce dispositif établit une boucle d’apprentissage institutionnel permettant l’ajustement continu des politiques publiques à partir d’un retour d’expérience systématisé.

Voir également :

Retour d’expérience sur l’utilisation de l’IA en évaluation de projets

Ce post informel vise à comparer deux évaluations de projets finales, réalisées en 2024/2025, la première sans recours à l’IA et la seconde avec un recours partiel à l’IA.

En terme de contexte, il s’agit d’évaluations externes de projets de coopération décentralisée, dans le domaine de la transition urbaine et de la transformation des territoires.

La première en Tunisie sur les thématiques de la mobilité douce et de la participation citoyenne (projet Autrement : Aménagement Urbain du Territoire pour REinventer les Mobilités et ENgager les Tunisiens). La seconde en Ouganda sur des thématiques multiples (éducation, agriculture urbaine, développement de corridors écologiques, réhabilitation de zones humides,…) : le projet SLICKS (Sustainable, Learning and Inclusive Cities).

L’IA n’a pas été utilisée pour des phases d’écriture. Plutôt pour éclaircir et analyser le contexte, résumer des documents, retrouver des informations éparpillées, très peu pour de la compilation de données.

Les outils utilisés ont été principalement : 

Chatbot arena est à l’origine un projet de recherche, très pratique, il permet sans compte et sans identification préalable de comparer les réponses de 2 modèles de IA, choisis de manière aléatoire, avec pour objet de voter pour la meilleure réponse. 

Ce retour d’expérience sur l’utilisation de l’IA en évaluation de projet est par essence déjà partiellement obsolète : l’interface de Perplexity pro a par exemple en l’espace de quelques mois déjà évoluée à de multiples reprises.

Etude documentaire

Dans le cadre de Autrement, moins d’une dizaine de documents avaient été fournis initialement, essentiels, et environ une demi-douzaine ont été sollicités en cours d’évaluation. En terme de bonne pratique, un dossier avait été préparé à destination de l’évaluateur avec un mémo présentant les différents documents. 

Sur fonds européens, une énorme attention avait été portée à la communication dont la production contractuelle d’une stratégie et d’un plan de communication. Très populaire en Tunisie, l’actualisation régulière de la page facebook du projet en était le vecteur principal. 

Aseptisés, les rapports semestriels de suivi ne permettaient que trop vaguement de retracer le cycle de vie du projet. Détourné de leur usage, seule la relecture des posts facebook souvent bi-hebdomadaires sur une durée de 3 ans a permis de saisir un certain quotidien du projet dans sa chronologie. S’imprégner des commentaires, analyser les images mises en avant ou comprendre en regardant les arrières plans (kakémonos, buffets, feuilles de présences,…) l’immense charge opérationnelle sur une équipe tout à fait réduite qui a organisé des centaines d’évènements. Une ré-appropriation tardive (le projet était alors déjà clôturé) mais nécessaire pour l’évaluateur, sans doute inaccessible via l’utilisation de l’IA.

A l’inverse, sur SLICKS, le projet avait produit et transmis près d’une centaine de documents, tous aussi intéressants les uns que les autres, mais encore en vrac, à l’approche de sa clôture. 

L’avantage de Perplexity pro était justement de pouvoir télécharger des documents. L’usage de l’IA a alors permis de compiler/résumer chaque document pour ensuite les intégrer manuellement dans un tableur avec le titre et la date de la production, les auteurs et une note de commentaire. 

L’avantage de la lecture directe – sans appui de l’IA – est cependant en bout de course, c’est à dire en fin d’évaluation, cette impression de connaitre « intimement » chaque document, parcouru des dizaines de fois, savoir où trouver une information précise, avoir détecté parfois en lisant à travers les lignes les sources de motivations, les déceptions, une appréciation sur la qualité des partenariats, les conflits larvés, les modes de travail, les grains de sables dans les rouages de la machine. Cette double lecture, déjà souvent rendue difficile en raison du discours policé des formats de reporting, devient alors totalement insaisissable avec l’IA, avec une masse uniforme des documents, ne reste plus qu’un tout impersonnel.  

A l’inverse, j’ai le souvenir sur d’autres projets de rapports semestriels tellement imbuvables (« le 12 janvier nous avons eu une réunion avec x, le 26 février se tenait le séminaire avec y,… ») que la fonction de résumé, d’extraction des idées clés, de simplification grâce à l’IA est alors extrêmement louable. Mais encore, il faut savoir paramétrer son IA car lui demander de lire « entre les lignes » peut être tout simplement bluffant.

Collecte de données 

Analyse du contexte

En ce qui concerne le contexte tunisien, étaient systématiquement évoquées des lourdeurs et complexités administratives. Néanmoins, les entretiens individuels n’ont jamais permis de reconstituer – dans le détail ou dans le temps imparti – la réalité de cette complexité. L’IA aurait sans doute été précieuse pour aider à reconstituer précisément chaque procédure administrative et identifier les principaux points de blocage.

En ce qui concerne l’évaluation ougandaise, l’IA a tout d’abord servi de béquille, toujours via l’accès aux documents (lorsque comme moi vous avez une mauvaise mémoire…) permettant surtout un gain de temps :

  • Comment s’appelait tel agent de la municipalité ? Et le nom de la zone humide ? L’acronyme de l’agence de l’environnement ? La date du deuxième comité de pilotage ?

Mais encore d’effectuer directement quelques calculs : quelle est la répartition du temps de projet entre la phase de développement et la phase de mise en œuvre ?

En ce qui concerne l’analyse du cadre logique, l’IA a peu été sollicitée. Quelques questions comme « quelle est la proportion d’indicateurs atteint/non atteint » ou « quels indicateurs potentiellement pertinents sont absents ? » ont bien été posées. Mais le format du cadre logique, avec de multiples notes qualitatives permettant d’apporter des nuances ou de mieux interpréter les résultats rendait périlleuse toute délégation qui n’aurait pas été vérifiée « manuellement. » 

Astuce : le prompt « trouve les indicateurs qui étaient présents dans le cadre logique initial et qui ne sont plus présents dans le cadre logique final » est bien plus éclairant pour identifier les objectifs abandonnés en cours de route que la seule analyse des indicateurs non atteints ! 

Par contre, en ce qui concerne l’analyse des contextes, l’IA permet sans doute d’aller droit au but dans ses recherches : « quel est le montant des investissements français en Ouganda ? y’a-t-il eu des cas d’expropriation sur des projets de restauration de zone humide soutenus par des bailleurs de fonds ? Quelle est la proportion de l’aide française allouée à la coopération décentralisée ? Quelle est l’ampleur de la coupe budgétaire de l’APD française sur le budget 2025 ? », etc.

C’est sans doute à double tranchant car répondre à ces mêmes questions par tâtonnement tout en consultant de multiples sources permet d’obtenir progressivement et même involontairement d’autres éléments de contexte pertinents.

Phase d’écriture

Comme indiqué plus haut, l’IA n’a pas été utilisée pour générer du texte qui aurait été incorporé à l’évaluation. Des textes générés, à titre d’essais, pour reproduire le déroulé chronologique des actions n’étaient pas satisfaisants et devaient systématiquement être repris.

D’autres textes, toujours à titre d’expérimentation, étaient bluffants mais nécessitaient un travail préalable de génération de prompt aussi conséquent en terme de temps que le travail direct d’écriture…

L’IA aurait éventuellement pu permettre une fois l’écriture achevée, manuellement, de tout reformuler dans le language attendu, plus direct, des phrases moins alambiquées que celles que vous subissez ici, des clarifications pour des acteurs ayant des connaissances variables du projet. Décliner plusieurs versions en un simple clic, etc. Cela demande néanmoins un certain détachement de l’évaluateur pour considérer son texte comme un objet purement administratif mais aussi une phase de travail complémentaire, afin d’exclure toute perte de sens du texte initial.  Une nouvelle phase chronophage et non prise en compte dans les termes de référence initiaux.

En bref 

J’ai souvent été pris entre 2 feux : entrer directement dans le vif du travail d’évaluation ou prendre le temps de s’en écarter pour générer des prompts de qualité, bien organiser ses espaces (les dossiers où sont rangés les documents dans Perplexity) et les subtilités toujours changeantes entre les potentialités de requête (web, documents des espaces, académiques, forum de discussion,…). Dans cette période de far west de l’IA, les mises à jour et évolutions ergonomiques étaient quasi-quotidiennes.

Priorisant la première option, avec des requêtes mal formulées, sans comprendre comment s’organisait le périmètre de lecture ou la hiérarchisation des données lorsque qu’une requête recouvrait potentiellement des dizaines de documents, j’ai aussi souvent eu l’impression de perdre du temps. Ou encore, s’agacer face à des discussions qui ne suivent plus le fil de discussion et repartent de zéro. Commencer une tâche avec l’IA, pester et la finir humainement au « jus de cerveau déconfit » .

Ce n’est pas le même métier 

Au final, en terme de tâches, ce n’est plus vraiment le même métier. Dans son approche traditionnelle, artisanale, il y a une certaine satisfaction d’un travail d’évaluation achevé : construire un texte, organiser des points de vue, transmettre des recommandations. Satisfaction que je ne retrouve pas forcément en tant que « dresseur d’IA ». Pas plus qu’en tant que manager d’une équipe d’évaluation par ailleurs, chacun ses appétences. 

Du point de vue du bailleur ou du commanditaire 

Triste constat ou non, le gain de qualité d’une approche artisanale n’en vaut pas forcément le surcoût. Tout dépend des enjeux et du contrat initial.

En ce qui concerne les enjeux, bien sûr à l’échelle d’une politique publique, ce surcoût est négligeable. Ou plutôt à coût équivalent, une approche classique pourra utiliser l’IA pour couvrir un périmètre plus vaste et générer des analyses plus profondes.

Pour l’évaluation de relativements modestes projets de développement comme ceux pris ici en exemple, visant à analyser leurs performances dans un cadre contractuel, le gain d’une mobilisation d’un consultant sur 30 jours versus un premier jet rapide de « gavage » d’IA (analyser les documents de projets grâce à un prompt fourni et détaillé) est sans doute fine – mais encore pourrait générer un gain de cohérence global de l’exercice : même pondération, même appréciation des critères,…

D’où la référence au contrat initial, et particulièrement à l’adaptation des TdR (termes de référence).

En effet, au-delà de l’approche IA ou traditionnelle, de l’inclusion de l’IA ou non, les limites de ce genre d’exercice d’évaluation perdurent au fil des années puis des décennies :

  • l’évaluation arrive trop tardivement dans le cycle de projet et ne participe pas à révéler les valeurs qui sous-tendent l’action
  • le dispositif de suivi et évaluation ne concerne que la phase opérationnelle, les cafouillages récurrents et semble-t-il systématique des phases de montage de projet ne sont pas documentés et sortent du périmètre de l’évaluation 
  • le système de suivi évaluation n’est pas validé par le comité de pilotage sous la forme d’un document formalisé (comme peut l’être la stratégie de communication évoquée plus haut sur les projets européens)
  • les termes de références sont élaborés en amont et ne sont pas réactualisés tout au long de l’évaluation pour affiner les centres d’intérêt et questions évaluatives
  • les projets évoluent en silo sans mise en commun des apprentissages
  • des cycles de projets unique, trop court, ne permettant pas à l’évaluation de dégager des effets mais uniquement les impulsions générées
  • pas de visibilité sur le parcours de l’évaluation une fois celle-ci achevée
  • la perception partagée que seule la présentation powerpoint sera lue et que tout doit apparaitre dans le résumé exécutif « pour ceux qui ne lirons que le résumé exécutif » 

L’IA pourrait ainsi permettre, à budget égal de mieux répartir le suivi évaluation tout au long du cycle de projet

  • programmer dès le démarrage la remise de l’ensemble des pièces constitutives du système de suivi évaluation :  modélisation, cadre logique, présentation du SSE, évaluation à mi-parcours, évaluation finale
  • adopter des formats courts et itératifs (par exemple plutôt qu’un long rapport d’évaluation, une présentation type powerpoint qui va être présentée dès le retour du terrain puis évoluer à différents moments clés pour inclure les différentes perceptions qui auront émergées) 
  • améliorer les cadres logiques initiaux en fonction d’erreurs récurrentes sur l’utilisation de la méthode (omission des phases d’analyse initiale, absence d’indicateurs permettant de qualifier et quantifier l’évolution des risques, d’apprécier les vents contraires, déséquilibre entre indicateurs de réalisations et d’effets, terminologie qui diffère dans le cadre logique d’un projet à l’autre…)
  • extraire et confronter les apprentissages de projets similaires comme base préalable de toute écriture de projets

    Mais surtout, l’utilisation (voire l’autorisation ou non) de l’AI et sur quelles tâches doit être précisée dans les termes de références puis re-spécifié en fonction de la réponse de l’équipe d’évaluation. Un texte généré en quelques minutes ou un travail de recherche de plusieurs jours ne saurait être rémunéré de la même façon.


Un paragraphe dédié à l’utilisation de l’intelligence artificielle dans les ToR

L’utilisation et quelle utilisation de l’AI est autorisée ou attendue doit être explicité dans les termes de référence et discuté âprement avant tout contractualisation car elle modifie de manière substantielle le nombre de jours prestés.

Quelques outils IA :

Des centaines d’onglets ouverts, des questions qui tournent dans plusieurs fenêtres et vous ne savez plus ni où est votre question initiale ni comment accéder aux réponses générées ? Allez vous coucher ou essayer le lien suivant comme base de départ :

Contexte :

En bref : cet article présente une expérimentation d’outils IA dans le cadre d’une évaluation de projet en Ouganda, dans la foulée d’une autre évaluation menée sans IA en Tunisie (les deux phases de terrain ayant eu lieu en 2024). L’objectif était de voir concrètement ce que l’IA pouvait apporter au métier d’évaluateur.

L’IA s’est montrée particulièrement efficace pour des tâches de recherche et de synthèse d’informations factuelles :

Clarifier le contexte : retrouver des informations sur des procédures administratives, des acronymes, des dates, etc.

Traiter une grande masse de documents : pour le projet en Ouganda, l’IA a permis de compiler et de résumer une centaine de documents, ce qui aurait été particulièrement chronophage manuellement.

Perte de la « compréhension intime » : l’analyse manuelle des documents, bien que plus lente, permet une immersion profonde dans le projet, des points de détails aléatoires, une compréhension des non-dits et des dynamiques humaines que l’IA ne saisit pas forcément.

L’IA a été peu utile pour analyser des éléments du cadre logique, car le risque d’hallucination et les nécessaires vérifications rendaient une analyse automatisée plus chronophage qu’une simple analyse manuelle. De la même manière, non convaincu par la qualité des textes fourni et des multiples niveaux d’adaptation nécessaires, une écriture manuelle était jugée plus rapide.

Néanmoins avec l’amélioration continue des modèles, le temps dédié à la génération de prompts est de mieux en mieux investi, avec des possibilités d’exploitation vertigineuses. En quelque secondes, il est désormais possible de faire analyser un étude de base, une évaluation à mi-parcours une évaluation finale d’un même projet et obtenir un niveau de qualité, qui même s’il est perfectible, freinera les ardeurs de tout commanditaire à mobiliser des ressources complémentaires.

Retour d’expérience sur l’utilisation de l’IA en évaluation de projets
Les métiers de l’évaluation : avant/après
Ressources en ligne
Pour aller plus loin