Quelques outils d’intelligence artificielle utiles pour l’évaluation
Les IA à Usage Général (GPAI)
Contrairement à une IA « spécifique » (conçue pour une seule tâche précise, comme la transcription automatique de focus group ou du nettoyage de base de données), une GPAI est un modèle de fondation (foundation model) doté d’une polyvalence exceptionnelle. Entraînés sur d’immenses volumes de données, ces modèles peuvent comprendre et générer du contenu (texte, image, code…) pour une multitude d’applications différentes. C’est la catégorie à laquelle appartiennent les modèles les plus connus du grand public, Gemini (Google), Claude (Anthropic) ou les modèles de Mistral AI.
NotebookLM est un assistant d’analyse et de synthèse documentaire. Il permet de transformer une masse de documents bruts (rapports, entretiens, données, etc.) en une base de connaissances interactive. NotebookLM permet de centraliser au même endroit, termes de références, rapports annuels, modélisations, cadre logique, transcription d’entretiens, tableau de suivi des indicateurs. Ensuite de poser les questions évaluatives, identifier des thèmes récurrents, détecter des signaux faibles.
Google AI Studio est un espace de création en ligne afin de « briefer » et « entraîner » l’intelligence artificielle pour qu’elle devienne un assistant spécialisé dans les tâches précises comme la préparation, la conceptualisation et l’amélioration de le démarche d’évaluation. Il permet d’automatiser des tâches récurrentes et d’amplifier ses propres capacités d’analyse.
Par exemple affûter des questions de recherche, explorer des hypothèses, déconstruire les discours officiels et renforcer le dialogue entre leurs observations empiriques et les cadres théoriques de la sociologie politique.
MISTRAL AI représente une opportunité stratégique en évaluation , en particulier dans le secteur public ou pour toute évaluation manipulant des données sensibles. Les gouvernements (français et européens) et les institutions publiques cherchent par ailleurs activement à adopter des solutions d’IA souveraines. En tant qu’entreprise européenne, Mistral offre une garantie de conformité avec le RGPD et une réponse au besoin de souveraineté numérique. Mais aussi, les modèles Mistral ont montré d’excellentes performances natives dans plusieurs langues européennes, dont le français, sans nécessiter de traduction préalable. Cela confère une capacité d’analyser des corpus de données en français (ou autres langues européennes) avec une finesse et une compréhension contextuelle supérieures à celles de modèles principalement entraînés sur l’anglais. Le risque est que les modèles concurrents deviennent si performants ou si bien intégrés dans les outils bureautiques que les avantages de Mistral ne suffisent plus à faire la différence.
Mistral AI a été fondé par un trio de chercheurs français issus de Meta et Google DeepMind. Leur stratégie consiste à utiliser l’open source comme une arme pour bâtir rapidement une communauté et une réputation.
Claude est une famille de modèles (GPAI) développée par Anthropic, une entreprise américaine fondée par d’anciens chercheurs d’OpenAI.
La principale différence de Claude réside dans son approche axée sur la sécurité éthique, appelée « IA Constitutionnelle » (« Constitutional AI »). Concrètement, le modèle est entraîné à suivre un ensemble de principes (inspirés de l’UNESCO, des principes de l’OCDE, etc.) pour le rendre plus fiable et résister aux biais. Pour l’évaluation, cela signifie qu’il est conçu pour refuser d’amplifier des stéréotypes présents dans les données ou de « tordre » une analyse pour qu’elle corresponde à une conclusion prédéfinie.
Sa force est son immense « fenêtre de contexte », c’est-à-dire sa capacité à analyser des documents extrêmement longs (l’équivalent de plusieurs centaines de pages) en une seule fois, permettant le traitement de données de dossiers volumineux mais aussi la création de graphiques dynamiques ou la création de tableaux de bord interactifs.
Plateforme de comparaison des GPAI
- Hugging Face
Surnommée le « GitHub de l’IA », cette plateforme est le point de ralliement mondial de l’intelligence artificielle libre. - Pour l’évaluateur : l’outil HuggingChat offre une alternative gratuite et éthique à ChatGPT. Il permet de tester facilement plusieurs modèles (comme Mistral ou Llama) tout en garantissant une meilleure confidentialité des échanges.
- Pour l’institution : c’est la bibliothèque de référence pour garantir la souveraineté des données. Les équipes techniques y récupèrent les modèles pour les installer sur des serveurs sécurisés, évitant ainsi toute fuite d’informations sensibles vers des tiers. Enfin, son Open LLM Leaderboard offre un baromètre technique indispensable pour choisir objectivement l’IA la plus adaptée à vos besoins.
LM Arena, souvent appelée simplement Chatbot Arena, est une plateforme en ligne dédiée à l’évaluation et à la comparaison des performances des grands modèles de langage (LLM) et des chatbots d’intelligence artificielle. Les utilisateurs peuvent discuter avec deux chatbots IA différents, dont les identités sont masquées, côte à côte. Après avoir interagi avec les deux modèles (en posant des questions, en leur demandant de générer du texte, etc.), les utilisateurs votent pour celui qu’ils estiment avoir donné la meilleure réponse ou avoir été le plus utile. Ces votes humains sont ensuite utilisés pour calculer un classement qui détermine la performance relative de chaque modèle.
À l’origine, Chatbot Arena était un projet de recherche académique issu du Sky Computing Lab de l’Université de Californie à Berkeley.
Outils spécialisés
AIDA (Artificial Intelligence for Development Analytics) est une initiative du Bureau Indépendant d’Évaluation (IEO) du PNUD qui utilise l’intelligence artificielle pour analyser automatiquement le contenu de sa vaste bibliothèque de milliers de rapports d’évaluation. AIDA utilise des techniques de Traitement Automatique du Langage Naturel (NLP), une branche de l’intelligence artificielle. L’outil lit et numérise le texte de tous les rapports d’évaluation de la base de données et ne se contente pas de chercher des mots, il essaie de comprendre le sens.
Les possibilités sont vertigineuses par exemple, une synthèse de recommandations, l’identification de facteurs de succès, une analyse de tendances, une détection d’initiatives innovantes, etc.
- Rubric Maker (Detecting-AI)
Rubric Maker, proposé par le site Detecting-AI, est un outil d’intelligence artificielle conçu pour générer rapidement des grilles d’évaluation (rubrics) sur mesure. En s’appuyant sur les informations fournies par l’utilisateur (sujet, niveau, objectifs), l’IA produit une grille structurée avec des critères précis et des descriptions pour chaque niveau de performance (par exemple : excellent, satisfaisant, à améliorer). Son intérêt dans le domaine de l’évaluation est double : il offre d’abord un gain de temps en automatisant la création de grilles complexes mais également, en fournissant une grille claire dès le début du projet, les répondants comprennent précisément les attentes et les critères qui seront examinés pendant la durée du projet.
Gephi est un outil open source spécialisé dans l’analyse et la visualisation de réseaux complexes (disponible en logiciel de bureau ou via sa version web, Gephi Lite). À partir de simples jeux de données relationnelles (comme un tableau Excel listant des acteurs et leurs liens), l’outil transforme des données brutes en cartographies visuelles interactives. Il s’appuie sur des algorithmes de spatialisation avancés pour regrouper visuellement les entités connectées, et intègre un puissant module statistique pour calculer la place exacte de chaque élément dans le système (degré de centralité, détection de communautés ou de sous-groupes).
Les possibilités sont diverse par exemple, la cartographie exhaustive des parties prenantes d’une politique publique, l’analyse des flux de financements ou d’informations entre les partenaires d’un programme, l’observation des dynamiques de collaboration au sein d’un consortium, ou encore l’identification des acteurs clés sur un territoire.
Le projet a été initié en 2008 par des étudiants et des chercheurs de l’Université de Technologie de Compiègne (UTC) en France, qui cherchaient un moyen de visualiser facilement des réseaux complexes. Aujourd’hui, l’outil est maintenu par une association à but non lucratif appelée le Gephi Consortium. Il ne s’agit d’une communauté internationale de développeurs, de chercheurs et de passionnés de données. Le développement de la version simplifiée accessible par navigateur (Gephi Lite) a été porté par OuestWare, un studio français spécialisé dans le web et la data visualisation.
Theorymaker est un outil web gratuit et open source créé par Steve Powell, référencé par BetterEvaluation. Son objectif : permettre de construire rapidement des théories du changement, des cadres logiques (logframes) et des cartes causales, sans se perdre dans la mise en forme.
Là où la plupart des outils de dessin demandent de placer et relier manuellement chaque boîte, Theorymaker inverse la logique : l’utilisateur tape simplement le nom de ses variables dans une fenêtre de texte, et le diagramme se génère et se réorganise en temps réel. Depuis sa refonte complète en 2026, l’outil intègre également un assistant IA optionnel que l’on peut solliciter pour construire, enrichir ou affiner sa chaîne causale par simple conversation.
Les nœuds peuvent être regroupés visuellement par phases, régions ou blocs d’acteurs. Le diagramme se sauvegarde automatiquement dans l’URL du navigateur : il suffit de partager ce lien pour que n’importe qui retrouve le diagramme à l’identique, sans inscription ni compte requis. Enfin, l’export en SVG permet de récupérer le schéma et de le peaufiner dans un logiciel graphique si une présentation plus soignée est nécessaire.

