Le Evolution de l'évaluation de l'IA
Comment nous construisons une meilleure façon de mesurer le Collaboration
Artefact historique
Cet article reste public à titre de référence, mais il peut ne pas refléter les produits, politiques, feuille de route ou recommandations actuels de PAICE.

Chez PAICE, nous sommes obsédés par la compréhension de ce qui rend la collaboration humain+IA efficace. C'est une question au cœur de tout ce que nous faisons, et c'est une question à laquelle nous cherchons constamment à répondre avec une plus grande précision et nuance.
Notre évaluation en est la pierre angulaire. C'est un outil que nous développons et affinons depuis notre création, et qui a connu une évolution significative dans un laps de temps relativement court. De notre aperçu de recherche initial à notre plateforme prête pour la production aujourd'hui, nous avons tiré des leçons inestimables sur la mesure de la collaboration humain+IA.
Dans cet article, nous souhaitons vous donner un aperçu en coulisses de l'évolution de notre évaluation, des défis que nous avons surmontés et de notre orientation future.
Du prévisualisation de recherche à la plateforme de production
Notre voyage a commencé avec un aperçu de recherche lancé en octobre 2025. La première itération était conçue pour être une évaluation complète des compétences en collaboration avec l'IA, mais elle était formelle et rigide. Nous avons rapidement réalisé qu'une évaluation efficace exige plus qu'une simple exactitude technique : elle doit être naturelle et engageante.
Les débuts : trouver notre fondement
Les premières semaines ont été marquées par une itération rapide :
- Migration de SQLite vers MongoDB pour la scalabilité, intégration des analyses PostHog et lancement de notre blog
- Mise en œuvre d'un durcissement de sécurité complet, incluant la détection de navigateurs agentiques et des politiques basées sur l'environnement
- Achèvement d'un sprint majeur de stabilité, résolvant 29 problèmes critiques et atteignant un taux d'achèvement de 83 %
Ces améliorations fondamentales ont préparé le terrain pour des capacités d'évaluation plus sophistiquées.
La révolution indépendant du modèle
L'une de nos transformations architecturales les plus importantes est survenue fin novembre lorsque nous avons été confrontés à un défi inattendu : la dérive du modèle. Claude Haiku 4.5, que nous utilisions, a commencé à refuser d'exécuter nos instructions stratégiques d'injection de défaillance en raison de nouvelles mesures de sécurité suite à une campagne de cyberespionnage.
Ce défi est devenu une opportunité pour faire avancer notre feuille de route existante. Plutôt que de simplement changer de modèle, nous avons complètement repensé notre architecture pour la rendre indépendante du modèle.
Ce que signifie indépendant du modèle
Notre nouvelle architecture abstrait les détails du fournisseur d'IA du frontend, permettant :
- ✅ Un basculement transparent entre les fournisseurs (Google Gemini ↔ Anthropic Claude)
- ✅ Des configurations multi-modèles (différents modèles pour le chat contre l'évaluation)
- ✅ Des tests A/B sans modification du code
- ✅ Une intégration facile des nouveaux fournisseurs d'IA (OpenAI ChatGPT, etc.)
Les compromis : Nous avons pris la décision consciente de privilégier la qualité de l'évaluation par rapport à la vitesse et au coût. La latence du chat est passée d'environ 500 ms à environ 2000 ms, et les coûts sont passés de 0,50 $ à 6,00 $ par évaluation. Cependant, nous avons gagné :
- Une compréhension plus nuancée de la conversation
- Une meilleure détection et gestion des erreurs
- Des réponses cohérentes de haute qualité
- Une fiabilité dans le suivi des instructions
Cette décision reflète notre conviction fondamentale : les évaluations précises et de haute qualité sont plus importantes que l'optimisation à ce stade. Nous continuons à optimiser à partir de là, et nous avons déjà réduit considérablement le coût à environ 1,50 $ par évaluation.
L'importance de l'échec stratégique
L'une des principales conclusions de notre recherche est que la capacité à gérer les erreurs de l'IA est un composant essentiel d'une collaboration IA efficace. L'IA n'est pas parfaite, et elle fera inévitablement des erreurs. La question est : comment réagissez-vous lorsqu'elle le fait ?
Injection progressive de défaillance
Nous avons intégré l'injection stratégique de défaillance dans notre évaluation, introduisant des erreurs qui deviennent subtiles puis évidentes en fonction du déroulement de la conversation. Cela teste non seulement la qualité de votre instruction, mais aussi vos pratiques de vérification – une compétence souvent négligée mais ici cruciale.
Système de détection hybride
Initialement, nous utilisions une simple correspondance de mots-clés pour la détection des tests (précision de 65 %). Nous sommes depuis passés à un système hybride sophistiqué atteignant 95 % de précision :
- Vérification déterministe rapide : Détection basée sur des modèles pour les cas à haute confiance
- Retour LLM : Gemini Flash pour les cas nuancés et ambigus
- Retour par mots-clés : Filet de sécurité ultime assurant la fiabilité du système
Nous suivons également les fausses alarmes – lorsque les utilisateurs corrigent des erreurs inexistantes – et appliquons une légère pénalité pour encourager un scepticisme équilibré plutôt que la paranoïa.
Affinement continu : les chiffres racontent l'histoire
Notre engagement envers l'amélioration se reflète dans nos métriques :
Améliorations de novembre 2025
- Fiabilité de l'injection de tests : 70 % → 100 % (+43 %)
- Précision de détection : 65 % → 95 % (+46 %)
- Performance des requêtes de base de données : 30-90 ms → 10-30 ms (66 % plus rapide)
- Requêtes indexées : 100-500 ms → 1-5 ms (99 % plus rapide)
- Maintenabilité du code : 6/10 → 9/10 (+50 %)
Transformation architecturale
- Modularisation du backend : 3 155 lignes dans main.py → 175 lignes (réduction de 94 %)
- 7 nouveaux modules de route pour une séparation claire des préoccupations
- Aucun changement frontend requis pour le changement de fournisseur IA
- Aucun compromis en matière de confidentialité maintenu tout au long
Confidentialité par conception : notre principe non négociable
Au cours de tous ces changements, nous avons maintenu notre architecture de Confidentialité par conception :
- Le texte de la conversation n'est jamais stocké en production
- Les données sont traitées en temps réel pendant la génération de l'évaluation
- Seuls les scores finaux sont conservés dans la base de données
- Le localStorage du frontend reste la seule copie persistante des conversations
Cet engagement envers la confidentialité a guidé chaque décision architecturale, même lorsqu'elle nécessitait une implémentation plus complexe.
Prochaines étapes : notre feuille de route
Priorités immédiates (décembre 2025)
- Surveillance de la performance du moteur de notation avec la nouvelle détection hybride
- Affinement des invites d'évaluation basées sur les données de détection
- Retests et benchmarks approfondis avec la nouvelle architecture
- Cadre de tests A/B pour les variations d'évaluation
- Planification complète du programme pilote du T1 2026
Objectifs à court terme (T1 2026)
- Lancement de la fonctionnalité Cohort pour les équipes et les usages académiques
- Début des programmes pilotes pour valider la méthodologie par la recherche
- Exports PDF améliorés avec des informations détaillées
- Chatbot géré pour l'intégration des utilisateurs
- Prise en charge multilingue
Vision à long terme (2026)
- Établir des normes de l'industrie pour la mesure de la collaboration IA
- Mise à l'échelle de l'infrastructure pour une base d'utilisateurs croissante
- Partenariats stratégiques et collaborations industrielles
Le voyage continue
Nous sommes extrêmement enthousiastes quant à l'avenir de l'évaluation de l'IA. Chaque défi que nous avons relevé – de la dérive du modèle aux problèmes de stabilité en production – a rendu notre plateforme plus solide et plus résiliente.
Notre évolution d'un aperçu de recherche à une plateforme prête pour la production démontre qu'une évaluation efficace de la collaboration humain+IA nécessite :
- Excellence technique : Architecture robuste et tests complets
- Orientation utilisateur : Expériences naturelles et engageantes qui semblent conversationnelles
- Engagement en matière de confidentialité : Protection non négociable des données utilisateur
- Apprentissage continu : Itération rapide basée sur les commentaires du monde réel
- Qualité plutôt qu'optimisation : Prioriser la précision sur la vitesse ou le coût
Nous croyons qu'en construisant une meilleure façon de mesurer la collaboration humain+IA, nous pouvons aider les individus à libérer leur plein potentiel et à prospérer à l'ère de l'IA.
Prêt à voir comment vous vous comparez ? Effectuez l'évaluation PAICE et découvrez vos forces et vos opportunités de croissance.
Vous souhaitez suivre notre parcours ? Abonnez-vous à nos mises à jour hebdomadaires ou faites-nous part de vos commentaires et suggestions.
Impliquez-vous :
- Effectuez l'évaluation (gratuite, toujours)
- Explorez le programme Founding Partner (pour les organisations)
- Lisez le livre blanc (cadre complet)
- Contactez-nous concernant vos besoins spécifiques
Lecture connexe
Curious but short on time?
Take the 3-minute PAICE Pulse — a quick confidence check that maps how you see your own AI collaboration posture. No login required.