La Chatbot Arena, conçue par deux étudiants de Berkeley, propose un dispositif original pour évaluer les intelligences artificielles via une confrontation directe entre modèles anonymes, où les utilisateurs choisissent la meilleure réponse. Ce système, reposant sur un score Elo inspiré des échecs, crée une dynamique participative qui dépasse les simples critères académiques habituels en intégrant l’expérience subjective des utilisateurs[1][3]. Cette méthodologie s’apparente à une forme de démocratie cognitive, où le jugement collectif oriente un classement en continu, semblable à celui de TripAdvisor mais appliqué aux IA, transformant ainsi la plateforme en un espace à la fois ludique, scientifique et stratégique pour les acteurs majeurs du secteur[1].
Ce modèle d’évaluation interroge les notions classiques d’objectivité en science, s’alignant davantage sur des approches pragmatiques et phénoménologiques centrées sur l’usage et la réception plutôt que sur des critères purement formels. En ce sens, il renouvelle la manière dont on mesure l’intelligence artificielle à l’aune de la réception sociale et du marché, rappelant la pensée de pragmatistes comme John Dewey, pour qui la vérité se construit dans l’expérience vécue. En outre, la transparence et l’ouverture des données participent à une logique collaborative proche de l’idéalisme numérique, envisageant une « Wikipédia de l’IA »[3]. En résumé, Chatbot Arena illustre une hybridation des paradigmes d’évaluation scientifique et d’évaluation sociale, mettant en lumière les tensions et potentialités dans la gouvernance des technologies d’IA.