Ces dernières années ont vu le progrès fulgurant des intelligences artificielles génératives. Les grands modèles de langage (LLM), tels qu’o3 d’OpenAI, atteignent des niveaux experts en biologie, en mathématiques, en code informatique ou encore en physique. Les benchmarks, outils conçus pour évaluer et comparer leurs performances, ont peine à suivre. Le dernier en date, Humanity’s Last Exam, composé de 3 000 questions complexes, était complété à 10 % par les meilleurs modèles lors de sa sortie, mi-janvier. Deep Research, lancé le 3 février par OpenAI, atteint le score de 26 %, et d’aucuns prédisent 50 % de réussite d’ici à la fin de l’année pour les meilleurs.
« Le problème est que ce sont des boîtes noires, de plus en plus profondes et puissantes, et qu’on ne dispose pas d’une bonne science pour évaluer leurs risques. Or, on est face à des pressions économiques et sociales considérables », alerte Nicolas Miailhe, cofondateur de Prism Eval, start-up française spécialisée dans l’évaluation des modèles avancés d’IA.
Il vous reste 87.09% de cet article à lire. La suite est réservée aux abonnés.