
Depuis l’apparition des intelligences artificielles (IA) génératives et des chatbots, en 2022, des chercheurs se livrent à des jeux un peu tordus avec eux. Ils essaient de faire dérailler ces outils afin d’obtenir des réponses que leurs créateurs voudraient éviter. Comme proférer des insultes, tenir des propos racistes ou donner des conseils sur des activités illégales (fabriquer une bombe, de la fausse monnaie…). Ces exercices sont des preuves de concept, servant à comprendre le fonctionnement des grands modèles de langues (LLM) et à améliorer leur sécurité.
Dans ce contexte, le 30 juillet à Vienne (Autriche), une équipe française de l’école d’ingénieurs Télécom SudParis a exposé, lors de la réunion annuelle de l’Association for Computational Linguistics, une nouvelle famille de vulnérabilités auxquelles sont plus ou moins exposées six des IA les plus connues : GPT, les deux versions de LLaMA, Gemma, Mistral et Phi. « Nous ne comparons pas les entreprises, mais les technologies. Nous testons des vulnérabilités génériques », précise le professeur Noël Crespi, coresponsable, avec Reza Farahbakhsh, du travail de leur doctorant Sergey Berezin.
Il vous reste 79.86% de cet article à lire. La suite est réservée aux abonnés.