Comment faire sauter les garde-fous des chatbots

Depuis l’apparition des intelligences artificielles (IA) génératives et des chatbots, en 2022, des chercheurs se livrent à des jeux un peu tordus avec eux. Ils essaient de faire dérailler ces outils afin d’obtenir des réponses que leurs créateurs voudraient éviter. Comme proférer des insultes, tenir des propos racistes ou donner des conseils sur des activités illégales (fabriquer une bombe, de la fausse monnaie…). Ces exercices sont des preuves de concept, servant à comprendre le fonctionnement des grands modèles de langues (LLM) et à améliorer leur sécurité.

Dans ce contexte, le 30 juillet à Vienne (Autriche), une équipe française de l’école d’ingénieurs Télécom SudParis a exposé, lors de la réunion annuelle de l’Association for Computational Linguistics, une nouvelle famille de vulnérabilités auxquelles sont plus ou moins exposées six des IA les plus connues : GPT, les deux versions de LLaMA, Gemma, Mistral et Phi. « Nous ne comparons pas les entreprises, mais les technologies. Nous testons des vulnérabilités génériques », précise le professeur Noël Crespi, coresponsable, avec Reza Farahbakhsh, du travail de leur doctorant Sergey Berezin.

Il vous reste 79.86% de cet article à lire. La suite est réservée aux abonnés.

What's Hot

Disparition d’Estelle Mouzin : l’Etat condamné pour faute lourde dans l’enquête sur la disparition de la fillette en 2003

« J’ai un colis pour vous ! », sur France.tv : surprenantes livraisons au bout du monde

Boualem Bensaïd, l’un des auteurs des attentats de 1995, saisit la justice pour demander son expulsion vers l’Algérie

Une éclipse totale de Lune visible en France le 7 septembre

Une éruption solaire vue comme jamais

Décédée, une vieille Japonaise est dévorée jusqu’aux os par ses chats

« La décentralisation de la recherche clinique doit devenir un levier d’inclusion »

Santé mentale : un quart des jeunes serait atteint de dépression, selon une enquête de l’Institut Montaigne

Les incertitudes liées à la politique spatiale américaine relancent le débat sur l’autonomie européenne

Avec Artemis, le difficile et coûteux retour des Américains sur la Lune

Ce marsupial sauvé par la disparition des lapins… et la sécheresse

Tabassome Simon, la pharmacologue qui n’a peur de rien

What's Hot

Comment faire sauter les garde-fous des chatbots

Articles Liés