Camia Privacy Attack révèle ce que les modèles d'IA mémorisent - Actualité sur le financement de l'innovation

Les chercheurs ont développé une nouvelle attaque qui révèle des vulnérabilités de confidentialité en déterminant si vos données ont été utilisées pour former des modèles d’IA.

La méthode, nommée Camia (attaque d’inférence des membres du contexte), a été développée par des chercheurs de Brave et de l’Université nationale de Singapour et est beaucoup plus efficace que les tentatives précédentes de sonder la «mémoire» des modèles d’IA.

Il y a une préoccupation croissante de la «mémorisation des données» dans l’IA, où les modèles stockent par inadvertance et peuvent potentiellement divulguer des informations sensibles à partir de leurs ensembles de formation. Dans les soins de santé, un modèle formé sur des notes cliniques pourrait accidentellement révéler des informations sensibles aux patients. Pour les entreprises, si les e-mails internes étaient utilisés dans la formation, un attaquant pourrait être en mesure de tromper un LLM pour reproduire les communications des entreprises privées.

Ces problèmes de confidentialité ont été amplifiés par des annonces récentes, telles que le plan de LinkedIn d’utiliser les données utilisateur pour améliorer ses modèles d’IA génératifs, ce qui soulève si le contenu privé pourrait faire surface dans le texte généré.

Pour tester cette fuite, les experts en sécurité utilisent des attaques d’inférence des membres, ou MIA. En termes simples, un MIA pose au modèle une question critique: «Avez-vous vu cet exemple pendant la formation?». Si un attaquant peut déterminer de manière fiable la réponse, elle prouve que le modèle divulgue des informations sur ses données de formation, posant un risque de confidentialité directe.

L’idée principale est que les modèles se comportent souvent différemment lors du traitement des données sur lesquelles ils ont été formés par rapport à de nouvelles données invisibles. Les MIA sont conçus pour exploiter systématiquement ces lacunes comportementales.

Jusqu’à présent, la plupart des MIA ont été largement inefficaces contre les AIS génératifs modernes. En effet, ils ont été initialement conçus pour des modèles de classification plus simples qui donnent une seule sortie par entrée. Les LLMS génèrent cependant du texto-jet-by-token, chaque nouveau mot étant influencé par les mots qui l’ont précédé. Ce processus séquentiel signifie que le simple fait de regarder la confiance globale d’un bloc de texte manque la dynamique du moment à la moments où la fuite se produit réellement.

L’informatique clé derrière la nouvelle attaque de confidentialité de Camia est que la mémorisation d’un modèle d’IA dépend du contexte. Un modèle d’IA s’appuie le plus sur la mémorisation lorsqu’il n’est pas certain de dire ensuite.

Par exemple, étant donné le préfixe «Harry Potter est… écrit par… le monde de Harry…», dans l’exemple ci-dessous de Brave, un modèle peut facilement deviner que le prochain token est «Potter» par la généralisation, car le contexte fournit des indices forts.

Dans un tel cas, une prédiction confiante n’indique pas la mémorisation. Cependant, si le préfixe est simplement «Harry», la prévision de «Potter» devient beaucoup plus difficile sans avoir mémorisé des séquences d’entraînement spécifiques. Une prédiction à faible perte de confiance dans ce scénario ambigu est un indicateur beaucoup plus fort de la mémorisation.

Camia est la première attaque de confidentialité spécifiquement adaptée pour exploiter cette nature générative des modèles d’IA modernes. Il suit comment l’incertitude du modèle évolue pendant la génération de texte, ce qui lui permet de mesurer la rapidité avec laquelle l’IA passe de la «devinette» à un «rappel confiant». En opérant au niveau du jeton, il peut s’adapter aux situations où une faible incertitude est causée par une répétition simple et peut identifier les modèles subtils de véritable mémorisation que les autres méthodes manquent.

Les chercheurs ont testé Camia sur la référence Mimir à travers plusieurs modèles Pythia et GPT-Neo. Lors de l’attaque d’un modèle de paramètre 2.8b Pythie sur l’ensemble de données ArXIV, Camia a presque doublé la précision de détection des méthodes antérieures. Il a augmenté le véritable taux positif de 20,11% à 32,00% tout en maintenant un taux de faux positif très faible de seulement 1%.

Le cadre d’attaque est également efficace sur le plan de calcul. Sur un seul GPU A100, Camia peut traiter 1 000 échantillons en environ 38 minutes, ce qui en fait un outil pratique pour l’audit des modèles.

Ce travail rappelle à l’industrie de l’IA les risques de confidentialité dans la formation de modèles toujours plus lourds sur de vastes ensembles de données non filtrés. Les chercheurs espèrent que leur travail stimulera le développement de techniques plus préservant de la vie privée et contribuera aux efforts continus pour équilibrer l’utilité de l’IA avec la confidentialité fondamentale des utilisateurs.