Skip to main content
Imprimer

Publication de la CNIL sur son site internet (22 juillet 2025)

Par la publication de la version finale de trois nouvelles fiches datées du 22 juillet 2025, La CNIL finalise son chantier de recommandations pratiques visant à assurer le respect du RGPD dans le développement des modèles d’IA, avec un total de 13 fiches publiées depuis avril 2024. Les trois dernières fiches apportent des précisions attendues sur trois aspects très importants : les conditions de l’annotation des données, les exigences de sécurité applicables à la phase de développement et le statut des modèles au regard du RGPD.

  1. Annotation des données

L’annotation des données constitue une étape cruciale dans la conception des systèmes d’intelligence artificielle fondés sur l’apprentissage, qu’il soit supervisé ou non. Elle consiste à attribuer une étiquette (ou label) à chaque donnée utilisée comme « vérité de terrain » pour entraîner, tester ou valider un modèle.

Premier point d’attention : les annotations doivent être limitées à ce qui est strictement nécessaire pour atteindre les finalités du traitement, dans le respect du principe de minimisation. Cela exclut donc toute information redondante, déconnectée de la fonctionnalité du système, ou sans lien démontré avec ses performances. La CNIL admet toutefois qu’une donnée contextuelle indirectement liée à la finalité peut être justifiée dès lors que sa pertinence est avérée – par exemple, ajouter des informations sur la météo pour évaluer la robustesse d’un modèle de reconnaissance d’images.

Ensuite, le principe d’exactitude impose que les annotations soient non seulement justes mais également objectives et, autant que possible, à jour. Une annotation floue, arbitraire ou caricaturale – comme l’attribution d’une profession sur la base d’une simple image – expose le système à reproduire ces approximations lors de son déploiement, au risque d’engendrer des biais, des discriminations, voire des atteintes à la dignité des personnes.

La CNIL insiste également sur les risques liés à l’annotation de données sensibles au sens de l’article 9 du RGPD. Même lorsque la donnée brute ne relève pas de l’article 9 du RGPD, son annotation peut lui conférer cette nature – par exemple, déduire dans les annotations l’opinion politique de personnes physiques photographiées lors d’un meeting politique ou d’une manifestation. Dans cette hypothèse, la CNIL rappelle que le traitement de données sensibles est en principe interdit, sauf à entrer dans l’un des cas d’exception prévus par les textes (notamment pour des recherches en santé encadrées). Lorsque cela s’avère inévitable, l’autorité recommande d’opter pour des annotations fondées sur des critères objectifs et techniques, comme la mesure de la couleur de peau en valeurs RVB (rouge vert bleu), plutôt qu’une qualification de l’origine ethnique supposée. Elle recommande également de limiter les interprétations subjectives, de renforcer les contrôles de qualité, d’augmenter la sécurité des données annotées, et de se prémunir contre les risques de régurgitation par les modèles entraînés.

La qualité de l’annotation doit, dans tous les cas, reposer ainsi sur un protocole rigoureux. L’autorité indique notamment que cela suppose une définition claire des annotations, une procédure d’annotation documentée, des contrôles réguliers de cohérence entre les annotateurs, et l’utilisation d’outils fiables. Le choix des labels, en particulier, ne doit pas induire de jugement de valeur ni permettre une réidentification des personnes via recoupement indirect, y compris dans les cas d’anonymisation.

En dernier lieu, la CNIL rappelle que l’information et les droits des personnes ne doivent pas être oubliés. Lorsqu’un traitement porte sur des données personnelles, la phase d’annotation elle-même doit faire l’objet d’une information claire, accessible et contextualisée. La CNIL recommande de préciser notamment l’objectif de l’annotation, l’identité de l’entité en charge (y compris en cas de sous-traitance hors UE), ainsi que les garanties et les mesures de sécurité associées. Dans certains cas, et à titre de bonne pratique, une transparence renforcée pourra consister à informer les personnes des labels finalement attribués à leurs données. Enfin, l’autorité confirme que les droits d’accès, de rectification, d’effacement ou encore de limitation s’appliquent pleinement aux annotations, dès lors qu’elles sont rattachables à une personne identifiée ou identifiable.

  1. Sécurité du développement des modèles d’IA

La CNIL souligne que la sécurité doit être intégrée dès la conception des modèles d’IA, et non en aval. Cette exigence découle directement de l’article 32 du RGPD, qui impose la mise en œuvre de mesures adaptées aux risques, ainsi que de l’article 25 de ce même texte, qui pose le principe de protection des données dès la conception et par défaut. S’agissant de l’IA, cela suppose une approche méthodique combinant analyse de sécurité classique et évaluation des risques propres aux modèles et jeux de données.

Trois objectifs doivent être poursuivis lors du développement :

  • Assurer la confidentialité des données d’entraînement : les fuites peuvent survenir même à partir de données ouvertes, en raison des annotations ou du comportement du modèle. Les attaques par inférence d’appartenance, par extraction ou par reconstruction peuvent exposer les personnes concernées à des risques graves (phishing, atteinte à la réputation, etc.). La CNIL liste donc certaines mesures qu’il est recommandé de mettre en place, parmi lesquelles : vérifier la fiabilité, l’intégrité et la qualité des données tout au long de leur cycle de vie ; cloisonner les jeux de données sensibles ; journaliser et versionner les bases ; chiffrer les sauvegardes et les communications ; ou encore avoir recours à des données synthétiques lorsque cela est possible.
  • Garantir la performance et l’intégrité du système d’IA : une grande partie des défaillances constatées en phase de déploiement trouve son origine dans les choix faits en amont. La CNIL recommande notamment dans ce cadre d’utiliser uniquement des composants (modèles, bibliothèques, outils) ayant fait l’objet d’une vérification de sécurité,  de documenter l’architecture du système, ses dépendances, les équipements nécessaires et les limitations connues, ou encore de mettre en œuvre un environnement de développement maîtrisé, reproductible et auditables.
  • Préserver la sécurité globale du système d’information : dans bien des cas, les vecteurs d’attaque ne passent pas par le modèle lui-même, mais par des interfaces mal sécurisées, des sauvegardes non protégées ou des communications exposées. Les recommandations générales du guide CNIL sur la sécurité des données personnelles doivent ici s’appliquer.

Enfin, la CNIL indique que plusieurs facteurs aggravants doivent être pris en compte pour apprécier le niveau de risque :

  • la sensibilité des données utilisées ;
  • le recours à des ressources ouvertes ou peu contrôlées ;
  • les modalités d’accès au système (API, SaaS, open source, etc.) ;
  • le contexte d’usage du modèle, notamment lorsque celui-ci intervient dans des décisions sensibles (santé, justice, éducation, etc.).

Dans tous les cas, la CNIL recommande de documenter l’ensemble de ces mesures au sein d’une analyse d’impact sur la protection des données (AIPD), qui permettra de s’assurer de la cohérence des choix techniques avec les exigences du RGPD.

  1. Évaluer si le modèle d’IA relève, en lui-même, du RGPD

A priori, un modèle d’IA n’est qu’une « simple » représentation statistique des caractéristiques de la base qui a servi à l’entraîner. Le modèle en lui-même ne contient donc pas un enregistrement des données d’entrainement ou d’autres données à caractère personnel. Pourtant, la CNIL relève que de nombreuses études démontrent que certains modèles peuvent mémoriser, puis potentiellement régurgiter ou laisser extraire des données personnelles issues de l’apprentissage. Dans de tels cas, les modèles ne peuvent pas être considérés comme anonymes et sont donc soumis au RGPD.

La CNIL propose donc une méthodologie afin de déterminer si un modèle d’IA peut ou non être considéré comme anonyme, notamment à travers un faisceau d’indices et la conduite de tests concrets. L’analyse repose sur la capacité du modèle à mémoriser, puis potentiellement régurgiter ou laisser extraire des données personnelles issues de l’apprentissage, dès lors que cette extraction est possible par des moyens raisonnablement susceptibles d’être mis en œuvre.

La fiche distingue deux situations : celle du fournisseur de modèle d’IA et celle du déployeur d’un système basé sur un modèle non anonyme. Dans les deux cas, une documentation doit être constituée, incluant notamment la description des mesures techniques et organisationnelles mises en œuvre pour limiter les risques de réidentification, les résultats de tests d’attaques en réidentification, ainsi que les éventuelles analyses d’impact (AIPD) réalisées. La CNIL précise que cette documentation devra être présentée aux autorités de protection des données, en cas de contrôle, pour démontrer que le risque de réidentification est insignifiant.

La CNIL s’appuie notamment sur les apports récents du CEPD (avis 28/2024), qui s’est prononcé sur cette même question et rappelle que l’anonymat d’un modèle doit être évalué au cas par cas. Il faut notamment apprécier la résistance du modèle aux attaques de type white-box, l’impossibilité raisonnable d’extraire des données personnelles par des requêtes, ainsi que la nature des données d’entraînement.

La fiche mentionne également les bonnes pratiques attendues en matière de documentation technique, de gouvernance des données, de transparence, et de sécurité.

Les futurs travaux de la CNIL sur l’IA

L’autorité annonce prolonger ses travaux autour de plusieurs axes, dont en particulier :

  • L’élaboration de recommandations sectorielles, adaptées aux spécificités des domaines d’usage de l’IA (santé, éducation, ressources humaines, sécurité, etc.) ;
  • Des recommandations sur les responsabilités des acteurs de la chaîne de valeur de l’IA.
  • Des outils techniques pour les professionnels, à l’image du projet « PANAME » visant à développer une bibliothèque logicielle destinée à évaluer si un modèle traite ou non des données personnelles.

La CNIL a également mis en ligne sur son site un outil d’auto-évaluation à destination des professionnels, sous la forme d’une « liste des points à vérifier ». Cet outil devrait être utile en pratique, dans la mesure où reprendre l’ensemble des éléments à intégrer – disséminés dans les 13 fiches détaillées publiées depuis avril 2024 – pourrait s’avérer particulièrement complexe.

Imprimer