Publication de la CNIL du 23 janvier 2025
La réutilisation de bases de données accessibles en ligne ou acquises auprès de tiers (notamment des data brokers) constitue une pratique très répandue, qu’il s’agisse de recherche scientifique, de prospection commerciale ou encore de développement de systèmes d’intelligence artificielle.
Dans une publication du 23 janvier 2025, la CNIL rappelle toutefois que la disponibilité apparente d’une base de données ne signifie pas que sa réutilisation est libre de toute contrainte. L’autorité insiste sur la nécessité, pour tout réutilisateur, de vérifier en amont que la constitution et la mise à disposition de la base ne sont pas manifestement illicites. À défaut, le réutilisateur pourrait engager sa responsabilité, y compris pénale dans certains cas, notamment au titre du recel de données issues d’une infraction.
Vérifier l’absence d’illicéité manifeste
La CNIL rappelle tout d’abord un principe simple : il est interdit de réutiliser des données provenant d’une fuite, d’un vol ou, plus largement, d’une source dont l’origine délictuelle ne peut être ignorée.
A ce titre, la réutilisation d’une base issue du « dark web » ou d’une décision de justice ayant constaté une atteinte à des droits de propriété intellectuelle (en particulier ceux des producteurs de bases de données – article L. 342-1 du Code de la propriété intellectuelle) constitue ainsi un signal d’alerte évident.
Au-delà de ces cas d’école, la CNIL invite les réutilisateurs à examiner certains indices permettant d’identifier un risque manifeste d’illicéité dans la constitution d’une base de données :
- Vérifier la source et la documentation de la base de données : la description doit préciser clairement l’origine des données (par exemple un réseau social identifié). Une base contenant des données dont la source n’est pas identifiée devrait conduire à suspendre la réutilisation tant que des informations complémentaires n’ont pas été obtenues.
- Vérifier que la collecte et la diffusion reposent sur une base légale appropriée. Par exemple, une base contenant des données de géolocalisation précises et non anonymisées, qui suppose en principe le recueil du consentement des personnes, doit faire l’objet de précautions accrues. À l’inverse, une base composée de données pseudonymisées, rendues publiques par les personnes concernées et ne comportant pas de données sensibles, présente en principe un risque moindre d’illicéité.
La CNIL précise que ces vérifications ne supposent pas un audit exhaustif du traitement d’origine, mais exigent un examen raisonnable des éléments disponibles (description de la base, contexte de diffusion, éventuelles sanctions publiques, etc.).
Données sensibles et données d’infraction : une vigilance accrue
L’autorité attire également l’attention sur la présence éventuelle de données sensibles (article 9 du RGPD) ou de données relatives aux infractions (article 10). Leur réutilisation est en principe interdite, sauf à pouvoir se fonder sur l’une des exceptions prévues par le RGPD ou la loi Informatique et Libertés.
En pratique, la présence de telles données doit conduire le réutilisateur à mener des vérifications supplémentaires, notamment quant au recueil d’un consentement explicite ou au caractère manifestement public des informations concernées (par exemple lorsque les personnes ont elles-mêmes rendu publiques certaines informations sur des plateformes accessibles à tous).
La conformité du traitement ultérieur reste indispensable
La CNIL rappelle enfin que ces vérifications préalables n’exonèrent en aucun cas le réutilisateur de sa propre obligation de conformité. La réutilisation constitue un traitement distinct, qui doit reposer sur une base légale appropriée, respecter les principes de minimisation, de limitation des finalités et d’information des personnes concernées, et, le cas échéant, faire l’objet d’une analyse d’impact relative à la protection des données (AIPD).
L’autorité recommande en outre d’encadrer contractuellement les relations avec le détenteur initial des données, en documentant notamment la source des données, la base légale du traitement initial, les finalités poursuivies et les garanties mises en place.
* * *
Dans un contexte marqué par le développement des projets d’IA et la circulation massive de jeux de données, cette publication rappelle l’importance, pour les réutilisateurs, de procéder à des vérifications préalables et d’en conserver la documentation dans le cadre de leur obligation d’accountability.



