mardi 1 octobre 2013

Données carroyées : le flou du "floutage" INSEE

Voici un souci d'utilisateur en rapport avec le  Conseil National de l'Information Statistique (CNIS) et l'Institut National de la Statistique et des Etudes Economiques (INSEE). Le CNIS assure la concertation entre les producteurs et les utilisateurs de la statistique publique. Il met en lumière des nouveaux besoins d'enquêtes, d'études, de bases de données et émet des recommandations sur la production et l'usage de la statistique publique. Les recommandations du CNIS font office de programme de travail pour l'INSEE.

A propos de données locales, le CNIS a émis dès 2009 une recommandation de diffusion de données locales censitaires et fiscales à un niveau géographique assez précis appelé "grille carroyée" : il s'agit de carreaux géographiques 200 mètres de côté au plus fin. Après la recommandation du CNIS, l'Insee s'est activé pour sortir à ce niveau géographique une série de  données non nominatives agrégées de sources fiscales (fichiers de l'impôt sur le revenu et de la taxe d'habitation) qui intéressent les utilisateurs : population, ménages, structure d'âge, mode de logement (propriétaire/locataire), type de logement (individuel/collectif) et ... revenu fiscal de référence. Vous pouvez suivre ce lien vers plus de détail sur le contenu des données carroyées.

Le problème sur l'indicateur sensible du revenu est qu'un carreaux géographique de 200 m de large peut compter un nombre très restreint de foyers/logements. Par exemple, en milieu rural peu dense une maison peut être la seule de son carreaux géographique . Le revenu fiscal  rattaché au carreau est donc celui du ménage occupant la maison... D'où des problèmes de confidentialité et non-respect de règles CNIL. Le CNIS avait donc recommandé  à l'INSEE de "flouter" ses données carroyés lorsque le carreau géographique comprend moins de 11 ménages : il s'agit de faire un lissage des données par permutation statistique aléatoire des ménages du carreaux peu peuplé avec des ménages de carreaux voisins plus denses...   Bref un calcul assez complexe, détaillé dans cette présentation du CNIS

A partir de 2011, l'INSEE a distribué une première grille carroyée de 1km2 ne comportant que l'information de la population. En 2012, une seconde grille de 200m2 est publié toujours avec la seule donnée de population. Début 2013, l'INSEE a publié sur son site une grille de 200m2 avec des informations sociodémographique et en particulier le revenu fiscal moyen/médian des ménages fiscaux de chaque carreau. Le Canard Enchaîné s'est mêlé à cette affaire et a sorti un article assassin pour l'INSEE qui publierai des informations top confidentielles, big brother, etc... Je ne pense pas que le journaliste du Canard Enchaîné soit rentré dans le détail de la règle de "floutage" et l'attaque était à mon sens peu justifiée. Il semble cependant que l’INSEE n’a pas correctement appliqué son floutage sur l'intégralité du pays (confer et suivre le lien vers cet article)

Depuis le 27 mars, l’INSEE a retiré de son site ces « données sensibles » et l'on trouve un message sibyllin lorsqu'on accède au site de téléchargement des données carroyées.

Alors pourquoi, revenir sur cette épisode statistique peu glorieux ? Nous n'avons aucune information sur le devenir de ce projet de données carroyées, très utiles pour tous  les travaux qui nécessitent des informations infra-communales et infra-iris. Les usages de ces données fines sont multiples dans les domaines de l'aménagement du territoire, des infrastructures de transports, télécoms, énergie, du géomarketing, etc... Il faudrait donc que l'INSEE publie en toute transparence un calendrier de corrections, les modalités de traitement et la date de prochaine disponibilité sur ces grilles carroyés.


A bientôt et sans floutage

Aucun commentaire:

Enregistrer un commentaire