mercredi 23 octobre 2013

Amours adolescentes et Big Data

J'anime un séminaire géomarketing pour la filière de marketing quantitatif en dernière année à ENSAI. Signe des temps, cette filière est désormais très compétitive par rapport à la filière Finance ; les étudiants demandent massivement à s'orienter vers cette spécialisation. La filière  marketing quantitatif forme notre future génération de "data scientist". C'est un très bon vivier de recrutement pour les professionnels des données.

Après ParisTech, j'ai appris que l'ENSAI va ouvrir son master "Big Data" à la rentrée 2014. Avec la masse d'article sur ce sujet (dernier en date le dossier du Monde), inutile d'en rajouter !

Je reprends juste une réflexion que m'a soufflé Jocelyn Julienne (ENSAI) ; "le big data c'est comme les amours adolescentes : on en parle beaucoup, on ne sait pas trop comment s'y prendre et surtout... il faut dire qu'on l'a fait !"

Et enfin, je termine par la très bonne illustration du métier de "data scientist" de Brett Ryder :

vendredi 4 octobre 2013

Une carte interactive des rues dangereuses


Le nombre de tués sur les routes françaises a été divisé par quatre depuis 40 ans en dépit de la hausse ininterrompue du trafic routier. Les routes restent cependant dangereuses. 4000 personnes perdent leur vie tous les ans sur les routes françaises. Nous pensons que l'on roule collectivement plus en sûreté si l'on possède une bonne connaissance des dangers de la route. Savoir quels sont les carrefours, les routes et les rues dangereuses permet de mieux cerner nos risques, mieux anticiper et mieux conduire.

Nous publions donc ces statistiques et une cartographie fine de l'accidentalité qui permet à l'automobiliste internaute de bien mesurer et visualiser les risques sur ses trajets usuels.

Des sources parcellaires 

Il s'agit de la base de données ouverte EtatLab extraite de la base BAAC des accidents corporel de la route en France sur 6 années de la période 2006 à 2011 avec des informations de géolocalisation de l'accident.

La saisie des informations a été réalisée pour chaque accident corporel par les forces de l'ordre. Cette base comporte 440 351 accidents avec au moins un blessé léger enregistrés entre 2006 à 2011 en France métropolitaine. L'ensemble des véhicules impliqués lors des accidents sont aussi répertoriés (748 426 véhicules).

70% des accidents ont été géolocalisés (soit à partir des adresses fournies, soit à partir des coordonnées GPS partiellement renseignées par les services de police). Le taux de géolocalisation est très variable selon le type de voie et l'urbanité : les taux de réussite de géocodage sont bien plus faibles sur les autoroutes et dans les zones rurales. Ce biais doit être pris en compte lors de la visualisation des cartes. Par ailleurs, les coordonnées GPS de ce fichier sont parfois imprécises. Des accidents sont localisés parfois à quelques centaines de mètres de la route référencée par les forces de police. Des compléments d'informations de la part des services de la sécurité routières sont nécessaires sur ce point. Cette application est donc un prototype qui doit être fiabilisé dans le temps avec l'amélioration de la collecte.

La carte nous semble donc fiable pour montrer la dangerosité des rues des grandes agglomérations. En revanche les données ne sont pas de bonne qualité pour le positionnement des accidents sur les autoroutes 4 voies, artères urbaines, brettelles autoroutières diverses et grosses routes nationales. Par exemple à Paris, nous ne sommes pas capable de localiser les accidents sur le boulevard périphérique et sur la voix express car les informations d'adresses et de coordonnées GPS fournies par les services de Police sont de mauvaise qualité et/ou peu normalisées.

L'indice de gravité de l'accident 

Il est calculé selon le coût normalisé des atteintes aux victimes (intervenant dans le calcul annuel du coût pour la Nation de l’insécurité routière), en proportion des valeurs tutélaires mises à jour pour l’année 2011. Chaque tué est ainsi "valorisé" à hauteur de 100 points d’indice, chaque hospitalisé à hauteur de 10.8, chaque blessé léger à hauteur de 0.44.


Une mesure du risque brut d'accidents

Le nombre d'accidents enregistré sur un segment de rue donné dépend bien sur du volume de trafic routier de ce segment.  C'est lorsqu'il y a du monde sur la route qu il faut redoubler de vigilance. La carte illustre bien cet effet trafic. Les plus grosses rues sont souvent plus dangereuses. Les priorité d'améliorations et de sécurisation de la voirie doivent d'abord porter sur ces routes et rue denses. 

Il serait cependant judicieux de mesurer un risque net du trafic afin d'identifier les segment routiers foncièrement dangereux pour ceux qui les empruntent, avec un taux anormal d'accident pas véhicule passant par la voie. On pourrait par exemple ainsi identifier des types de rues/routes avec un trafic moins denses pour lesquelles il faut mettre en place des mesures de sécurisation simples comme l'abaissement de la vitesse limite sans nuire à la fluidité de la circulation.
Il faudrait pour cela disposer d'une mesure appelé "Trafic Moyen  Journalier Annuel" (TJAM ou en anglais Average Annual Daily Traffic) par segment de rue pour construire l'indicateur net de dangerosité. Or cet indicateur est encore aujourd'hui compliqué à mettre au point sur la globalité du territoire, des routes et des rues françaises. Il existe des mesures centralisées très partielles sur le seul réseau autoroutier ou 4 voies. Des travaux sont en cours sur ce sujet à partir des traces GPS de Navteq (Here) ou TomTom, mais non finalisés. Je ferai un mémo sur ce point (si j'en prends le temps...).

La carte interactive et  les statistiques d'accidentalité 

La carte identifie des zones sensibles d'accidentalité. Ces zones ont été construite en sommant les indices de risque sur un grille carroyée de 50 mètres de cotés. Les points de localisation de chaque accident s'affichent en zoomant fortement sur la carte sur la carte.
  
Lien vers la carte interactive

Pour ceux qui souhaitent en savoir plus sur les statistiques d'accidentologie, voici un lien vers un DataViz qui complète cette carte :

Lien d'accès au DataViz sur les risques d'accidentalité


Ce travail a été réalisé grâce à la grande contribution de Baptiste Nouguier (BNP et Ex MapInfo).



    


mardi 1 octobre 2013

Les vents dominants

Voici une vraiment très belle représentation des flux de vents sur le sol américain. C'est un travail d'artiste.

Je n'ai malheureusement pas compris comment réaliser ce type de carte. Il y a une multitude d'applications sur la mobilité qui pourraient se représenter de façon très lisible selon ce modèle. Que ceux qui savent me contactent !

Source et lien de la carte des vents : http://hint.fm/wind 

Stéréotypes américains encartés


Quelques stéréotypes  en carte : une vision du monde plutôt anglosaxonne, sans commentaires !







Source et lien vers plus de stéréotypes encartés : http://alphadesigner.com/mapping-stereotypes/  

La carte de la réussite des collèges

Je présente ici une cartographie exhaustive,  inédite, interactive des collèges de France métropolitaine selon leur indice de réussite.


Quels sont le objectifs de cette carte ?

De multiples publications portent sur l'évaluation des lycées via leurs résultats au Baccalauréat. En revanche le premier cycle des collèges n'a jamais fait l'objet d'attention. Et pourtant, il existe de très fortes disparités du public des élèves et des résultats des collèges. Ce document comble ce déficit en publiant la première cartographie de la réussite des collèges.

EtatLab.fr a récemment publié la base de données du ministère de l'éducation nationale des résultats par  collège au Diplôme National du Brevet (DNB) pour l'année 2012.
Les résultats couvrent près de 8500 collèges Français. Le fichier comprend en particulier les effectifs par collège les taux de réussite au DNB 2012 et le taux d'accès à la mention parmi les admis.

Voici donc la cartographie exhaustive et inédite de tous collèges de France métropolitaine selon leur indice de réussite et diverses statistiques illustrant les disparités de réussites par académie, département, secteur privé/public, niveau de richesse des ménages résidents à proximité de l'établissement,...


Lien vers la carte interactive de la réussite des collèges


Comment mesure-t-on "la réussite d'un collège"?


Notre définition de l'indice de réussite d'un collège : il exprime la capacité d'un collège à porter un nombre important d'élèves à la mention au DNB. L'indice est cadré à 1 pour la moyenne de la réussite de l'ensemble des collèges français.
formule de calcul de cet indice : (Puissance([Nombre de presents],0.2)*puissance([Taux de reussite DNB],2)*puissance([Taux Mention DND],2)/0.736)

La réussite aux examens dépend très fortement de l'origine sociale du public des établissements et de la politique de sélection à l'entrée exercée par chaque collège. Les collèges privés ont la liberté de choix de leurs élèves, c'est moins le cas pour les collèges publics du fait de règles de sectorisation géographique.

Le ministère de l'éducation ne diffuse pas d'informations sur la composition du public des élèves de chaque collège. Nous ne pouvons donc pas distinguer pour chaque collège la réussite liée à la composition sociale des élèves et la réussite liée à une pédagogie et une gestion efficace du corps enseignant.  Les écarts de réussite entre collèges traduisent donc des effets de ségrégation sociale à l'entrée des collèges (ségrégation spatiale du fait la cartographie scolaire, politique de sélection de certains collèges privés…), les choix et règles d'affectation des enseignants vers les collèges et la politique pédagogique de chaque collège.


Toutes les statistiques de mesure de performances collectives ou individuelles sont sujettes à caution, discussion, remise en cause, etc.. J'ai bien conscience qu'il n'y a pas de vérité absolue sur ce type sujet. De multiples facteurs qualitatifs ou lié à l'histoire et la géographie scolaire locale méritent d'être intégrés dans l'évaluation d'un établissement scolaire. Le statisticien compose avec les sources dont il dispose. En l'occurrence les sources publiques sur le fonctionnement des collèges sont relativement pauvres et peu transparentes. Les pouvoirs publics craignent peut être que la publication des inégalités territoriales au collège accroissent les phénomènes d'auto sélection et de "getthoisation" du territoire ( ghettos de riches avec les bons collèges et ghettos pauvres scolairement déshérités).

Pour en savoir plus :

J'ai monté les données par collège dans un "DataViz" (Tableau public software) pour faire vos listes de sélections de collèges par académie, par catégories et éditer les statistiques de réussite. Si j'ai un peu de temps et d'énergie, je vais écrire très bientôt  un second post sur le sujet des disparités territoriales de la réussite des collèges avec quelques résultats statistiques argumentés et illustrés...

Lien vers l'application de visualisation de toutes les données sur les collèges


Données carroyées : le flou du "floutage" INSEE

Voici un souci d'utilisateur en rapport avec le  Conseil National de l'Information Statistique (CNIS) et l'Institut National de la Statistique et des Etudes Economiques (INSEE). Le CNIS assure la concertation entre les producteurs et les utilisateurs de la statistique publique. Il met en lumière des nouveaux besoins d'enquêtes, d'études, de bases de données et émet des recommandations sur la production et l'usage de la statistique publique. Les recommandations du CNIS font office de programme de travail pour l'INSEE.

A propos de données locales, le CNIS a émis dès 2009 une recommandation de diffusion de données locales censitaires et fiscales à un niveau géographique assez précis appelé "grille carroyée" : il s'agit de carreaux géographiques 200 mètres de côté au plus fin. Après la recommandation du CNIS, l'Insee s'est activé pour sortir à ce niveau géographique une série de  données non nominatives agrégées de sources fiscales (fichiers de l'impôt sur le revenu et de la taxe d'habitation) qui intéressent les utilisateurs : population, ménages, structure d'âge, mode de logement (propriétaire/locataire), type de logement (individuel/collectif) et ... revenu fiscal de référence. Vous pouvez suivre ce lien vers plus de détail sur le contenu des données carroyées.

Le problème sur l'indicateur sensible du revenu est qu'un carreaux géographique de 200 m de large peut compter un nombre très restreint de foyers/logements. Par exemple, en milieu rural peu dense une maison peut être la seule de son carreaux géographique . Le revenu fiscal  rattaché au carreau est donc celui du ménage occupant la maison... D'où des problèmes de confidentialité et non-respect de règles CNIL. Le CNIS avait donc recommandé  à l'INSEE de "flouter" ses données carroyés lorsque le carreau géographique comprend moins de 11 ménages : il s'agit de faire un lissage des données par permutation statistique aléatoire des ménages du carreaux peu peuplé avec des ménages de carreaux voisins plus denses...   Bref un calcul assez complexe, détaillé dans cette présentation du CNIS

A partir de 2011, l'INSEE a distribué une première grille carroyée de 1km2 ne comportant que l'information de la population. En 2012, une seconde grille de 200m2 est publié toujours avec la seule donnée de population. Début 2013, l'INSEE a publié sur son site une grille de 200m2 avec des informations sociodémographique et en particulier le revenu fiscal moyen/médian des ménages fiscaux de chaque carreau. Le Canard Enchaîné s'est mêlé à cette affaire et a sorti un article assassin pour l'INSEE qui publierai des informations top confidentielles, big brother, etc... Je ne pense pas que le journaliste du Canard Enchaîné soit rentré dans le détail de la règle de "floutage" et l'attaque était à mon sens peu justifiée. Il semble cependant que l’INSEE n’a pas correctement appliqué son floutage sur l'intégralité du pays (confer et suivre le lien vers cet article)

Depuis le 27 mars, l’INSEE a retiré de son site ces « données sensibles » et l'on trouve un message sibyllin lorsqu'on accède au site de téléchargement des données carroyées.

Alors pourquoi, revenir sur cette épisode statistique peu glorieux ? Nous n'avons aucune information sur le devenir de ce projet de données carroyées, très utiles pour tous  les travaux qui nécessitent des informations infra-communales et infra-iris. Les usages de ces données fines sont multiples dans les domaines de l'aménagement du territoire, des infrastructures de transports, télécoms, énergie, du géomarketing, etc... Il faudrait donc que l'INSEE publie en toute transparence un calendrier de corrections, les modalités de traitement et la date de prochaine disponibilité sur ces grilles carroyés.


A bientôt et sans floutage