lundi 2 décembre 2013

Carroyage INSEE : des données infra-IRIS propres ?

Dans un précédent billet, je me lamentais sur le flou de la politique de distribution des données infra Iris dites "carroyées" de l'INSEE.

Et bien, il fallait juste être patient !

L'INSEE vient de publier sa copie corrigée avec une nouvelle méthodologie de floutage/lissage des données micro locale afin de respecter le sacro-saint secret statistique, si important en France.

La méthode de l'INSEE ne semble pas abordable pour le premier venu. C'est de l'Open Data qui manque un peu d'ouverture...  

En partant du découpage carroyé original (200m), l'INSEE a appliqué une technique astucieuse pour construire des zonages/sectorisations en respectant des des minimas statistiques (ici de population) pour chaque découpage. L'INSEE regroupe les "petits" carreaux (200m) en "grands" carreaux de taille variable, ce qui permet d'agréger les données censitaires et fiscales et respecter ainsi le secret statistique. Par ailleurs, L'INSEE a très fortement lissé les variables (par écrêtage des plus hauts et plus bas déciles)  les plus intéressantes : revenus et taux de propriétaires. Je crains donc que la plus-value de précision de micro-localisation par rapport à l’IRIS apportée par ces nouvelles données soit faible. Enfin l'INSEE laisse aux utilisateurs le soin de faire une série de traitements cartographiques et statistiques complémentaires pour la production de cartes et pour rendre ces données  compatibles avec les bases de données Iris…
Bref du travail en perspective. Mais nous faisons un métier technique, parfois complexe et nous sommes là pour décrypter. La suite dans un prochain numéro, lorsque nous aurons trouvé le temps de passer quelques heures sur ce jeu de données.

Une version déjà bien aboutie d'une carte interactive de ces données carroyées a été mise en ligne par Etienne Come:
 Lien d'accès à la carte interactive des données carroyées
 Lien d'accès à la carte interactive des données carroyées

Un grand Merci au vénérable Institut pour cette publication que nous attendions.

Le déclin de la criminalité dans les pays développés


Un article de la revue « Sciences Humaine » (n°253, Novembre 2013) relayant lui-même des articles de « The Economist » (The Curious Case of the Fall in Crime et Where have all the burglars gone? , juillet 2013) a attiré mon attention en cette période de poujadisme sécuritaire. Les faits divers d’atteintes aux biens et personnes remplissent les journaux et les conversations de comptoir : Marseille encore et toujours, telle histoire familiale sordide d’une mère qui assassine ses 4 enfants, les casses de la côte d’Azur ou encore le métro à Paris… En revanche, les études sérieuses sur la criminalité ne font pas la une des médias. C’est l’une des hérésies du milieu journalistique, très bêtement piloté par la logique de l’audience court terme.

Une tendance de fond

Or les tendances de fond sur la criminalité lourde d’atteinte aux personnes (Homicides, coups et blessures) et aux biens (Vols de voiture, cambriolage) sont très nettes : l’ensemble des ratios de criminalité par habitant sont en chute très significative et ininterrompue depuis 1990 dans l’ensemble des pays occidentaux dits « développés » : l’Amérique du Nord et Angleterre, toute l’Europe du Nord et de l’Ouest, ce qui inclut la France.  Dans certains pays les homicides ont chuté de 70% ; à New York, la criminalité a été divisée par quatre. Au global la criminalité a baissé d’un tiers avec un trend plus ancien aux Etats Unis (1990) et plus tardif en France (2001).








Il n’y a pas d’explication monolithique du déclin de la criminalité

La tendance est lourde et très largement partagée par les criminologues. En revanche, il n’y a pas  d’accord sur le rôle des facteurs d’explication : politique répressive plus ou moins efficace, progrès très sensibles de la police et de ses méthodes d’investigation et de prévention, facteur démographique favorable du fait du vieillissement des populations occidentales, fin de la distribution de drogues très criminogènes (Crack)  compensée par une croissance des toximanies peut-être moins criminogènes, les alarmes de voiture et caméras de surveillance privées et publiques...
Aucun de ces facteurs ne monopolise l’explication de la chute de la criminalité : les pays d’Europe du Nord et le Canada n’ont pas augmenté la répression et pourtant la criminalité a baissé comme ailleurs.  A Londres et dans beaucoup de villes américaines, la population a plutôt rajeunie et pourtant la criminalité a chuté.
Certains chercheurs ont même avancé une hypothèse saugrenue : les lois de libéralisation de l'avortement seraient à l'origine du déclin de la criminalité, en évitant la vie a des enfants non souhaités qui auraient eu de grandes chances de devenir délinquant s'ils avaient vécus... Mais le raisonnement ne tient pas car l'avortement existait avant sa dépénalisation et la temporalité de la dépénalisation de l'avortement ne coïncide pas avec celle du déclin de la criminalité. 


Le processus de civilisation

Pour ma part, je pense que cette chute de long terme de la criminalité est l’une des manifestations du processus de civilisation (Norbert Elias, "Sur le processus de civilisation" 1° édition en 1939).  Dans des sociétés pacifiées, sous emprise sans cesse montante de l’idéologie et de la démocratisation de la connaissance, avec allongement et l’alternance des périodes d’éducation/formation, la tertiarisation généralisée, des architectures pour des modes de de vie plus doux, les incitations au crime se font plus rares.
Autre coïncidence : 1990 c’est la naissance de l’Internet pour tous, 1995 Google et aujourd’hui les réseaux et jeux sociaux. Lorsque les jeunes générations consacrent des heures a des activités sociales, ludiques ou éducatives sur Internet, elles ne traînent pas désœuvrés dans la « jungle » urbaine. Quelque actes délictueux sur Internet valent bien  des milliers d’homicides en moins.
Utopiste, idéaliste debout ! Le processus de civilisation est en marche.


Le retard français sur l’ouverture des données de criminalité

Certes, la criminalité est en déclin, mais tous les problèmes ne sont pas résolus et, la police le sais bien, il faut connaître le crime "d" l'intérieur" pour l’éradiquer. Sur ce sujet, les données publiques française sont lacunaires, elles manquent vraiment de transparence et de précision. La collecte est en place, les statistiques de criminologie sont issues des « mains courantes » des  commissariats de police.
Mais prétextant la confidentialité, la dissémination de ces données de criminologie locale est très pauvre en France. Le ministère de l’intérieur publie des chiffres départementaux très macro. Or, pour bien comprendre et agir sur la criminalité, la géolocalisation précise de  l’ensemble des actes délictueux est la condition nécessaire. La densité de crime est très hétérogène sur le territoire. Il existe des points chauds de forte concentration des crimes. On doit identifier les contours de ces zones sensibles pour toutes les actions préventives et curatives.
Dans les pays Anglo-Saxon les cartes de "HotSpot" de criminologie sont diffusées au grand public. Les services de police disposent depuis de nombreuses années de bases de données d’actes délictueux finement localisés et des capacités de cartographie analytique pour des investigations et un ratissage plus efficace du territoire. L’observation des corrélations géographiques fines entre les caractéristiques socio-économiques d’une micro-zone et  son niveau de criminalité permet de mieux comprendre pourquoi la criminalité agit à tel ou tel endroit et pourquoi elle décline.
Dans les pays anglo-saxon, les micro-données et la cartographie statistique de la criminalité sont largement diffusés. En France, nous souhaitons l’ouverture d’une version anonyme et géo-localisable du fichier des mains courantes.   Que fait l’Open Data sur le sujet ?


dimanche 1 décembre 2013

La réussite des élèves au brevet des collèges français : l'étonnante domination du secteur privé

Avant propos

Ce billet s’adresse aux parents d’élèves en classe de CM2 (7°) ainsi qu’à tous les parents  de collégien(ne)s. Mais il pourra aussi bien sur intéresser le corps enseignant du 1° cycle des collèges et interpeller les responsables d’académies ou nationaux de l’Education Nationale.
Le choix d’un collège est moins anecdotique qu’on peut le penser.  L’école est une machine à classer les élèves et cette logique du classement est à l’œuvre dès l’entrée en 6°. Mieux vaut être bien informé sur ce point. Personnellement, je n’étais pas bien informé lorsque mes enfants sont entrés au collège, il y a quelques années.  Je n’aurai sans doute pas fait les mêmes choix si j’avais lu ou écrit ce billet à cette époque !  
Si vous souhaitez voir les performances des collèges de votre académie, ville ou quartier :  Allez faire un tour vers la carte de la réussite des collèges.



Si vous souhaitez en savoir plus sur les sources et méthodes de calculs adoptées en support  de cet article, je vous renvoie vers un premier topo sur le sujet des collèges.



Trois collégiens sur quatre passent leurs brevet avec un collège public



Le secteur public regroupe 71% de l’ensemble des 8 426 collèges de France métropolitaine. Ce secteur a présenté 76% de la cohorte de 720 000 collégiens de 3° au brevet des collèges en 2012. La scolarisation en public est donc la règle pour les collégiens français. Mais le secteur privé n’est pas marginal. Il a lui même présenté plus de 170 000 collégiens candidats au brevet. La comparaison des performances de réussite entre les candidats du privé et ceux du public mérite un détour.


Les collèges d’excellence : domination du privé

La liste des 30 premiers collèges français comprend exclusivement des collèges privés. Les premiers collèges publics arrivent très tardivement dans le classement : les loges à Saint Germain en Laye (Yvelines) est classé 32°, le collège international de Valbonne dans les  Alpes Maritimes est  43°, Pierre de Fermat à Toulouse figure en 55° position.

Top 30 des collèges selon leur réussite au Brevet : 100% issu du secteur privé

Cliquez ici pour voir le tableau de l'ensemble des collèges


Les collèges « cancres » : des très petits collèges des deux secteurs ou des grands collèges publics

En bas de la liste des collèges aux performances très médiocres, on trouve cependant de nombreux petits collèges présentant moins de 30 élèves très souvent issus du secteur privé avec de mauvais résultats.
En revanche pour les 3262 « grands » collèges présentant plus de 100 éléves au Brevet,  le bas du classement des collèges français est quasi exclusivement composé de collèges publics.
Par « discrétion », on ne nommera ni ne listera directement aucun de ces collèges « cancres ». J’ai cependant développé une application de consultation de la base de données des collèges qui vous permet de vous faire votre idée : lien vers le dataViz de la réussite des collèges.


D’importants écarts de performance inter académie entre les deux secteurs

En France métropolitaine, les deux académies de Paris et Rennes ouvrent la marche avec de bons indicateurs de réussite tandis que Rouen et Reims ferment le classement.

Indice brut de réussite des collèges par académie et carte par département
Accès aux données interactives



Mais ce classement assez resserré masque d’importantes distorsions privé/public selon les académies.
Le graphique suivant positionne chaque académie sur le plan du taux d’admis (X) et du taux mentions parmi les admis (Y) avec la décomposition des deux secteurs privés et publics.



 Lien vers les données interactives
Accès aux données interactives 

Les points du secteur privé des académies (matérialisés par un carré) figurent très majoritairement en haut et à droite de leur homologue du public (matérialisés par un cercle). Les académies de Paris, Créteil, Versailles, Nice sont emblématiques de cette domination du privé.
Les collèges du secteur privé parisien tirent l’académie vers le haut. Le secteur public parisien est en revanche plutôt mal classé, très éloigné du secteur privé. La distance entre la réussite des collèges privés et public est maximale sur cette académie. A Rennes, les deux secteurs sont beaucoup plus homogènes et présentent tous les deux de bonnes performances. 

Zoomons maintenant ces résultats à l’échelle départementale. Pour le secteur public, tous les départements Bretons (île et Vilaine, Morbihan, Finistère, Cote d’Armor et même … la Loire Atlantique) partagent le haut du classement avec  la Haute-Garonne. Paris et tous les départements de la région île de France sont assez mal classés sur le secteur public.  Les 117 collèges publics du Val d’Oise et les 124 collèges publiques de la Seine Saint Denis sont respectivement classés avant dernier et dernier des collèges publics avec des indices de réussite très faibles de 0,6 (vs 1 pour la moyenne France).
Pour le privé, ce sont les départements d’Île de France, Bretons et d’Alsace qui sont aux premiers rangs. Notons que les 33 collèges privés de Seine Saint-Denis et les 29 collèges privés du Val d’Oise figurent dans le haut du classement et connaissent de très bons indices de réussite (respectivement 1.4 et 1.5). Dès lors les écarts de réussite privé/public sont maximums dans les départements d’Île de France, en Alsace, ainsi que dans les zones à forte densité urbaine du Var et des Alpes maritimes, à Lyon et dans le Nord.

Géographie départementale des écarts de réussite au collège 
entre le secteur public et le secteur privé
Accès à la carte en version interactive

Cependant, pour plus de la moitié des départements les moins peuplés et sans grande métropole, le collège public dépasse ou fait jeu égal avec le collège privé. La Haute-Garonne avec Toulouse est le seul département à dominante urbaine avec un secteur public plus performant que le privé. La domination du privé n’est donc pas uniforme sur le territoire. La dichotomie entre des ghettos scolaires riches, sélectifs et performants pour le privé, et des ghettos déshérités et avec un fort taux d’échec pour le public est l’apanage des très grandes agglomérations avec un point haut à Paris et sa banlieue.  Ce constat assez désolant d’un premier cycle à deux vitesses avec fort déséquilibre privé/public dans les plus grandes agglomérations est le reflet de la situation du collège aujourd'hui. Mais on peut penser qu’il y a eu une accentuation de la divergence Privé/Public au collège au tournant du millénaire. Les précédentes générations de collégiens et de parents collégiens ont vécu sans doute des situations plus atténuées. Cette hypothèse est à éclaircir avec des données historiques auxquelles nous n’avons malheureusement pas accès.    


Les plus grands collèges sont plus performants : de nombreux trop petits collèges pourraient fusionner !

En collège public comme en privé, le taux de réussite et le taux de mention croit avec la taille des collèges. On constate ces variations de performances dans toutes les académies. Le taux de mentions des petits collèges  présentant moins de 50 candidats au brevet  (53%) est 13 points en dessous du national (66%).

Taux de réussite et de mentions parmi les admis par secteur et 
selon le nombre de candidats au DNB
Accès aux données interactives
Pour les 2617 plus petits collèges (moins de 50 présents soit 2 classes de 3° et moins) également répartis entre les deux secteurs, le privé ne fait guère mieux que le public. 
Il n’est pas étonnant de compter le plus d’admis avec mention au sein des 802 « gros » collèges (150 à 200 candidats) et des 199 « très gros » collèges.  Les collèges les plus performants sont aussi les plus demandés (par les parents d'élèves et les enseignants) et on y ouvre donc plus de classes. S’il n’est pas certain qu’il soit rationnel et possible de développer des "usines" à collégiens, un travail de rationalisation mérite d’être engagé pour fusionner de nombreux trop petits collèges et adapter la sectorisation associée en renvoyant ces élèves vers de plus grands établissements. Une importante capacité d’accueil engendre des économies d’échelles sur les coûts des infrastructures et des gains de cohésion/stimulation pédagogique avec un corps professoral plus important.


Le privé, plus souvent dans les zones aisées, mais ce n'est pas systématique.

Les déterminants sociaux de la réussite scolaire sont bien connus et très prégnants. Les Filles réussissent mieux que les garçons, les enfants des milieux intellectuels, aisées et/ou sensibilisé à la question scolaire (enfants d’enseignants) ou encore les enfants précoces réussissent mieux leurs examens que les autres. Le brevet des collèges n’échappe pas à la logique déterministe de la réussite scolaire. Sur ce point, je renvoie vers les tableaux du ministère de l’éducation nationale à propos de la réussite au diplôme national du brevet : sexe, âge et origine sociale. On pense avec quelques bon arguments que la performance insolente du secteur privé au brevet est liée pour tout ou partie à une composition sociale des collégiens du privé très distincte de celle du public.






Les collèges privés ont la liberté de choix de leurs élèves, c'est moins le cas pour les collèges publics du fait de règles de sectorisation géographique. Le ministère de l'éducation ne diffuse malheureusement pas d'informations sur la composition du public des élèves de chaque collège. Nous ne pouvons donc pas distinguer pour chaque collège la réussite liée à la composition sociale des élèves et la réussite liée à une pédagogie et une gestion efficace du corps enseignant.  Les écarts de réussite entre collèges sont la conséquence :
  •      des effets de ségrégation sociale à l'entrée des collèges (ségrégation spatiale du fait de la carte scolaire, stratégie parentale de localisation sur un bon secteur scolaire, politique de sélection de certains collèges privés…) ;
  •       des choix et règles d'affectation des enseignants vers les collèges ;
  •       de la politique pédagogique de chaque collège.

Avec les « moyens du bord », j’essaye donc de contrôler statistiquement les déterminants sociaux de la réussite au brevet afin de tester l’hypothèse d’un apport qualitatif managérial du privé par rapport au secteur public. J’ai ventilé les indices de réussite de chaque collège en fonction des caractéristiques sociales de leur localisation. J’ai choisi le niveau de revenu fiscal moyen des ménages du quartier (Iris) comme indicateur proxy de synthèse de l’environnement et de la composition sociale du public collège.







Sans surprise pour le public comme pour le privé, les collèges des beaux quartiers performent mieux que ceux des zones défavorisés. L’implantation du privé est aussi plus tournée vers les beaux quartiers : 39% des collèges sont privés dans les zones avec un revenu moyen par ménage de + de 50000 € (versus 29% au national). Mais la réussite du secteur privé est constamment supérieure à celle du public, quelque-soit la tranche de revenu. De façon surprenante, les écarts de réussite entre les secteurs privés et public sont plus forts aux deux tranches extrêmes des bas et des hauts revenus. Peut-on donc affirmer que le secteur privé forme mieux les élèves au brevet que le secteur public ? Ce serait hâtif à partir des données parcellaires que nous exploitons ici. Il existe cependant un sérieux faisceau d’indices pour pousser des études complémentaire à éprouver cette hypothèse.
         

Répartition  des indicateurs de réussite au brevet par secteur privé/public
et selon le revenu moyen des ménages du quartier du collège
Toutes les statistiques de mesure de performances collectives ou individuelles sont sujettes à caution, discussion, remise en cause, etc. Tout un chacun accepte un classement s’il figure en haut de la liste et le conteste si ce n’est pas le cas. J'ai bien conscience qu'il n'y a pas de vérité absolue sur ce type sujet. De multiples facteurs qualitatifs ou lié à l'histoire et la géographie scolaire locale méritent d'être intégrés dans l'évaluation d'un établissement scolaire. Le professionnel de la statistique compose avec les sources dont il dispose. En l'occurrence les sources publiques sur le fonctionnement des collèges sont relativement pauvres et peu transparentes. Les pouvoirs publics craignent peut être que la publication des inégalités territoriales au collège accroissent les phénomènes d'auto sélection et de "ghettoïsation" du territoire : ghettos de riches avec les bons collèges et ghettos pauvres scolairement déshérités. Mais la politique de l’autruche est-elle tenable sur le long terme de la politique d’éducation ?




samedi 30 novembre 2013

Le prénom, ce marqueur social

Les études sur les prénoms ont toujours la côte ! Guy Desplanques à l'INSEE avait initié les premiers travaux sur le sujet en  France en 1986 (Guy Desplanques, “Les enfants de Michel et Martine Dupont s’appellent Nicolas et Céline”, Economie et statistique, 1986, n°184, pp. 63-83)  . Depuis le succès des publications sur les prénoms ne se dément pas. Des sites spécialisés tracent la géographie de la fréquence des prénoms, l'histoire, l’étymologie et les courbes de naissance des prénoms. En quelques clics d'Internet, on connaît tout des prénoms régionalistes, des phénomènes de mode et des prénoms de générations. Mais ce qui fascine le plus, c'est la marque sociale qu'imprime un prénom. Il y a des prénoms mondains, des prénoms classiques indémodable, des modes de prénoms bourgeois ou populaires...

Le prénom marque bien sur le sexe. Il permet aussi d'approcher  l'âge ( la génération), le milieu social, l'origine ethnique de celui qui le porte. Identité, sexe, âge et catégorie sociale, origine géographique et ethniques: ce sont des attributs importants de la personne que les sociologues adorent triturer.

Sur ce sujet, Baptiste Coulmont a récemment revitalisé le domaine en produisant une très astucieuse analyse de la fréquence des mentions très bien au Bac par prénom. Les prénoms féminins sont très dominant sur la partie gauche du graphique, car les filles réussissent mieux au Bac que les garçons. Les très bons élèves vivent dans les milieux sociaux les plus favorisés et portent les prénoms de leur milieu. En 2013, 2150 Kevin ont passé le Bac et moins de 3% ont obtenu la mention Très Bien. A contrario,  parmi les 1500 Juliette, 18% on décroché la mention très bien. C'est bien l'espace social qui se dessine derrière le résultat des mentions du bac par prénom ; une nouvelle traduction du trop important lien de causalité entre l'origine sociale et la réussite au diplôme.

Je vous recommande donc de consulter le graphique interactif du positionnement de chaque prénom selon leur ratio d'accès à la mention très bien et leur fréquence d'apparition dans la population.  C'est une représentation à la fois synthétique, détaillée, précise et très explicite :
Accès au graphique interactif du taux de mentions TB par prénom
Les statisticiens, les sociologues, les professionnel du marketing, les généalogistes, les journalistes et le grand public raffolent des études et données sur les prénoms. Et c'est tant mieux !


mercredi 23 octobre 2013

Amours adolescentes et Big Data

J'anime un séminaire géomarketing pour la filière de marketing quantitatif en dernière année à ENSAI. Signe des temps, cette filière est désormais très compétitive par rapport à la filière Finance ; les étudiants demandent massivement à s'orienter vers cette spécialisation. La filière  marketing quantitatif forme notre future génération de "data scientist". C'est un très bon vivier de recrutement pour les professionnels des données.

Après ParisTech, j'ai appris que l'ENSAI va ouvrir son master "Big Data" à la rentrée 2014. Avec la masse d'article sur ce sujet (dernier en date le dossier du Monde), inutile d'en rajouter !

Je reprends juste une réflexion que m'a soufflé Jocelyn Julienne (ENSAI) ; "le big data c'est comme les amours adolescentes : on en parle beaucoup, on ne sait pas trop comment s'y prendre et surtout... il faut dire qu'on l'a fait !"

Et enfin, je termine par la très bonne illustration du métier de "data scientist" de Brett Ryder :

vendredi 4 octobre 2013

Une carte interactive des rues dangereuses


Le nombre de tués sur les routes françaises a été divisé par quatre depuis 40 ans en dépit de la hausse ininterrompue du trafic routier. Les routes restent cependant dangereuses. 4000 personnes perdent leur vie tous les ans sur les routes françaises. Nous pensons que l'on roule collectivement plus en sûreté si l'on possède une bonne connaissance des dangers de la route. Savoir quels sont les carrefours, les routes et les rues dangereuses permet de mieux cerner nos risques, mieux anticiper et mieux conduire.

Nous publions donc ces statistiques et une cartographie fine de l'accidentalité qui permet à l'automobiliste internaute de bien mesurer et visualiser les risques sur ses trajets usuels.

Des sources parcellaires 

Il s'agit de la base de données ouverte EtatLab extraite de la base BAAC des accidents corporel de la route en France sur 6 années de la période 2006 à 2011 avec des informations de géolocalisation de l'accident.

La saisie des informations a été réalisée pour chaque accident corporel par les forces de l'ordre. Cette base comporte 440 351 accidents avec au moins un blessé léger enregistrés entre 2006 à 2011 en France métropolitaine. L'ensemble des véhicules impliqués lors des accidents sont aussi répertoriés (748 426 véhicules).

70% des accidents ont été géolocalisés (soit à partir des adresses fournies, soit à partir des coordonnées GPS partiellement renseignées par les services de police). Le taux de géolocalisation est très variable selon le type de voie et l'urbanité : les taux de réussite de géocodage sont bien plus faibles sur les autoroutes et dans les zones rurales. Ce biais doit être pris en compte lors de la visualisation des cartes. Par ailleurs, les coordonnées GPS de ce fichier sont parfois imprécises. Des accidents sont localisés parfois à quelques centaines de mètres de la route référencée par les forces de police. Des compléments d'informations de la part des services de la sécurité routières sont nécessaires sur ce point. Cette application est donc un prototype qui doit être fiabilisé dans le temps avec l'amélioration de la collecte.

La carte nous semble donc fiable pour montrer la dangerosité des rues des grandes agglomérations. En revanche les données ne sont pas de bonne qualité pour le positionnement des accidents sur les autoroutes 4 voies, artères urbaines, brettelles autoroutières diverses et grosses routes nationales. Par exemple à Paris, nous ne sommes pas capable de localiser les accidents sur le boulevard périphérique et sur la voix express car les informations d'adresses et de coordonnées GPS fournies par les services de Police sont de mauvaise qualité et/ou peu normalisées.

L'indice de gravité de l'accident 

Il est calculé selon le coût normalisé des atteintes aux victimes (intervenant dans le calcul annuel du coût pour la Nation de l’insécurité routière), en proportion des valeurs tutélaires mises à jour pour l’année 2011. Chaque tué est ainsi "valorisé" à hauteur de 100 points d’indice, chaque hospitalisé à hauteur de 10.8, chaque blessé léger à hauteur de 0.44.


Une mesure du risque brut d'accidents

Le nombre d'accidents enregistré sur un segment de rue donné dépend bien sur du volume de trafic routier de ce segment.  C'est lorsqu'il y a du monde sur la route qu il faut redoubler de vigilance. La carte illustre bien cet effet trafic. Les plus grosses rues sont souvent plus dangereuses. Les priorité d'améliorations et de sécurisation de la voirie doivent d'abord porter sur ces routes et rue denses. 

Il serait cependant judicieux de mesurer un risque net du trafic afin d'identifier les segment routiers foncièrement dangereux pour ceux qui les empruntent, avec un taux anormal d'accident pas véhicule passant par la voie. On pourrait par exemple ainsi identifier des types de rues/routes avec un trafic moins denses pour lesquelles il faut mettre en place des mesures de sécurisation simples comme l'abaissement de la vitesse limite sans nuire à la fluidité de la circulation.
Il faudrait pour cela disposer d'une mesure appelé "Trafic Moyen  Journalier Annuel" (TJAM ou en anglais Average Annual Daily Traffic) par segment de rue pour construire l'indicateur net de dangerosité. Or cet indicateur est encore aujourd'hui compliqué à mettre au point sur la globalité du territoire, des routes et des rues françaises. Il existe des mesures centralisées très partielles sur le seul réseau autoroutier ou 4 voies. Des travaux sont en cours sur ce sujet à partir des traces GPS de Navteq (Here) ou TomTom, mais non finalisés. Je ferai un mémo sur ce point (si j'en prends le temps...).

La carte interactive et  les statistiques d'accidentalité 

La carte identifie des zones sensibles d'accidentalité. Ces zones ont été construite en sommant les indices de risque sur un grille carroyée de 50 mètres de cotés. Les points de localisation de chaque accident s'affichent en zoomant fortement sur la carte sur la carte.
  
Lien vers la carte interactive

Pour ceux qui souhaitent en savoir plus sur les statistiques d'accidentologie, voici un lien vers un DataViz qui complète cette carte :

Lien d'accès au DataViz sur les risques d'accidentalité


Ce travail a été réalisé grâce à la grande contribution de Baptiste Nouguier (BNP et Ex MapInfo).



    


mardi 1 octobre 2013

Les vents dominants

Voici une vraiment très belle représentation des flux de vents sur le sol américain. C'est un travail d'artiste.

Je n'ai malheureusement pas compris comment réaliser ce type de carte. Il y a une multitude d'applications sur la mobilité qui pourraient se représenter de façon très lisible selon ce modèle. Que ceux qui savent me contactent !

Source et lien de la carte des vents : http://hint.fm/wind 

Stéréotypes américains encartés


Quelques stéréotypes  en carte : une vision du monde plutôt anglosaxonne, sans commentaires !







Source et lien vers plus de stéréotypes encartés : http://alphadesigner.com/mapping-stereotypes/  

La carte de la réussite des collèges

Je présente ici une cartographie exhaustive,  inédite, interactive des collèges de France métropolitaine selon leur indice de réussite.


Quels sont le objectifs de cette carte ?

De multiples publications portent sur l'évaluation des lycées via leurs résultats au Baccalauréat. En revanche le premier cycle des collèges n'a jamais fait l'objet d'attention. Et pourtant, il existe de très fortes disparités du public des élèves et des résultats des collèges. Ce document comble ce déficit en publiant la première cartographie de la réussite des collèges.

EtatLab.fr a récemment publié la base de données du ministère de l'éducation nationale des résultats par  collège au Diplôme National du Brevet (DNB) pour l'année 2012.
Les résultats couvrent près de 8500 collèges Français. Le fichier comprend en particulier les effectifs par collège les taux de réussite au DNB 2012 et le taux d'accès à la mention parmi les admis.

Voici donc la cartographie exhaustive et inédite de tous collèges de France métropolitaine selon leur indice de réussite et diverses statistiques illustrant les disparités de réussites par académie, département, secteur privé/public, niveau de richesse des ménages résidents à proximité de l'établissement,...


Lien vers la carte interactive de la réussite des collèges


Comment mesure-t-on "la réussite d'un collège"?


Notre définition de l'indice de réussite d'un collège : il exprime la capacité d'un collège à porter un nombre important d'élèves à la mention au DNB. L'indice est cadré à 1 pour la moyenne de la réussite de l'ensemble des collèges français.
formule de calcul de cet indice : (Puissance([Nombre de presents],0.2)*puissance([Taux de reussite DNB],2)*puissance([Taux Mention DND],2)/0.736)

La réussite aux examens dépend très fortement de l'origine sociale du public des établissements et de la politique de sélection à l'entrée exercée par chaque collège. Les collèges privés ont la liberté de choix de leurs élèves, c'est moins le cas pour les collèges publics du fait de règles de sectorisation géographique.

Le ministère de l'éducation ne diffuse pas d'informations sur la composition du public des élèves de chaque collège. Nous ne pouvons donc pas distinguer pour chaque collège la réussite liée à la composition sociale des élèves et la réussite liée à une pédagogie et une gestion efficace du corps enseignant.  Les écarts de réussite entre collèges traduisent donc des effets de ségrégation sociale à l'entrée des collèges (ségrégation spatiale du fait la cartographie scolaire, politique de sélection de certains collèges privés…), les choix et règles d'affectation des enseignants vers les collèges et la politique pédagogique de chaque collège.


Toutes les statistiques de mesure de performances collectives ou individuelles sont sujettes à caution, discussion, remise en cause, etc.. J'ai bien conscience qu'il n'y a pas de vérité absolue sur ce type sujet. De multiples facteurs qualitatifs ou lié à l'histoire et la géographie scolaire locale méritent d'être intégrés dans l'évaluation d'un établissement scolaire. Le statisticien compose avec les sources dont il dispose. En l'occurrence les sources publiques sur le fonctionnement des collèges sont relativement pauvres et peu transparentes. Les pouvoirs publics craignent peut être que la publication des inégalités territoriales au collège accroissent les phénomènes d'auto sélection et de "getthoisation" du territoire ( ghettos de riches avec les bons collèges et ghettos pauvres scolairement déshérités).

Pour en savoir plus :

J'ai monté les données par collège dans un "DataViz" (Tableau public software) pour faire vos listes de sélections de collèges par académie, par catégories et éditer les statistiques de réussite. Si j'ai un peu de temps et d'énergie, je vais écrire très bientôt  un second post sur le sujet des disparités territoriales de la réussite des collèges avec quelques résultats statistiques argumentés et illustrés...

Lien vers l'application de visualisation de toutes les données sur les collèges


Données carroyées : le flou du "floutage" INSEE

Voici un souci d'utilisateur en rapport avec le  Conseil National de l'Information Statistique (CNIS) et l'Institut National de la Statistique et des Etudes Economiques (INSEE). Le CNIS assure la concertation entre les producteurs et les utilisateurs de la statistique publique. Il met en lumière des nouveaux besoins d'enquêtes, d'études, de bases de données et émet des recommandations sur la production et l'usage de la statistique publique. Les recommandations du CNIS font office de programme de travail pour l'INSEE.

A propos de données locales, le CNIS a émis dès 2009 une recommandation de diffusion de données locales censitaires et fiscales à un niveau géographique assez précis appelé "grille carroyée" : il s'agit de carreaux géographiques 200 mètres de côté au plus fin. Après la recommandation du CNIS, l'Insee s'est activé pour sortir à ce niveau géographique une série de  données non nominatives agrégées de sources fiscales (fichiers de l'impôt sur le revenu et de la taxe d'habitation) qui intéressent les utilisateurs : population, ménages, structure d'âge, mode de logement (propriétaire/locataire), type de logement (individuel/collectif) et ... revenu fiscal de référence. Vous pouvez suivre ce lien vers plus de détail sur le contenu des données carroyées.

Le problème sur l'indicateur sensible du revenu est qu'un carreaux géographique de 200 m de large peut compter un nombre très restreint de foyers/logements. Par exemple, en milieu rural peu dense une maison peut être la seule de son carreaux géographique . Le revenu fiscal  rattaché au carreau est donc celui du ménage occupant la maison... D'où des problèmes de confidentialité et non-respect de règles CNIL. Le CNIS avait donc recommandé  à l'INSEE de "flouter" ses données carroyés lorsque le carreau géographique comprend moins de 11 ménages : il s'agit de faire un lissage des données par permutation statistique aléatoire des ménages du carreaux peu peuplé avec des ménages de carreaux voisins plus denses...   Bref un calcul assez complexe, détaillé dans cette présentation du CNIS

A partir de 2011, l'INSEE a distribué une première grille carroyée de 1km2 ne comportant que l'information de la population. En 2012, une seconde grille de 200m2 est publié toujours avec la seule donnée de population. Début 2013, l'INSEE a publié sur son site une grille de 200m2 avec des informations sociodémographique et en particulier le revenu fiscal moyen/médian des ménages fiscaux de chaque carreau. Le Canard Enchaîné s'est mêlé à cette affaire et a sorti un article assassin pour l'INSEE qui publierai des informations top confidentielles, big brother, etc... Je ne pense pas que le journaliste du Canard Enchaîné soit rentré dans le détail de la règle de "floutage" et l'attaque était à mon sens peu justifiée. Il semble cependant que l’INSEE n’a pas correctement appliqué son floutage sur l'intégralité du pays (confer et suivre le lien vers cet article)

Depuis le 27 mars, l’INSEE a retiré de son site ces « données sensibles » et l'on trouve un message sibyllin lorsqu'on accède au site de téléchargement des données carroyées.

Alors pourquoi, revenir sur cette épisode statistique peu glorieux ? Nous n'avons aucune information sur le devenir de ce projet de données carroyées, très utiles pour tous  les travaux qui nécessitent des informations infra-communales et infra-iris. Les usages de ces données fines sont multiples dans les domaines de l'aménagement du territoire, des infrastructures de transports, télécoms, énergie, du géomarketing, etc... Il faudrait donc que l'INSEE publie en toute transparence un calendrier de corrections, les modalités de traitement et la date de prochaine disponibilité sur ces grilles carroyés.


A bientôt et sans floutage

dimanche 29 septembre 2013

Les modes de transports parisiens en 3 couleurs


Jean Jacques Jesua (La Poste) m'a transféré une représentation inédite en 3 couleurs sur les modes de transports dans le grand Londres, au delà du contenu c'est un vrai travail d'artiste  : The colors of London's commute.

C'est aussi une très bonne façon de représenter une mesure statistique localisée à trois modalités. On mixte 3 couleurs (une par modalité) avec une carte choroplèthe.


Chaque Mode de transport domicile/travail est représenté par une couleur ;
  • En Rouge : les transports par véhicule motorisé 4 roues ;
  • En bleu : les transports en commun ;
  • En vert : les transports doux (vélo, piéton, 2 roues).

La couleur est fonction des modes de transport utilisés pour le trajet domicile-travail dans la commune. Si la couleur se rapproche de celle de l’une des pointes du triangle de la légende (rouge, vert ou bleu vif), cela indique que les habitants de cette commune utilisent plutôt un seul moyen de transport. A l’opposé, un mélange de couleurs signifie que plusieurs moyens de transport sont utilisés.

J'ai fais le même exercice pour l’île de France avec mon Système d'Information Géographique (MapInfo) et cela donne cela :

Mode de Transport dominant en île de France (Source Insee RP2008)

Cette carte illustre sans grande surprise le lien entre l’infrastructure de transports en commun et leur utilisation par les usagers pour se rendre à leur travail et l’ensemble des navettes quotidiennes. Là où ils sont peu développés dans la grande périphérie, les usagers continuent de privilégier la voiture. A paris Intra-Muros, ville très dense avec un transport collectif plus efficace que le transport en voiture individuelle, l’adoption des transports en communs et des alternatives à l’automobile est massive. La création d’infrastructures précède donc les changements de comportements des usagers.

Si l’on veut faire évoluer les habitudes de déplacement des Franciliens et réduire le trafic routier, il faut d’abord renforcer l’offre de transports publics (lignes desservies rapidité, régularité, fréquence des trains/bus, inter-modalité…), puis limiter l’efficacité de la voiture.  La mobilisation citoyenne vers les transports doux et collectifs suivra.

Dans les zones très denses et en expansion de la petite couronne parisienne, les gains potentiel d’adoption des transports doux et collectifs sont très important si l’infrastructure est adaptée.

Point technique :

Mon collègue  d'ESRI Chistophe Touret détaille sur son blog Arcorama la façon de faire avec ArcGIS. Pour les utilisateurs de MapInfo Je détaille rapidement le processus pour pour  la constitution d'une carte en 3 couleurs. Si vous connaissez bien MapInfo, ce n'est pas très compliqué.

Inutile de chercher une analyse thématique qui permettrai de faire cela rapidement, cela n'existe pas. Il faut passer par une colorisation adaptée des objets géographiques. Dans notre exemple, il s'agit de colorier les communes d'île de France. J'ai récupéré les données communales sur le mode de transport sur le site du recensement de l'INSEE. La carte des communes est accessible en libre à l'IGN : Fichier Geofla. Il faut noter que ce fichier comprend des contours cependant très imprécis (Les contours de commune sont parfaits sur Open Street Map en revanche il manque 10% des communes...).

J'ai constitué une base géographique à la commune avec les données attributaires du nombres de navettes au départ de la commune selon les 3 modes de transports : auto, transports en commun et transports doux, puis j'ai calculé le poids de ces 3 modes de transports. Pour pouvoir colorier les objets de la carte, il faut charger un utilitaire bien pratique ADDCOLOR.mbx. Cet utilitaire addon de MapInfo colorie les objets d'une table en fonction de valeur de variable de cette table. Nous ajoutons donc 3 colonnes RED, GREEN et BLUE à notre table de départ. L'utilitaire attend pour chacune de ces variable une valeur comprise entre 0 et 255 qui représente le dosage nécessaire de rouge, de vert et de bleu pour obtenir un couleur mixte : c'est le système de coloriage RVB (RGB en anglais). Les valeur des 3 variables sont proportionnelles au poids du mode de transport correspondant. Cependant, Les modes transports automobile (42% des déplacements) et en commun (45% des déplacements) sont largement dominants en île de France. Si l'on colorie la carte avec les données bruts, le rouge et le bleu sont trop envahissant et la carte prend trop souvent des colorie trop uniformes de type briques, fushia... J'ai donc "écologisé" quelque peu la carte en normalisant les pourcentages et en forçant sur le vert.  Le coloriage des cartes est un travail de peintre, il faut de la suggestion et de l'expression !
L'utilitaire AddColor de MapInfo pour colorier des objets sur le spectre RGB

Pour vous aider, vous pouvez télécharger mon exemple en cliquant sur le lien  du document MapInfo avec les données vectorielles de la carte des transports en île de France






dimanche 22 septembre 2013

Etes-vous plutôt Sushi ou Charcuterie ?

Des goûts et des couleurs, analysons-les !

La plus célèbre Analyse Factorielle des Correspondance a été réalisée par un sociologue Pierre Bourdieu. Il l'a publié dans son livre La Distinction Critique sociale du jugement (Editions de minuit, 1979). Dans cet ouvrage, Bourdieu développe sa vison de l'espace social. Il formule les concepts de capital économique et de capital culturel, à partir d'enquêtes sur les préférences en France, les goûts et ... les dégoûts de chacun.

Pierre Bourdieu en 1979

Le capital culturel et le capital économique selon Pierre Bourdieu

La Distinction est un classique avec une rhétorique et une méthode intemporelle, presque universelle mais applicable de façon différenciée selon les cultures.
En témoigne, une récente et intéressante adaptation des concepts à l'univers gastronomique américain :

 source : http://www.gastronomica.org/bourdieus-food-space/

Ce plan factoriel des goûts alimentaires américain positionne la charcuterie dans les hautes sphères des capitaux culturels et économiques (partie haute et gauche du plan). En France,  la charcuterie est un plat du peuple (en bas à droite) et ce sont les Sushis très appréciés de catégories bourgeoises et intellectuelles soucieuses de leur ligne qui sont positionnées en haut et à gauche de ce plan factoriel. Au Japon, très certainement une autre configuration...

L'ancienneté des immeubles de Brooklyn


Sur le sujet des données micro locales sur les logements, il faut suivre l'activité de nos confrères anglos-saxons.  Les Etats Unis et UK ont développé des bases de données open sources d'adresses, de codes postaux ou encore de contours de "blocks" d'une grande précision et avec beaucoup d'attributs. Voici un exemple américain de représentation pertinente pour le suivi de la politique urbaine d'extension/rénovation des quartiers.

Brooklyn bloc par bloc : les bâtiments selon leur date de construction 
Données source :  NYC’s PLUTO data.
Lien : http://bklynr.com/block-by-block-brooklyns-past-and-present/

Le travail sur les bases de données des adresses et des immeubles est l'un de nos "dada" chez PBS (MapInfo). Depuis près de dix ans, nous collectons par exemple en France des informations sensibles de caractérisation socio démographique de la population de chaque adresse. La localisation se fait par points : nous décomptons plus de 19 millions de points pour la France et les DOM dans la base immeuble PBS.

Cliquez sur cette vignette pour voir une carte interactive des immeubles de l'Essonne (91)

Les contours numériques des bâtiments cadastrés anonymes (sans identifiant cadastral ni coordonnées d'adressage) sont désormais accessibles librement via Open Street Map, c'est une belle avancée. Cependant, la DGFIP qui gère le cadastre ne publie aucunes données libres sur les caractéristiques de construction des bâtiments : destination, surfaces, hauteur, date de construction... C'est bien dommage, toutes ces informations sont amassées lors des déclarations de permis de construire et elles sont fondamentales pour un bon nombre de problèmes d'aménagements.  Il faut que les caractéristiques du patrimoine immobilier français soient publiques ou facile d'accès pour les acteurs privés

De son côté, L'IGN édite les Bases "Topo" et  "points adresses" qui permettent de faire un lien entre l'adresse et la topographie des bâtiments sur les parties les plus denses du territoire. Avec l'IGN, nous avons fait l'expérience à Paris et la petite couronne. Techniquement; cela fonctionne très bien, on dispose d'une carte 3D des contours d'immeubles avec la surface et la hauteur des bâtiments. Mais nous sommes encore loin des anglo-saxons sur la cartographie de notre patrimoine immobilier. Je ferais un Post sur ce sujet un peu plus tard ...

Une carte intime

Celle de mon lit.
Les coordonnées planaires conjugales :  X à droite, Y partout ailleurs.

Source : http://thedoghousediaries.com/3586 

mardi 17 septembre 2013

Vidéo MapInfo à gogo

J'apprécie rarement les formations "classiques" de visu à l'usage des logiciels. On vous enferme quelques jours dans une salle avec de très bon formateurs. Mais souvent nous oublions bien vite ce que l'on a appris car nous ne sommes pas  directement confronté  à chaud à résoudre un cas pratique.  L'expérience pratique d'un logiciel s'acquiert vraiment lorsque l'on a un problème à résoudre, un tableau à faire, une carte à dessiner, une statistique à produire ou expliquer. Pour cela les vidéos postés par les utilisateurs et les éditeurs de logiciels sont souvent très pratiques. La vidéo à la carte, peux alors être la bonne solution pour une auto-formation ponctuelle au bon moment.

Le département formation de MapInfo publie toute une série de vidéos autour de MapInfo et des technologies associées sur une chaîne vidéo dédiée. C'est une bonne nouvelle. La plupart de ces tutoriels sont filmés dans la langue de Shakespeare mais le contenu de ces vidéo est moins difficile à suivre que Macbeth !

Le classement des vidéo par thème mérite d'être revue. Vous y trouverez à boire et à manger et peut être aussi la solution à votre casse tête cartographique du moment :

Lien vers le site de vidéos de formation MapInfo


 La version 12 de MapInfo désormais disponible en français apporte des améliorations de la gestion des labels sur les cartes : meilleur paramétrage de l'insertion de label dans les objets géographiques où le long d'objets lignes et enfin très utile possibilité de donner un ordre de priorité dans l'affichage des labels dans le cas d'un superposition de couche. Tout cela pour des cartes, plus esthétiques et surtout plus claires :


http://www.youtube.com/watch?v=bHZzmtVal_s
Lien vers la video : nouveautés sur les labels avec MapInfo V12