samedi 19 septembre 2015

Le trompe l’œil de Mercator

La terre est ronde, nos écrans sont plats. C’est le casse-tête de la géodésie et il faut déambuler dans la jungle des systèmes de projections pour représenter le globe sur nos terminaux numériques. Mercator nous guide parfaitement sur les mers grâce à un système de projection qui conserve les angles. Mais sur terre et sur nos globes virtuels, Mercator nous dessine des cartes peu conformes, qui ne respectent pas les distances et surfaces, pleines de distorsions azimutales ! Les déformations sont d’autant plus fortes que l’on se rapproche des pôles.

Un site Internet tente avec brio de rétablir les faits : http://thetruesize.com/. On y déplace à loisir nos frontières en longitude et en latitude avec quelques résultats insolites. En voici un échantillon :

  • Rétablissons une vérité physique, la France au 70° parallèle prend du relief, c’est un grand pays !
  • Mais le logiciel est « con sur les bords » ; aux pôles les rapports de surfaces ne sont pas respectés. La France au 80° parallèle Nord est énorme !
  • Bien sûr, la solution est de placer le Groenland au  45° parallèle :


  • Dernier constat mal connu : l’Afrique est plus vaste que toutes les grandes puissances réunies !
 


Conclusion ; Mercator : menteur à la carte.
Plus de détail, voir aussi cet article du Monde






jeudi 3 septembre 2015

DataShine : le recensement anglais à la carte

Vous vous intéressez à notre voisin anglais ; ses us et coutumes qui nous semblent parfois étranges ? Vous êtes curieux de la géographie de sa population, de sa démographie, de la pratique de la langue de Shakespeare  ?

DataShine est un site de webmapping qu'il faut absolument visiter. L'objectif est de présenter au grand public les données locales du dernier recensement anglais (2011). Deux universitaires anglais ont relevé ce defi avec maestria. DataShine est une carte interactive avec une sémiologie très bien travaillée, facile d'accès et qui permet rapidement de visualiser les diversités locales de la société anglaise sous de multiples aspects :  caractéristiques sociodémographiques, culturelles (origine ethnique, religions, langues), santé, logement, éducation, activité/emploi, flux et déplacements...

Allez donc faire un tour sur DataShine en suivant ce lien. Le site et l'interface sont beaux, simples, pratiques et bien réfléchis. Sur une base d'informations importantes, les auteurs du site ont trouvé un juste compromis entre fluidité et richesses fonctionnelles. Les cartes détaillent des informations au niveau geographique fin des "census output area" (equivallent des iris de l'Insee).


Pour les professionels du "webMapping" souvent assimilés au mot valise "geek", j'attire l'attention sur deux fonctions novatrices, bien utiles et bluffantes:

1/ Integration dans l'analyse thématique d'un arrière fond du bâti

Par défaut l'analyse thématique de données censitaires couvre l'ensemble des zones bâties et non bâties. C'est une représentation biaisée et imprécise de la réalité. DataShine propose de montrer l'analyse thématique uniquement sur les polygones de description des bâtiments. Sur le complément des zones non bâties non habitées, il n'y a pas de raison de montrer l'analyse thématique.

Les vélomans : part des actifs se rendant au travail à vélo
version sans batis moche :

version avec couche des bâtiments, bien plus claire :



2/ Légende de l'analyse thématique automatiquement recalibrée sur la vue en cours

Par défaut la légende est calibrée automatiquement sur les données de l'ensemble de l'Angleterre. En fonction de la répartition de l'indicateur sélectionné, DataShine arbitre entre le calibrage en classes d'équi-amplitudes et le calibrage par la méthode de jenks (dite des "ruptures naturelles") basée sur la décomposition de la variance de l'indicateur (maximisation des variances interclasses et minimisation des variances intraclasses).

Pour les indicateurs avec une forte dispersion et une forte concentration sur certaines zones, la légende automatique n'est pas adaptée. DataShine propose une option "rescale on current view" qui recalcule automatiquement la légende sur les seuls quartiers de la vue écran.

Prenons l'exemple du français parlé à Londres.

Français comme langue principale en % de la population 
version avec une légende calibrée sur l'ensemble de l'Angleterre 
Cette carte est peu informative. On sait bien que Londres est cosmopolite et accueille une population d'origine française importante par rapport au reste de l'Angleterre. Partout dans Londres, on peut demander l'heure à au moins une personne sur 100 dans la langue de Molière.

Français comme langue principale en % de la population 
Version avec légende recalibrée sur la vue 

C'est beaucoup plus clair maintenant : le quartier huppé de South Kensington est colonisé par des francophones. Une personne sur cinq peut vous indiquer votre chemin en français dans Fulham Road ou devant chez Harrods.


Bravo à James Chesshire et Oliver o'Brien pour ce travail  "so inspiring". Merci à Paul Thompson pour m'avoir passé l'information.


Les bonnes sources libres pour les bonnes analyses géomarketing

A l'attention des analystes des territoires français et en géomarketing, voici une liste des données de base à intégrer dans votre système d'information géographique pour vos chères études. Les sources ouvertes sont foisonnantes et j'ai restreint la liste à l'essentiel.

1/ Le géocodage facile et gratuit :

Vous avez des données clients fournisseurs etc...  avec leurs adresses et vous souhaitez les géolocaliser pour des représentations cartographiques. Voici les deux sources incontournables : 


2/ Contours administratifs et des quartiers (Ilots Regroupés pour l'Information Statistiques, IRIS) :

  • Les contours Iris sur le site de l'IGN:  http://professionnels.ign.fr/contoursiris
    Ces contours sont lissés pour simplification d'usage et une meilleure fluidité informatique d'affichage de carte. Ils sont donc parfaits pour les représentations cartographiques. Ils ne sont pas calés avec les contours communaux OSM. Ils ne sont guère exploitables si vous devez "iriser" vos bases d'adresses car les limites des rues ne coïncident pas avec celles de ces contours (les cartes iris calés sur les contours communaux cadastraux et calées sur les rues pour l’irisation en complément du géocodage sont payantes). 
  • La table de correspondance administrative des communes (le code commune correspond aux 5 premiers caractères du code Iris) : http://www.insee.fr/fr/methodes/default.asp?page=zonages/table-appartenance-geo-communes.htm
    Cette table, appelée aussi Code Officiel Géographique (COG), est exploitée lorsque l'on souhaite agréger des analyses et données à des niveaux supra-communaux : bassins de vie, cantons, zones d'emploi, agglomérations, aires urbaines... 


3/ Données "attributaires" IRIS 

Voici pour l’année pivot[1] du recensement une série de données sociodémographique et d'activité pour caractériser la population résidentielle de chaque iris :




De multiples sources complémentaires sont accessibles sur le site des données censitaires locales infra communales de l'INSEE, sur le site des statistiques de la DGI on peut télécharger des données fiscales communales, ou encore à l'IGN avec par exemple le fichier vectoriel  "Route 500" des principales routes françaises. Le site "officiel" des données ouvertes  open data gouv comprend aussi un foutoir de données produits par divers organismes publics.
Allez fouiller ces sources, vous trouverez certainement les indicateurs locaux pertinents pour éclairer vos problématiques.    





[1] Ces sources sont réactualisées annuellement par l’INSEE. Le millésime pivot disponible au moment où j’écris ce post est 2011.   

mercredi 2 septembre 2015

Extraire des données Google Trends

Google Trend est un outil de suivi des tendances des recherches des internautes sur le fort populaire site et moteur de recherche du même nom. Les analystes utilisent cette source pour détecter les derniers "potins" en vogue sur le web. Les traces des recherches de tous les internautes sont compilées dans une grande base de données depuis plus de 10 ans. Les demandes de recherche sur Google sont qualifiées par théme, dans le temps et dans l'espace. Des recoupements sont faits pour identifier les associations de recherches fréquentes. Google a contruit un requeteur très facile d'emploi pour interroger cette base de données. Les résultats sont présentés sous la forme d'un indice de popularité de chaque recherche, que l'on peut comparer dans le temps et l'espace. La méthode de construction de cet indice de popularité n'est cependant pas transparente, c'est un secret statistique de Google.

https://www.google.fr/trends/?hl=fr


L'API google trends n'est pas documentée et il faut faire un travail de devinettes pour comprendre la structure des requêtes Http. Le mode d'interrogation par commande est cependant assez bien documenté en anglais dans cet article.

J'ai approfondi l'aspect géographique de ces requêtes. Voici quelques trucs pour les extractions. En "bidouillant" la syntaxe des requetes Google Trends, on peut faire des recherches géographiques par pays et région.

Je prends un exemple de mesure de la popularité web de certaines banques françaises.

Rapport de base France métropolitaine :
Requete web : http://www.google.com/trends/explore?hl=en-US#q=BNP,LCL,HSBC,Credit Agricole&geo=FR

Détail pour afficher des données carte régionale  pour LCL :
Carte : http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_0_0&export=5&w=500&h=300&geo=FR
Données au format  JSON : http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_0_0&export=3&w=500&h=300&geo=FR
Carte des villes BNP: http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_1_1&export=5&w=500&h=300&geo=FR

Le rapport de base mais avec zoom sur la région Ile de France :
http://www.google.com/trends/explore?hl=en-US&geo=FR-J&q=LCL,BNP,HSBC,Credit+Agricole

On peut parcourir l'ensemble des régions métropolitaine FR-A à FR-V
Si l'on veut les DOM et TOM préciser &geo=GF (Guyanne fse) ou GP (guadeloupe) MQ (Martinique)  BL (saint Bartelemy) RE (la réunion) MF (Saint Martin), DJ (Djibouti) MC (Monaco)


Extraire un fichier en format CSV avec tous les résultats de la recherche (temporel, géographique, recherches en vogue et associées) pour une lisibilité facile et des retraitements par exemple sous Excel.

Les données banques au format CSV pour la région Ile de France :
http://www.google.com/trends/trendsReport?hl=en-US&geo=FR-J&cmpt=q&q=LCL,BNP,HSBC,Credit%20Agricole&tz=Etc%2FGMT-2&content=1&export=2
ou une variante :
http://www.google.com/trends/viz?&graph=all_csv&hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&geo=FR-J

Google précise diverses règles d'écriture des mots clefs pour affiner la recherche dans cet article
Exemple : sortie d'un fichier csv qui propose les comptages pour "Credit Lyonnais" et  sa nouvelle appelation LCL et les deux appelations cumulées Credit Lyonnais + lcl (attention pas d'accents dans les recherches...)
http://www.google.com/trends/trendsReport?hl=en-US&geo=FR-J&cmpt=q&q=credit%20lyonnais%2C%20LCL%2C%20Credit%20Lyonnais%20%2B%20LCL&cmpt=q&tz=Etc%2FGMT-2&content=1&export=2


Pour finir je renvoie le lecteur vers une représentation animée des derniers"hot trend" français :

 Hot trend français
http://hawttrends.appspot.com/?r=5&c=5&p=16



vendredi 14 août 2015

Adresse et géocodage : révolution en France

Pour les spécialistes de l'adresse française une annonce n'est pas passé inaperçue au printemps 2015 : la Base d'Adresses Nationale (BAN) a enfin vu le jour.

La BANO, premier projet de centralisation d'adresses d'Open Street Map France, à vécu et mute en BAN. Fruit d'un accouchement plutôt long et douloureux, la BAN est un projet désormais industriel qui référence et géolocalise l'ensemble des adresses de France. Je renvoie vers un article sur la gestation de la BAN et l'on peut aussi voir la vidéo de présentation de la BAN par le ministre chargé de la Réforme de l’Etat, les DGs de La Poste et de l'IGN.

Le projet est complexe car il mixe les compétences et les référentiels d'organismes publics qui n'ont pas l'habitude de travailler ensemble : l'IGN, la  DGI, La Poste et bien sûr OSM France. Portés par la dynamique de l'open data, l'IGN et La Poste ont laché du lest sur l'ouverture de données cadastrales géolocalisées tout en tentant de préserver leurs revenus de redevance de données. Techniquement, le projet est géré par l'association OSM France et je crois qu'on peut lui faire confiance pour développer le contenu et les usages de la BAN sur la longue durée. Le site adresse.data.gouv.fr centralise toutes les ressources du projet :

http://adresse.data.gouv.fr/


La BAN est téléchargeable ici en format JSON et voici le descriptif de son contenu qui comprend en particulier l'identifiant Point adresse (IGN), son adresse normalisée et les coordonnées planaires. Il n’y a cependant pas les identifiants du fichier HexaPoste (Héxacle et hexavia) et il manque aussi le code censitaire géographique des quartier Iris (Ilots Regroupés pour l'Information Statistique). Des améliorations pour de prochaines versions ? 


Le projet comprend un géocodeur avec un interface. Une API de géocodage est proposée en public : http://adresse.data.gouv.fr/api/ où l’on peut faire du géocodage batch avec un fichier d’entrée plafonné à 32 MO. Nous avons passé des fichiers de  plusieurs dizaines de miliers d'adresses sans problèmes. Il ne faut cependant pas abuser sous peine de blacklistage de votre IP. Pour les très gros volumes, le logiciel et le code sont fournis en open source pour un système Linux. L'implantation est cependant assez complexe et réservée aux développeurs motivés...   
La technologie de géocoding interactif, l’auto complétion, est bluffante …, j’ai fait quelques tests, cela semble très précis (cf http://adresse.data.gouv.fr/map/). L' API d'autocomplétion est facilement intégrable dans les applications de webmapping (librairies OpenLayer et Leaflet).


La licence est libre en repartage, mais pas pour les utilisations commerciales. Ceci signifie que tout acteur qui souhaite revendre des produits constitués à partir de la BAN doit verser des redevances à l'IGN et à La Poste (en fait MédiaPost qui gère le fichier hexaposte). Comme les bases sont téléchargeables librement, il va falloir veiller à éviter les abus …

Cet environnement est à éprouver à l’usage, mais les premiers tests que j'ai réalisés confirment qu'il s'agit d'un projet très sérieux : les bases sont améliorables mais déjà très complètes et les API d'accès et de recherche d'adresses très performantes. Il s'agit donc d'une petite révolution franco française bienvenue dans le domaine de la géolocalisation …


dimanche 28 juin 2015

Avis de grand beau pour les prévisions météo : EathWindMap



Pour l'arrivée de l'été, je poste cette carte :
Ce papillon planétaire est coloré par les températures (couleurs de fond)  avec les trainées blanches de la force et de la direction des vents de surface du 31 mai 2015 à 17h. Sur ses ailes, on distingue aussi les contours des continents mais leur projection géographique est « artistique » !


Allez faire un tour à la découverte du merveilleux site EarthWindMap de prévisions météo très riche et avec une interface "bluffante" pour faire ces représentations en deux ou trois clics. Le site est branché sur  des données "live" américaines rafraichies toutes les 3 heures avec un historique et des prévisions à 5 jours (GFS / NCEP / US National Weather Service). 

On y découvre tout sur les températures, le vent en force et direction en surface ou dans l'atmosphère, l'humidité, les précipitations et les nuages, la pression atmosphérique partout sur la planète. On y dessine un globe virtuel de type google earth, les flux et colories sont très bien travaillé en particulier pour les courants d'air.

Voici d'autres visualisations, vue de haut, elle est toujours belle la planète : 



EarthWindMap est une généralisation d'une représentation des vents que j'avais commenté dans un précédent article de ce blog . Plus de détails en anglais sur le club de fanatiques sur face book.

Merci à Eric Robinson (Pitney Bowes) qui a déniché ce site incroyable







dimanche 2 novembre 2014

Une discussion avec Jack Dangermont PDG ESRI Corp


Post à destination des professionnels et amateurs des SIG. 

Je suis tombé par hasard sur cette très bonne interview (2012) de Jack Dangermont, le fondateur historique et PDG d'ESRI. Un type qui explique très bien sa vision du marché et les atouts de sa société. C'est un ingénieur passionné, travailleur au long court engagé sur son marché. C'est sans aucun doute une des grandes forces d'ESRI : un management historique de passionnés qui ne se laisse pas déborder par la finance, les actionnaires et les fonds d'investissement. C'est toujours le métier des SIG qui dirige ESRI avec le souci premier des utilisateurs des produits, la priorité à la R&D pour suivre les demandes concrètes du marché et enfin un staff passionné par la cartographie en numérique.

Je commente ici deux points qui me tiennent à cœur :

  • Non au Desktop versus le Web, Oui au Desktop et Web : 
Jack explique la stratégie pour ESRI sur un marché des SIG qui a connu de nombreux bouleversements. La vision d'ESRI est le résultat d'un processus long d'observation du marché, des technologies et des usages.

Je suis en phase avec son analyse sur les complémentarités Desktop/Web. Le desktop est réservé aux usages d'études les plus intensifs, à la structuration des données et  à la préparation des publications massives sur le Web. Le desktop se source aussi à partir de multiples données, services et add-on disponibles sur le web.  La plateforme Web (Chez Esri : ArcGis Online) pour les diffusions massives de cartes le plus souvent prémâchées et pour  les usages light du plus grand nombre. Le tout dans une optique d'utilisation professionnelle des SIG : les utilisations grand public restent le domaine réservé de Google, Yahoo... 

Chez MapInfo nous avons une vision convergente bien qu'elle ne fasse pas l'unanimité : certains ont parié sur l'abandon total des modules desktop et le passage sur le tout Cloud. Je ne fais pas partie de ceux-là. Comme Jack et comme de nombreux utilisateurs réguliers des SIG, je pense qu'il y a des technologies et des supports différents selon les usages et qu'il y a une réelle mixité/complémentarité desktop/web à exploiter et encore à imaginer.     

  • Open Source et modèle payant : 
Une autre partie très intéressante de l'interview concerne l'Open Source. ESRI est un éditeur "traditionnel" qui vit des droits de licence qu'il perçoit de ses clients. L'Open Source est un écosystème de développement. Il se développe à partir de projets et se finance sur les services d'implémentation. Les business modèles sont donc bien différents. L'open source est pilotée aussi par l'innovation et vient très souvent compléter efficacement certaines lacunes des technologies payantes. L'open source secoue aussi le prunier des éditeurs en leur supprimant la tentation du rentier. Il casse la rente des éditeurs sur certaines technologies fondamentales et les incite à innover de leur côté pour créer de nouveaux standards. La communauté des développeurs open source est aussi encline à recommander/adopter des technologies payantes afin d'éviter des redéveloppements très fastidieux. ESRI a  ainsi décidé très intelligemment d'alimenter la communauté open source en publiant certaines de ses technologies et contenus. Sur ce point, je peux confirmer que l'on peut utiliser très facilement les beaux fonds de cartes et certains modules de géocodage d'ESRI en développant des applications cartographiques web/mobile sur l'environnement open source Leaflet. Enfin tous les éditeurs payants intègrent depuis longtemps de nombreux composants open source dans leur solution. 

Donc les deux modèles cohabitent et s'enrichissent pour les bons soins des utilisateurs. Utilisateurs de plus en plus nombreux et chevronnées qui font en retour la fortune des deux modèles open sources et payant...
  


En aparté, vous pouvez remarquer l'affiche du film " Y a-t-il un pilote dans l'avion?" en fond de plan de l'interview de Jack. C'est bien le pilote d'ESRI...

Cliquez pour voir la vidéo (20 mn) de l'interview de Jack Dangermont (source : GéoMag.fr NexTIC 2012)