mercredi 2 septembre 2015

Extraire des données Google Trends

Google Trend est un outil de suivi des tendances des recherches des internautes sur le fort populaire site et moteur de recherche du même nom. Les analystes utilisent cette source pour détecter les derniers "potins" en vogue sur le web. Les traces des recherches de tous les internautes sont compilées dans une grande base de données depuis plus de 10 ans. Les demandes de recherche sur Google sont qualifiées par théme, dans le temps et dans l'espace. Des recoupements sont faits pour identifier les associations de recherches fréquentes. Google a contruit un requeteur très facile d'emploi pour interroger cette base de données. Les résultats sont présentés sous la forme d'un indice de popularité de chaque recherche, que l'on peut comparer dans le temps et l'espace. La méthode de construction de cet indice de popularité n'est cependant pas transparente, c'est un secret statistique de Google.

https://www.google.fr/trends/?hl=fr


L'API google trends n'est pas documentée et il faut faire un travail de devinettes pour comprendre la structure des requêtes Http. Le mode d'interrogation par commande est cependant assez bien documenté en anglais dans cet article.

J'ai approfondi l'aspect géographique de ces requêtes. Voici quelques trucs pour les extractions. En "bidouillant" la syntaxe des requetes Google Trends, on peut faire des recherches géographiques par pays et région.

Je prends un exemple de mesure de la popularité web de certaines banques françaises.

Rapport de base France métropolitaine :
Requete web : http://www.google.com/trends/explore?hl=en-US#q=BNP,LCL,HSBC,Credit Agricole&geo=FR

Détail pour afficher des données carte régionale  pour LCL :
Carte : http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_0_0&export=5&w=500&h=300&geo=FR
Données au format  JSON : http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_0_0&export=3&w=500&h=300&geo=FR
Carte des villes BNP: http://www.google.com/trends/fetchComponent?hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&cid=GEO_MAP_1_1&export=5&w=500&h=300&geo=FR

Le rapport de base mais avec zoom sur la région Ile de France :
http://www.google.com/trends/explore?hl=en-US&geo=FR-J&q=LCL,BNP,HSBC,Credit+Agricole

On peut parcourir l'ensemble des régions métropolitaine FR-A à FR-V
Si l'on veut les DOM et TOM préciser &geo=GF (Guyanne fse) ou GP (guadeloupe) MQ (Martinique)  BL (saint Bartelemy) RE (la réunion) MF (Saint Martin), DJ (Djibouti) MC (Monaco)


Extraire un fichier en format CSV avec tous les résultats de la recherche (temporel, géographique, recherches en vogue et associées) pour une lisibilité facile et des retraitements par exemple sous Excel.

Les données banques au format CSV pour la région Ile de France :
http://www.google.com/trends/trendsReport?hl=en-US&geo=FR-J&cmpt=q&q=LCL,BNP,HSBC,Credit%20Agricole&tz=Etc%2FGMT-2&content=1&export=2
ou une variante :
http://www.google.com/trends/viz?&graph=all_csv&hl=en-US&q=LCL,BNP,HSBC,Credit%20Agricole&geo=FR-J

Google précise diverses règles d'écriture des mots clefs pour affiner la recherche dans cet article
Exemple : sortie d'un fichier csv qui propose les comptages pour "Credit Lyonnais" et  sa nouvelle appelation LCL et les deux appelations cumulées Credit Lyonnais + lcl (attention pas d'accents dans les recherches...)
http://www.google.com/trends/trendsReport?hl=en-US&geo=FR-J&cmpt=q&q=credit%20lyonnais%2C%20LCL%2C%20Credit%20Lyonnais%20%2B%20LCL&cmpt=q&tz=Etc%2FGMT-2&content=1&export=2


Pour finir je renvoie le lecteur vers une représentation animée des derniers"hot trend" français :

 Hot trend français
http://hawttrends.appspot.com/?r=5&c=5&p=16



vendredi 14 août 2015

Adresse et géocodage : révolution en France

Pour les spécialistes de l'adresse française une annonce n'est pas passé inaperçue au printemps 2015 : la Base d'Adresses Nationale (BAN) a enfin vu le jour.

La BANO, premier projet de centralisation d'adresses d'Open Street Map France, à vécu et mute en BAN. Fruit d'un accouchement plutôt long et douloureux, la BAN est un projet désormais industriel qui référence et géolocalise l'ensemble des adresses de France. Je renvoie vers un article sur la gestation de la BAN et l'on peut aussi voir la vidéo de présentation de la BAN par le ministre chargé de la Réforme de l’Etat, les DGs de La Poste et de l'IGN.

Le projet est complexe car il mixe les compétences et les référentiels d'organismes publics qui n'ont pas l'habitude de travailler ensemble : l'IGN, la  DGI, La Poste et bien sûr OSM France. Portés par la dynamique de l'open data, l'IGN et La Poste ont laché du lest sur l'ouverture de données cadastrales géolocalisées tout en tentant de préserver leurs revenus de redevance de données. Techniquement, le projet est géré par l'association OSM France et je crois qu'on peut lui faire confiance pour développer le contenu et les usages de la BAN sur la longue durée. Le site adresse.data.gouv.fr centralise toutes les ressources du projet :

http://adresse.data.gouv.fr/


La BAN est téléchargeable ici en format JSON et voici le descriptif de son contenu qui comprend en particulier l'identifiant Point adresse (IGN), son adresse normalisée et les coordonnées planaires. Il n’y a cependant pas les identifiants du fichier HexaPoste (Héxacle et hexavia) et il manque aussi le code censitaire géographique des quartier Iris (Ilots Regroupés pour l'Information Statistique). Des améliorations pour de prochaines versions ? 


Le projet comprend un géocodeur avec un interface. Une API de géocodage est proposée en public : http://adresse.data.gouv.fr/api/ où l’on peut faire du géocodage batch avec un fichier d’entrée plafonné à 32 MO. Nous avons passé des fichiers de  plusieurs dizaines de miliers d'adresses sans problèmes. Il ne faut cependant pas abuser sous peine de blacklistage de votre IP. Pour les très gros volumes, le logiciel et le code sont fournis en open source pour un système Linux. L'implantation est cependant assez complexe et réservée aux développeurs motivés...   
La technologie de géocoding interactif, l’auto complétion, est bluffante …, j’ai fait quelques tests, cela semble très précis (cf http://adresse.data.gouv.fr/map/). L' API d'autocomplétion est facilement intégrable dans les applications de webmapping (librairies OpenLayer et Leaflet).


La licence est libre en repartage, mais pas pour les utilisations commerciales. Ceci signifie que tout acteur qui souhaite revendre des produits constitués à partir de la BAN doit verser des redevances à l'IGN et à La Poste (en fait MédiaPost qui gère le fichier hexaposte). Comme les bases sont téléchargeables librement, il va falloir veiller à éviter les abus …

Cet environnement est à éprouver à l’usage, mais les premiers tests que j'ai réalisés confirment qu'il s'agit d'un projet très sérieux : les bases sont améliorables mais déjà très complètes et les API d'accès et de recherche d'adresses très performantes. Il s'agit donc d'une petite révolution franco française bienvenue dans le domaine de la géolocalisation …


dimanche 28 juin 2015

Avis de grand beau pour les prévisions météo : EathWindMap



Pour l'arrivée de l'été, je poste cette carte :
Ce papillon planétaire est coloré par les températures (couleurs de fond)  avec les trainées blanches de la force et de la direction des vents de surface du 31 mai 2015 à 17h. Sur ses ailes, on distingue aussi les contours des continents mais leur projection géographique est « artistique » !


Allez faire un tour à la découverte du merveilleux site EarthWindMap de prévisions météo très riche et avec une interface "bluffante" pour faire ces représentations en deux ou trois clics. Le site est branché sur  des données "live" américaines rafraichies toutes les 3 heures avec un historique et des prévisions à 5 jours (GFS / NCEP / US National Weather Service). 

On y découvre tout sur les températures, le vent en force et direction en surface ou dans l'atmosphère, l'humidité, les précipitations et les nuages, la pression atmosphérique partout sur la planète. On y dessine un globe virtuel de type google earth, les flux et colories sont très bien travaillé en particulier pour les courants d'air.

Voici d'autres visualisations, vue de haut, elle est toujours belle la planète : 



EarthWindMap est une généralisation d'une représentation des vents que j'avais commenté dans un précédent article de ce blog . Plus de détails en anglais sur le club de fanatiques sur face book.

Merci à Eric Robinson (Pitney Bowes) qui a déniché ce site incroyable







dimanche 2 novembre 2014

Une discussion avec Jack Dangermont PDG ESRI Corp


Post à destination des professionnels et amateurs des SIG. 

Je suis tombé par hasard sur cette très bonne interview (2012) de Jack Dangermont, le fondateur historique et PDG d'ESRI. Un type qui explique très bien sa vision du marché et les atouts de sa société. C'est un ingénieur passionné, travailleur au long court engagé sur son marché. C'est sans aucun doute une des grandes forces d'ESRI : un management historique de passionnés qui ne se laisse pas déborder par la finance, les actionnaires et les fonds d'investissement. C'est toujours le métier des SIG qui dirige ESRI avec le souci premier des utilisateurs des produits, la priorité à la R&D pour suivre les demandes concrètes du marché et enfin un staff passionné par la cartographie en numérique.

Je commente ici deux points qui me tiennent à cœur :

  • Non au Desktop versus le Web, Oui au Desktop et Web : 
Jack explique la stratégie pour ESRI sur un marché des SIG qui a connu de nombreux bouleversements. La vision d'ESRI est le résultat d'un processus long d'observation du marché, des technologies et des usages.

Je suis en phase avec son analyse sur les complémentarités Desktop/Web. Le desktop est réservé aux usages d'études les plus intensifs, à la structuration des données et  à la préparation des publications massives sur le Web. Le desktop se source aussi à partir de multiples données, services et add-on disponibles sur le web.  La plateforme Web (Chez Esri : ArcGis Online) pour les diffusions massives de cartes le plus souvent prémâchées et pour  les usages light du plus grand nombre. Le tout dans une optique d'utilisation professionnelle des SIG : les utilisations grand public restent le domaine réservé de Google, Yahoo... 

Chez MapInfo nous avons une vision convergente bien qu'elle ne fasse pas l'unanimité : certains ont parié sur l'abandon total des modules desktop et le passage sur le tout Cloud. Je ne fais pas partie de ceux-là. Comme Jack et comme de nombreux utilisateurs réguliers des SIG, je pense qu'il y a des technologies et des supports différents selon les usages et qu'il y a une réelle mixité/complémentarité desktop/web à exploiter et encore à imaginer.     

  • Open Source et modèle payant : 
Une autre partie très intéressante de l'interview concerne l'Open Source. ESRI est un éditeur "traditionnel" qui vit des droits de licence qu'il perçoit de ses clients. L'Open Source est un écosystème de développement. Il se développe à partir de projets et se finance sur les services d'implémentation. Les business modèles sont donc bien différents. L'open source est pilotée aussi par l'innovation et vient très souvent compléter efficacement certaines lacunes des technologies payantes. L'open source secoue aussi le prunier des éditeurs en leur supprimant la tentation du rentier. Il casse la rente des éditeurs sur certaines technologies fondamentales et les incite à innover de leur côté pour créer de nouveaux standards. La communauté des développeurs open source est aussi encline à recommander/adopter des technologies payantes afin d'éviter des redéveloppements très fastidieux. ESRI a  ainsi décidé très intelligemment d'alimenter la communauté open source en publiant certaines de ses technologies et contenus. Sur ce point, je peux confirmer que l'on peut utiliser très facilement les beaux fonds de cartes et certains modules de géocodage d'ESRI en développant des applications cartographiques web/mobile sur l'environnement open source Leaflet. Enfin tous les éditeurs payants intègrent depuis longtemps de nombreux composants open source dans leur solution. 

Donc les deux modèles cohabitent et s'enrichissent pour les bons soins des utilisateurs. Utilisateurs de plus en plus nombreux et chevronnées qui font en retour la fortune des deux modèles open sources et payant...
  


En aparté, vous pouvez remarquer l'affiche du film " Y a-t-il un pilote dans l'avion?" en fond de plan de l'interview de Jack. C'est bien le pilote d'ESRI...

Cliquez pour voir la vidéo (20 mn) de l'interview de Jack Dangermont (source : GéoMag.fr NexTIC 2012)



jeudi 23 octobre 2014

Connaissez vous Luis Von Ahn?

Un petit aparté pour une fois sans cartes ni statistiques pour vanter les mérites d'un entrepreneur du web.

Luis Von Ahn est un innovateur de très grande classe (hacker ingénieux, business man averti et talent  scénique…) et le créateur de DuoLingo, un site d’apprentissage de langue étrangère qui en moins de deux ans compte plus de 10 Millions de pratiquants dans le monde. C’est une excellente méthode entièrement gratuite et sans publicité. Votre serviteur s’initie à l’espagnol avec DuoLingo et s’est un vrai plaisir.  



Luis Von Ahn explique comment il emploie les millions de personnes qui veulent apprendre une langue étrangère pour traduire … tout le WEB via CrowdSourcing. Luis a de grandes ambitions et c’est un crack qui vous rend plus intelligent Il a un vrai faux air de Bill Gates derrière ce visage juvénile.

Je recommande cette vidéo, 17mn réjouissantes (En Anglais) :

   

El misma video pero en el idioma de Cervantes,  un crack impresionante, un chico de Guatemala (18 mn) : 

lundi 13 octobre 2014

Cartographier le trafic journalier moyen annuel à Paris

L’usage potentiel des informations de quantification locale du trafic routier est vaste... 

Les pouvoirs publics suivent l’encombrement des routes, la qualité et l’utilité de notre réseau. Les automobilistes sont toujours à la recherche d’informations sur l’état des routes ; en témoigne le succès d’applications comme Waze ou Inrix qui fonctionnent sur le principe d’une collecte communautaire par les automobilistes eux-mêmes (crowdsourcing) d’informations routières (accident, encombrement…).  Les mesures de l’impact écologique local du réseau routier (Bruit, qualité de l’air) forment aussi un large champ d’application. Le trafic véhicule a aussi un impact sur la qualité et le prix des logements et des bureaux : on dort et on travaille mieux au calme, loin des flux automobile.

Pour les applications géomarketing, l’audience potentielle de la publicité par affichage dépend directement des flux qui passent à proximité des supports. La valorisation du patrimoine des sociétés d’affichage dépend de la qualité d’emplacement de leurs panneaux publicitaires. Pour l’aide à l’implantation commerciale des grandes et moyennes surfaces de distribution, il est parfois nécessaire de disposer d’une évaluation précise du trafic des rocades autour de la zone commerciale cible. Le potentiel de flux est aussi une information clef pour évaluer l’opportunité locale de nouveaux « drives », le format de distribution qui fleurit aujourd’hui sur ou à proximité de nos grands axes routiers. Les agences d’assurance ou même bancaires recherchent des emplacements avec parking non loin des boulevards et rocades les plus fréquentées…  

Le trafic place de La Concorde : divers angles de vue, divers périodes






...Mais la tâche de collecte est complexe et les mesures sont très partielles...

Or, les informations sur le trafic véhicule dans les rues et sur nos routes sont en France souvent inexistantes, très lacunaires, non exhaustives, collectées de façon très disparates et dispersées. Il n’existe pas de centralisation de ces sources accessible en données ouverte. La base de données SIREDO ne sort pas du ministère de l’équipement. Seul le trafic réseau autoroutier et des quatre voix non concédés est publié en données ouvertes (base Adélie).
  
Chez Pitney Bowes Software (MapInfo), nous développons des bases de données locales fines pour évaluer les grandes catégories de flux dans et sur nos rues/routes : les flux résidentiels, le trafic d’attraction commerciale, les différentes populations de jour (population sur son lieu de travail, population touristique) et enfin désormais disponible en France (et pour une quarantaine d’autres pays) ; l’évaluation précise du  trafic routier.


... la multiplication des terminaux GPS et mobiles produit désormais des mesures de très bonne qualité.

Rentrons un peu dans le détail de l’élaboration de l’indicateur du trafic journalier moyen annuel (TJMA ou en anglais AADT : Annuel Average Daily Traffic) que nous proposons de cartographier. Les opérateurs de terminaux embarqués GPS TomTom, Here (ex Navteq) et tous les opérateurs téléphoniques collectent depuis de nombreuses années les traces (« log ») de déplacements véhicules. Lorsqu’un automobiliste allume son GPS ou tout autre terminal similaire pour son itinéraire, le contact est établi avec les satellites qui gèrent le système GPS. La trace géographique du déplacement remonte sur les serveurs de ces opérateurs. La trace est stockée de façon non nominative en base de données avec un relevé de points géo-référencés très fréquents et réguliers  précisant  la date, l’heure et les coordonnées géographiques de localisation. Des milliards de milliards de logs GPS sont stockées par TomTom depuis plus de 7 ans pour toutes les traces de déplacements des possesseurs d’un GPS dans le monde. C’est en particulier avec ces traces que les cartes numériques de rues/routes sont développées affinées en permanence et mises à jour partout dans le monde.


Le système de collecte de traces véhicules ("logs") :



TomTom nous communique un relevé d’agrégats construits avec les logs par segment de rue. Le nombre de logs (passages) est compté sur une plage annuelle pour les 52 semaines avec une distinction des 5 journées ouvrées et des journées de week-end.  Pour tous les segments de rues/routes, nous avons le décompte du nombre de passage par tranche de 5 minutes. Sachant que la France compte plus de 2 millions de rues/routes et 6 millions de segments de rues/routes et que nous couvrons plus de quarante pays, nous sommes vraiment dans le domaine du « big data ».

Pour assurer une lisibilité et de réelles possibilités d’exploitation de ces traces, nous construisons l’indicateur de Trafic Journalier Moyen Annualisé (TJMA). Comme son nom l’indique, l’indicateur mesure un flux véhicule pour une journée moyenne. Nous construisons aussi des déclinaisons pour les Heures  de pointe (7-9h et 16-18h) ainsi que pour les jours ouvrés plus chargées versus les deux jours du Week-End.    

Tous les véhicules ne sont cependant pas équipés du GPS TomTom. Les traces TomTom forment donc un échantillon du trafic. En France les données parcellaires publiées par le ministère de l’équipement et certaines collectivités locales permettent un recalibrage des décomptes de logs brutes. Les décomptes de passages bruts sont « redressés » statistiquement pour tous les segments de rues à l’aide de ratios de calibrage ventilés par catégorie de routes/rues et d’agglomération. On obtient alors l’indicateur de TMJA que l’on représente sur des cartes interactives[1].    


Je laisse donc aux parisiens habitués des encombrements urbains le soin d’évaluer la qualité et la précision de cette mesure avec la carte qui suit. Vous pouvez aussi en profiter pour regarder un échantillon des différentes couches d’évaluation des différentes composantes de passage dans nos rues.


 Le trafic journalier moyen annuel à Paris (cartographie interactive) :
Accès à la carte interactive 

Merci à Amélie Hamon et Rafik Khiar pour leur contribution sur ce dossier. 






samedi 4 octobre 2014

Conférence MapInfo le 20 novembre 2014 à Paris

Nous organisons le 20 novembre 2014 à Paris une journée annuelle d'échange autour des usages de l'information géographique pour tous les utilisateurs et amateurs des technologies MapInfo. C'est un très bon moyen de faire un point complet sur les technologies et les données localisées. Ce domaine connait un trend d'évolutions très soutenu (WebMapping, applications mobiles localisées, big et open-data, micro données locales ultra fines...). On peut donc profiter de cette journée pour croiser les expériences, faire du "réseautage" SIG comme du "réseautage" social et d'affaires.     

L'agenda de cette conférence figure plus bas.
L'inscription est libre : Cliquez sur ce lien pour vous inscrire à la conférence francophone MapInfo 2014


Un extrait des présentation de cette journée : 

MapInfo, un grand millésime
Quoi de neuf sur les données localisées
Comment déployer l'information spatiale dans votre organisation

Je vous remercie de faire circuler l’information aux personnes susceptibles d’être intéressées autour de vous.