Retour aux actualités

25 février 2016

Dataviz : 5 projets de contenus et d’outils à la loupe

En janvier dernier Ouest Médialab organisait un apéro StoryCode Grand Ouest entièrement dédié à la datavisualisation et au datajournalisme. 5 spécialistes du sujet sont donc venus nous présenter leurs réalisations, les outils qu’ils ont développé ou leurs projets en cours. Voici leur retours d’expériences.

Ask Média : la production régulière d’infographies pour Paris Match

L’agence spécialisée dans la réalisation d’infographies et de datavisualisations propose des sujets clés en main à plusieurs rédactions dont celle de Paris Match, pour qui elle prend en charge tous les 15 jours la recherche de données, l’enquête, la conception de l’infographie et bien sûr, sa réalisation.

La plupart du temps, c’est à l’agence que revient le choix du sujet qui dépend surtout de la disponibilité des données. La datajournaliste Marie Coussin est revenue sur l’une des dataviz réalisées en avril 2015 par Ask Média pour Paris Match. 

La petite équipe (Marie et son collège graphiste) a tenté d’établir une corrélation entre la présence de la police municipale et le taux de criminalité, calculé en fonction du nombre d’atteintes aux biens et aux personnes. Ce travail a nécessité une journée de travail pour le graphiste et deux pour la datajournaliste.

infographie

Pour réaliser une carte de ce type, l’équipe a eu recours à 3 jeux de données issus du Ministère de l’Intérieur et de l’INSEE. Le fichier des effectifs de policiers municipaux par commune était disponible sur data.gouv.fr, en format tableur mais a dû être passé au peigne fin (lignes vides, annotations dans des cellules…). 

Marie a notamment utilisé Google Fusion, un module développé par la firme de Mountain View qui permet de fusionner des fichiers. Fusionner les données du Ministère de l’Intérieur avec celles de l’INSEE (population légale par commune) n’a d’ailleurs pas été une mince affaire.

Les deux fichiers disposaient d’une colonne commune (les communes justement) mais malheureusement, et c’est là une des problématiques récurrentes pour les datajournalistes, leur nom n’était pas toujours écrit à l’identique d’un fichier à l’autre. Au bout du compte, après une grande opération de nettoyage, on obtenait le nombre de policiers municipaux par habitant.

Pour cette dataviz, Ask Média a choisi de ne retenir que les villes de plus de 4 000 habitants et encadrées par au moins par 10 policiers municipaux. Sans ce filtre, de très petites communes se seraient trouvées en tête du classement, comme le Mont Saint-Michel avec 3 policiers municipaux pour 41 habitants.

La diffusion sur papier a contraint l’équipe a sélectionner les informations délivrées et à se limiter aux 100 premières villes du classement. Les retours sur une page comme celle-ci sont assez positifs dans l’ensemble : 

“Les gens s’arrêtent dessus, il y en a qui apprécient beaucoup, d’autres qui trouvent que c’est beaucoup trop compliqué pour de l’infographie”.

Retrouvez un retour détaillé de l’agence sur ce travail de datavisualisation.

La plateforme Bakamap dédiée à l’exploration de vos données

L’agence Bakasable spécialisée dans le design interactif a développé un outil, Bakamap qui permet de cartographier ses propres bases de données afin de gérer et d’exploiter pleinement son patrimoine informationnel.

Pour générer ces visualisations de données, il suffit d’uploader un bon vieux tableau excel (fichier CSV) et de sélectionner les indicateurs qui vous intéressent (les colonnes de votre tableau). Un carte interactive est générée automatiquement permettant d’identifier les noeuds et interconnexions entre vos données.

bakamap visualisation de donnees

Mais contrairement à des services de veille déjà dotés d’outils de structuration, Bakasable investit plutôt sur le terrain de l’exploration des données. Bakamap est donc une passerelle entre un outil comme Gephi, dédié à l’exploration mais relativement peu optimisé pour le partage, et un outil comme Infogram, davantage orienté sur la communication et la présentation des données.

La finalité est donc d’obtenir quelque chose de plus parlant qu’un simple tableau excel afin de le partager avec d’autres personnes, en l’intégrant dans une présentation commerciale pour vos collaborateurs par exemple.

Et Bakasable a pensé à tout : l’outil, qui sort en version beta dès le 29 février, permettra bientôt de créer des cartes en réseau, de les partager en public mais aussi de les exporter en différents formats. 

Exemple de carte réalisée avec la version beta (tout juste sortie du four) : 

bakamap

Pour résumer, Bakamap, c’est un peu le big data vu par des designers d’interactivité. S’ils ne sont pas spécialistes de la structuration de données, ils intègrent néanmoins les problématiques de navigation et d’expérience utilisateur.

Et les applications métier de l’outil sont nombreuses : prospection commerciale, veille, recherche documentaire…

La démo de l’outil par Heidi Ghernati, présentée lors de la 2ème édition du Médialab SpeedTraining (septembre 2016)

Ma Carto : des cartes interactive générées à partir d’un simple fichier CSV

Thomas Fournaise, chef de projet innovation au sein du Groupe La Poste, est venu nous présenter une appli qu’il a développé sur son temps libre. Ma carto permet de générer des cartes choroplethes en important un simple fichier CSV.

Thomas est parti d’un simple constat :

“ Sur datagouv.fr, on dispose de près de 50 000 jeux de données mais d’aucun outil pour les citoyens. C’est assez antinomique car c’est à nous qu’il revient de les traiter, les nettoyer, les analyser.”

L’objectif de cette application est donc de permettre aux citoyens de s’approprier l’open data et de pouvoir la visualiser de manière intelligible sur une carte. La carte générée est exportable et peut être intégrée sur un site tiers.

Autre fonctionnalité de l’appli : effectuer des comparaisons d’indicateurs avec des graphes en barre ou des camemberts.

Cartographie data

L’échelle géographique la plus fine est le département. On peut sélectionner ce que l’on souhaite en terme de périmètre : il suffit de l’importer en fichier Excel.

Prochaine étape : repartir sur du D3JS, une bibliothèque javascript libre qui permet de représenter graphiquement des documents à partir de leurs données. Thomas n’a pas encore trouvé de développeur pour héberger les cartes en sécurité et aurait besoin d’un petit coup de main du côté graphique et design d’interface, à bon entendeur !

L’histoire de la Bande-dessinée et des séries racontée en data

Christophe Cariou est docteur en économie et passionné par la dataviz. Il passe les ¾ de son temps à accompagner des projets et en a déjà réalisé toute une panoplie sur le thème de la culture (livres, films, séries, bandes dessinées…). 

Christophe se sert de logiciels comme Gephi pour l’analyse de données et est un adepte de la suite open source “R”, dédiée aux statistiques mais qui possède aussi un potentiel graphique intéressant. Toutes ces dataviz ont été codées avec ce logiciel libre et les librairies développées par la communauté pour l’extraction, le nettoyage, les statistiques, les prototypes, les visualisations et la composition des pages / posters.

Lors de l’apéro StoryCode #12 de janvier, Christophe nous a tenté de retracer en 10 minutes, chrono en main, l’évolution des comics et des séries, (racontée en data, naturellement). Voici un extrait de ce fragment d’histoire illustrées par sa collection de dataviz : 

storycode dataviz

Christophe a été fouiller dans la base de données du New York Times et pour comparer la popularité des deux super héros Batman et Superman. Pour cela, il a pris en compte le nombre d’articles et le pourcentage d’articles, des années 1930 à nos jours.

Conclusion : depuis 1938, on parle beaucoup plus de Superman dans le New York Times que de Batman, héros vieillissant à la psychologie sombre. Il a fallu attendre que le cinéma redore son image avec Tim Burton dans les années 80 (puis avec Christopher Nolan) pour que le journal y consacre un nombre d’articles équivalent voire supérieur à celui qui lui faisait tant d’ombre.

Retrouvez l’intégralité de la petite histoire de Christophe sur son blog (anecdotes croustillantes garanties).

Un projet de datajournalisme en temps réel

Étudiant à l’EDNA (l’École de Design Nantes Atlantique) et mordu de dataviz, Fabien Mahé a clôturé cette soirée en nous présentant son projet de fin d’études sur le datajournalisme en temps réel. Il est parti d’un premier constat :

“90% des données existant actuellement dans le monde ont été créées au cours des 2 dernières années seulement”.

Sa piste de réflexion : les données sont le reflet virtuel de notre monde réel. Son projet ? Réinventer la couverture journalistique d’un événement pour traiter l’actu autrement et créer des interconnexions entre les articles et les faits.

datajournalisme en temps reel

L’idée est d’avoir accès directement aux événements couverts en live et de suivre ceux de son choix, en fonction de ses préférences. Mais là où le projet de Fabien devient réellement intéressant, c’est qu’il intègre la possibilité de suivre l’évolution, l’histoire, le contexte d’un événement dans le temps, grâce à des datavisualisations.

datajournalisme en temps reel : le projet de fabien mahe

Fabien s’est inspiré d’une expérience menée sur un débat politique lors duquel les mots clés des discours étaient analysés en temps réel. L’étudiant en design a choisi d’illustrer son projet avec les élections présidentielles américaines.

Mise en situation : je regarde un débat sur l’élection présidentielle américaine. J’utilise l’application et je choisis le type de datavisualisation qui m’intéresse. Par exemple, je souhaite savoir quels sont les thèmes les plus récurrents du débat à l’instant T :

datajournalisme

Je souhaite maintenant savoir quel candidat dit le plus de choses avérées dans son discours en faisant appel au fact checking en temps réel :

StoryCode datajournalisme

L’intérêt du projet de Fabien est donc de pouvoir traiter l’actu à travers sa temporalité et des datavisualisations ou des dossiers journalistiques classiques pour approfondir. 

On s’inspire donc ici du système des flux RSS pour piocher uniquement l’info qui nous intéresse (choix des événements en live) mixé au schéma classique de l’article (une histoire à un instant T), toutefois enrichi d’une timeline et de datavisualisations qui viennent contextualiser et expliquer l’événement. Une bonne idée pour la prise de recul sur l’information.

Retrouvez la présentation complète du projet de Fabien.

 

À lire aussi dans chantiers numériques #19, la veille collaborative du cluster : 

2 autres retours d’expériences :