« Le problème avec le Big Data c’est le ‘Big’, qui est une connerie. Cet aspect est déjà résolu » estime Harper Reed, « Nous avons traité le big et devrions nous préoccuper de la donnée. Alors pourquoi ne pas seulement dire data ». Ce n’est pas contre les aspects technologiques qu’Harper Reed est remonté, mais contre les vendeurs de solutions et leur discours marketing, qui selon lui négligent la question centrale de l’exploitation des données comme moyen de répondre à de grandes questions.
Avant de parler de cette exploitation, un petit retour en arrière sur la campagne d’Obama pour être sur de connaitre les données dont M. Reed parle.
Il dirigeait une équipe de 200 personnes en charge de collecter des données via des trackers sur le site de M. Obama et de les analyser pour prédire les résultats, orienter les efforts et optimiser les budgets. Elles ont par exemple permis de personnaliser les contenus des emails envoyés à leur public et ainsi récolter plus de donations que pendant la précédente campagne (156$ par donateur versus 126$ durant sa précédente campagne).
On comprend donc que si le Big Data est une connerie, c’est que la problématique de son stockage n’est pas nouveau. Ce qui l’est par contre c’est leur collection et leur analyse, les données elles-mêmes ne sont pas la solution. C’est juste une partie du chemin vers cette solution. En entreprise il s’agit de capturer les informations provenant des départements vente, fabrication, transport, compta, marketing, finance mais aussi les données provenant des nouvelles sources d’informations, notamment celles issues des réseaux sociaux du type Facebook, Twitter, LinkedIn et les transformer en informations sur lesquelles baser ses futures décisions.
La quantité de données stockées est telle qu’il est devenu impossible de les traiter avec des outils d’analyse habituels. Face à l’ampleur du phénomène Big Data, les entreprises se tournent aujourd’hui vers de nouveaux acteurs spécialisés dans la gestion et l’analyse des données, par exemple les fournisseurs de stream computing, les entrepôts de données, l’analyse Hadoop. Les technologies utilisées permettent de gérer à la fois des volumes importants, provenant de sources variées : structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.), et avec rapidité, pour être en mesure d’exploiter les données de manière immédiate.
(Une infographie très intéressante provenant du blog Informatica .)
Par exemple : la société d’énergie danoise Vestas Wind Systems a souhaité améliorer le placement de ses éoliennes pour optimiser sa production d’énergie. Le placement de la turbine est un défi majeur pour l’industrie de l’énergie renouvelable, et Vestas souhaite étendre ses activités à de nouveaux marchés. La solution adoptée a réduit le temps de traitement des données de 3 semaines à 15 minutes et la consommation d’énergie du serveur de 40%. Pour le choix du placement de turbines ils utilisent un logiciel d’analyse et un supercalculateur afin d’exploiter les pétaoctets de données structurées et non structurées capturées telles que les bulletins météo, la lune et les phases de marée, les données géospatiales, images satellites, les cartes de déforestation, la modélisation météorologique. L’analyse, qui prenait des semaines, peut maintenant être faite en moins d’une heure. Vestas est un client IBM et pour en savoir plus (en anglais) allez ici.
Le concept de stockage de « grosses » données et pas seulement leur exploitation implique des évolutions technologiques majeures et c’est un sujet qui fait aussi partie des nouveaux défis des DSI. Le volume de données que les entreprises sont amenées à gérer devrait littéralement exploser dans les années à venir. On estime qu’à l’horizon 2020, il sera multiplié par 44 et atteindra près de 40 zettaoctets contre 1,2 zettaoctets géré dans la planète en 2011, un zettaoctet correspondant à 10 puissance 21 octets ! alors, une connerie ?