Objets de plus en plus connectés, réseaux sociaux, recherche scientifique, stratégies militaires, tout concourt à augmenter de façon drastique l'usage des données. Leur affluence, telles des rivières, est incessante; leur traitement peut être partiellement instantané et leur stockage une mine d'informations pour des traitements ultérieurs.
Le Big Data n'est-il finalement que du marketing ?
Avec l'évolution des possibilités des systèmes d'information, et les besoins sans cesses croissants de mieux comprendre un écosystème ou une problématique globale sur un sujet, le traitement de masses énormes de données en perpétuelle évolution est un besoin. Le Big Data est l'expression retenue en Anglais pour désigner de manière généraliste ce besoin. Comme d'habitude, avec l'Anglais, l'expression est courte et efficace.
Bien évidemment, il y a du marketing. On trouve dans toute nouvelle appellation l'expression d'un besoin qui se transforme tout de suite en un angle d'attaque pour désigner un marché. Big Data est efficace. Le terme Data est court et parle bien de ce dont il s'agit : de données. Le terme Big est connu comme le loup blanc en France avec le hamburger Big Mac, les fameux véhicules Big Foot, le film Big Fish, etc. Oui, il y a bel et bien un marketing qui se veut différenciateur, notamment de celui du Data Mining, très bien connu des spécialistes du marketing et largement utilisé pour affiner les recherches sur les comportements des consommateurs et autres secteurs d'activité.
Alors quelle différence entre Data Mining et Big Data ? Le premier existait sans le second, le second existe obligatoirement avec le premier. Le Data Mining est l'exploration de données. Le Big Data est avant tout la recherche de la résolution du problème de stockage des données et de la manière d'arriver à y accéder rapidement pour justement pouvoir utiliser la richesse de l'information. Le Data Mining s'attache à une interrogation de données structurées; le Big Data s'attache à fournir des données et à offrir la possibilité de tenter de structurer les données pour qu'elles soient utiles à tel ou tel segment de marché ou d'expression de besoin.
Sans avoir à chercher bien longtemps, le Big Data s'affirme tout simplement comme une logique de besoin qui puise ses ressources en financement et en R&D dans ceux de différents secteurs de l'industrie et de la recherche. C'est une nouvelles extension des possibilités de gérer des informations.
Du Big Data à la Business Intelligence
La Business Intelligence, ou informatique décisionnelle, envahit nos vies de professionnels et de particuliers. Classiquement appelée informatique décisionnelle, elle aide les entreprises à se positionner de manière stratégique et tactique dans toutes leurs décisions managériales. Les particuliers en sont plutôt les cibles.
La Business Intelligence, comme son nom l'indique en anglais, consiste à trouver tous les moyens d'affiner les stratégies décisionnelles de l'entreprise par l'usage et/ou la mise au point d'outils informatiques capables de traiter des données variées. Ces données seront exploitées afin de créer des tableaux, graphes et autres camemberts, dynamiques ou pas, qui offriront un ensemble de visualisations portant des éléments de comparaison avec l'existant de l'entreprise, son histoire, sa concurrence, ses marchés, les qualifications de ses employés, etc.
Avec la multiplicité des données pouvant être prélevées sur les réseaux sociaux, le terme de Social Business commence à faire son apparition, tendant à faire travailler l'imaginaire et à faire fantasmer à la fois les patrons et les philosophes, chacun dans des voies évidemment radicalement opposées. En dehors des données issues des réseaux sociaux, il y a de nombreuses autres sources qui peuvent être des données commerciales issues de bases structurées ou de Big Data dont il faut pouvoir sonder la pertinence par rapport aux besoins de l'entreprise : données météo, données de trafic routier, données issues d'objets connectés dans les usines, entrepôts et autres supermarchés, etc.
Comment passer à la "BI"
Concrètement, comment se passe ce passage à la Business Intelligence ou à l'informatique décisionnelle ? En optimisant les processus métiers et en s'organisant pour que les données collectées soient capables d'être exploitées par l'ensemble des services qui pourraient en avoir besoin. Cela commence généralement par les services marketing et commerciaux avec le souci majeur de la valorisation des données de l'entreprise.
Trop d'information tue l'information, c'est bien connu et c'est un précepte impératif dont il faut tenir compte lorsqu'il s'agit de se créer des tableaux de bord destinés à prendre des décisions. Quelles données choisir, comment les collecter de manière qualitative ? On en revient au même problème que celui de la qualité de la presse : quel prix à la qualité de l'information ? Quelles sources, expertises et expériences permettent de donner les meilleurs indicateurs? Quel prix est-on prêt à y mettre pour être certains de gagner en qualité et du coup en efficacité?
Quels impacts sur les particuliers ?
Si les caisses enregistreuses des supermarchés sont une des grandes sources de données comportementales pour la grande distribution, l'usage d'Internet par les professionnels et les particuliers est devenu la plus grande source toutes données confondues. Pour exemple, avec au menu les cookies, les utilisateurs d'un navigateur Internet sont une cible privilégiée de la Business Intelligence des entreprises; les utilisateurs de services comme Booking et d'Amazon le constatent tous les jours, persécutés par leurs recherches, mais on voit aussi la même chose sur un réseau social comme Facebook dont le principe de vente de publicités repose sur le profil de l'utilisateur…
Outre les teneurs des données en termes d'intérêt pour la Business Intelligence de l'entreprise, il s'agira de tenir compte du système d'information qui sera mis en œuvre pour les stocker et les traiter : la Business Intelligence, véritable or noir de l'entreprise, passe aussi par la garantie de préserver les données et les services de traitement par les systèmes de sauvegarde appropriés.
Hadoop ? Présentation de cette plateforme Big Data
Hadoop n’est pas le Big Data et le Big Data n’est pas Hadoop. Hadoop peut se résumer comme étant une « suite » cohérente et structurée d’outils logiciels chargés de traiter de bout en bout la problématique Big Data. Issue du monde Open Source, Hadoop existe déjà en plusieurs déclinaisons que l’on appelle distributions : les trois principaux acteurs sont Cloudera, HortonWorks et MapR.
L’objectif n’est pas ici de comparer les acteurs, cela entrerait dans des problématiques trop complexes et pas du tout adaptées au contexte de cet article. Ce qu’il faut plutôt retenir, c’est le fait qu’il existe plusieurs outils. C’est là que c’est le plus intéressant puisque leur existence explique en résumé les problématiques réelles rencontrées dans le phénomène Big Data.
Le plus connu des outils, c'est une solution à la base même de la problématique du stockage massif de données déstructurées : le système de fichier. HDFS pour Hadoop Distributed File System est un principe de système de gestion de fichiers distribué qui prend ses origines dans GoogleFS. Il est par nature extensible, et s'affranchit de la limite classique de gestion des fichiers dans un espace délimité par la taille du média : ici, un seul fichier peut être "clusterisé", c’est-à-dire distribué sur des grappes d'ordinateurs possédant eux-mêmes des grappes de disques durs. On appelle ces machines un "cluster HDFS."
Au-delà du stockage qui est en soit une grosse problématique ainsi résolue par le HDFS, il y a la manière dont l'information doit pouvoir être traitée. Les deux principaux outils de recherche de données d'Hadoop s'appellent Hive et Pig ; Hive, qui s'approche du SQL, a été créé à l'origine par Facebook, Pig a été initié par Yahoo!.
Enfin, pour parfaire l'esquisse de ce tableau Hadoop, il faut penser au problème de base récurrent sur tout système d'information : la sauvegarde des données ! Pas une mince affaire sur un tel enchevêtrement de besoins et de ressources. Tout, là encore, fait partie intrinsèque de HDFS qui organise le fichier avec une réplication automatisée simultanée sur plusieurs serveurs. C'est le serveur de métadonnées qui connaît l'intégralité du déploiement de chaque fichier sur l'architecture distribuée. C'est lui qui est donc au cœur de la problématique de disponibilité des données.
Google, Facebook, Yahoo!... On le voit, ceux qui ont des besoins initient les grandes tendances et dopent la R&D. Les challenges d'Hadoop sont évidemment d'améliorer tout ce qui concerne la taille de stockage, sa vitesse et ses modes d'accès. Les dernières nouveautés ont été d'améliorer les capacités de haute disponibilité. Toutefois, une des priorités actuelles est focalisée sur le basculement automatique de la haute disponibilité du serveur de métadonnées vers une sauvegarde puisque cela s'effectue à ce jour manuellement.
NoSQL, qu'est-ce que c'est, comment ça marche ?
Né pour satisfaire aux demandes de plus en plus flagrantes de traitements lourds de données issues de sites Web tels que ceux d’Amazon, Facebook ou Linkedin, NoSQL est un langage d’interrogation de bases de données taillé pour le "Big Data". Mais pourquoi NoSQL ?
SQL est l'acronyme de Structured Query Language. Il est connu depuis longtemps de tous les acteurs de l'informatique qui ont eu à rechercher rapidement des informations dans de grosses bases de données relationnelles (SGBD). Dans les années 90, certains commerciaux dans des compagnies de logistique n'avaient ni souris ni écran graphique, ni interface utilisateur pour rechercher certaines informations stockées sur des serveurs souvent distants et reliés par des lignes spécialisées : ils entraient au clavier des commandes SQL et étaient capables de répondre à leur client sur la disponibilité de tel ou tel camion ou train en quelques secondes. SQL est aujourd'hui largement utilisé, car étant un des dispositifs d'organisation et d'interrogation de bases de données le plus structuré et le plus rapide ; il se décline sous différentes appellations qui montrent qu'il y a des adaptations diverses comme c'est notamment le cas de MySQL d'Oracle qui est le plus gros concurrent de SQL de Microsoft.
NoSQL est l'acronyme qui a été trouvé depuis 2009 pour s'attaquer au phénomène Big Data. Pour certains il signifie "non SQL", pour d'autres, "Not only SQL", ce qui sous-entend que le langage n'est pas "que" du SQL. La principale problématique qui a conduit à inventer NoSQL a été de solutionner le fait qu'une même base de données sur un site Web, pouvait être utilisée en même temps dans le monde entier par des millions d'utilisateurs ; la problématique typique d'un Amazon… Ce que l'on cherche donc à réaliser avec NoSQL, c'est à réduire la complexité du langage de requêtes, à simplifier l'architecture de la base de données, et à trouver un moyen de stocker la base sur un maximum d'ordinateurs peu couteux en fonction des besoins. Ainsi, une base NoSQL est une base de données distribuée pour répartir la charge de calcul et de données dynamiquement, non relationnelle, préférant la gestion d'une table gigantesque à celle de nombreuses tables interdépendantes.
Sur Hadoop, dont nous parlons plus haut, il existe Hbase qui est un dispositif de base de données NoSQL ; il en existe d'autres comme Cassandra, Accumulo, BigTable de Google et une bonne dizaine d'autres qui ne fonctionnent pas forcément dans l'environnement Hadoop. NoSQL est résolument conçu pour résoudre une problématique Big Data.