Vous avez très certainement déjà rencontré la terminologie de Big Data, mais savez-vous l’expliquer ? Depuis quelques années, avec l’avènement des nouvelles technologies et d’internet, un vrai phénomène s’est mis en place. Des quantités considérables de données numériques sont désormais produites : il faut favoriser et maîtriser leur traitement pour mieux les exploiter. Voyons ensemble et de façon approfondie ce qu’est le Big Data et découvrons toutes les notions transverses.
Big Data : Les définitions et enjeux
D’où vient le Big Data ? Quels sont ses apports ? Comment se met en place cette technologie ? Zoom sur un domaine qui brasse la donnée pour mieux vous éclairer.
Les origines du Big Data
La quantité de données commence à exploser à partir des années 40, mais la seule préoccupation à ce moment-là est d’en quantifier la croissance. Les espaces de stockage débordent de données. C’est dans les années 70 que commence à se poser la question de la qualité de ces données. C’est en 1997 que l’expression Big Data apparaît pour la première fois avec le défi technologique de traiter des grands ensembles de données.
Dès l’an 2000, la montée en puissance du moteur de recherche Google et des réseaux sociaux comme Facebook ou Twitter mettent à jour le potentiel énorme (un gisement presque) des données publiques.
L’explosion du numérique et l’hyper présence des géants du web a décuplé la production de données en quelques années à peine. Les chercheurs ont dû se pencher sur de nouvelles façons d’analyser ces flux d’informations. C’est ainsi que nait le Big Data.
La définition du Big Data
Littéralement Big Data signifie mégadonnées ou données massives. C’est un volume de données colossal (de l’ordre de 2,5 trillions d’octets par jour) qu’aucun système de gestion des données ne peut exploiter. Les données se composent de nos messages, de nos vidéos, de nos commentaires sur les réseaux sociaux, de nos informations lors d’un achat en ligne… Le Big Data représente donc cette capacité à capturer, rechercher, partager, stocker, analyser et présenter les données avec la prise en compte d’un nouvel ordre de grandeur.
Il n’existe pas une seule définition de Big Data ; les approches sont diverses et chacune en donne une qualification propre.
Le principe du Big Data
Le but du Big Data est de permettre au plus grand nombre d’avoir accès en temps réel à des bases de données gigantesques. Le Big Data répond à la règle des 3 V :
- volume des données ;
- variété des informations ;
- vélocité de création, collecte et partage des données.
On peut aisément citer en plus les caractéristiques de valeur et de variabilité.
Les données proviennent de sources différentes et plusieurs catégories se détachent :
- les données structurées de format fixe et défini ;
- les données non structurées de format ou de structures inconnus ;
- les données semi-structurées (à la frontière des deux précédentes).
Ce sont les créations technologiques qui ont favorisé la naissance du Big Data. On trouve les technologies de stockage d’une part et celles de traitement d’autre part comme Hadoop (pour les données non structurées) et MapReduce (algorithme de calculs à haute performance).
Les bénéfices du Big Data
Parmi tous les bénéfices apportés par le Big Data, retenons les principaux :
- la prise de décision ;
- la réduction des coûts ;
- une meilleure connaissance et perception du marché ;
- l’obtention de retours en temps réel.
Les risques du Big Data
Si les bénéfices d’une telle technologie ne sont plus à démontrer, pour autant le traitement en masse des données suscite de nombreuses réflexions quant à :
- La confidentialité des données : le Big Data sonne-t-il le glas de l’anonymat ?
- Leur sécurité : de multiples fuites de données ont déjà eu lieu.
- Leur manipulation : on observe des ventes aux enchères de données.
- Le respect de la vie privée en général.
Big Data : notions transverses
Abordons à présent toutes les notions de base liées au Big Data.
Le Data Warehouse
Littéralement, c’est en français l’entrepôt des données. Plus en détail, c’est une base de données relationnelle dont l’hébergement se situe dans un data center ou dans le cloud.
Ce système permet la collecte des données qui proviennent de sources diverses et leurs analyses pour les rendre exploitables. Vous y trouverez seulement des données traitées et structurées. Au sein d’une BI (Business Intelligence), cette plateforme occupe une place centrale.
On a affaire à une sorte de répertoire central ; avec des informations regroupées à un même endroit, l’entreprise bénéficie d’une vue d’ensemble. Cette configuration facilite l’exploration des données (en anglais le Data Mining). Il existe 3 types de Data Warehouse :
- les Data Warehouse d’entreprise qui présentent des données unifiées ;
- les Data Warehouse opérationnels avec des données mises à jour en temps réel ;
- les Data Mart qui sont des sous-catégories, conçues surtout pour les secteurs de la vente et de la finance. À la différence du Data Warehouse qui couvre plusieurs domaines, le Data Mart se spécialise sur un seul.
Le Data Lake ou lac de données est aussi un référentiel de données qui va stocker une très grande quantité de données pour une durée indéterminée. Toutes les natures de données s’y côtoient : structurées, semi-structurées, non structurées et brutes.
Le Data Management
Si les données sont une ressource inestimable pour les entreprises, elles doivent être organisées avec efficacité et répondre à une stricte conformité règlementaire. Le Data Management est donc un processus global d’intégration, de stockage, d’organisation et de maintien des données. Les apports de ce système sont nombreux :
- les doublons de données sont supprimés ;
- des silos de données sont créés ;
- les fondations de l’analyse des données sont solides ;
- les prises de décision sont facilitées.
Tout cela est rendu possible par de multiples technologies et outils. L’ETL travaille à l’intégration des données. Le Data Cleansing corrige les erreurs. La modélisation des données permet d’établir une cartographie et une représentation visuelle des ensembles de données.
L’Open Data
Comme son nom l’indique, il s’agit ici de données ouvertes, accessibles et exploitables en libre de droits. Ses principales caractéristiques sont la disponibilité, la réutilisation, la distribution et la participation universelle. Ces critères autorisent l’interopérabilité, autrement dit le mélange de divers ensembles de données.
Dans ce domaine, les données proviennent de tous les secteurs :
- culture
- science
- finance
- environnement
- météo
- transport
- statistique
- éducation…
L’Open Data fait donc allusion à des informations de diverses sources et sur divers sujets. Ce sont essentiellement des données non personnelles. L’accès, l’exploitation et la modification de ces données sont légaux.
Les technologies OLAP et ETL
L’acronyme OLAP veut dire en anglais Online Analytical Processing. C’est une technologie de traitement informatique qui permet d’extraire des données pour les comparer. Un serveur OLAP est indispensable pour stocker les cubes OLAP (les bases de données multidimensionnelles).
Ce système est conçu dans un but : analyser rapidement les données. Mais l’observation des tendances, les calculs complexes et le data modeling sont aussi rendus possibles.
Les cubes OLAP reposent sur différents types de systèmes :
- MOLAP (Multidimensional Online Analytical Processing)
- ROLAP (Relational Online Analytical Processing)
- HOLAP (Hybrid Online Analytical Processing)
- HTAP (Hybrid Transaction Analytical Processing)
La technologie ETL (Extract Transform Load) est un processus automatisé qui extrait l’information d’une donnée brute pour l’analyser, la transformer et enfin la charger dans un Data Warehouse. C’est un logiciel qui existait déjà, mais qui a beaucoup évolué avec le cloud, le SaaS et le Big Data.
La stratégie Data Driven des entreprises
On parle ici d’entreprises qui sont pilotées par les données. Concrètement, c’est ce que révèlent les données qui oriente l’entreprise dans sa prise de décision. Les données font donc partie du quotidien, elles sont exploitées naturellement. Pour devenir data driven, une entreprise doit :
- définir les métriques à mesurer ;
- propager les données dans toute l’entreprise.