Big data, big management, data warehouse, open data : êtes-vous familiarisé avec ces notions ? Entamons avec cet article le chapitre des données. Que sont-elles exactement ? Que contiennent-elles ? Collecter des données est évidemment important, savoir ensuite exploiter de tels volumes constitue un enjeu majeur pour les entreprises. Pénétrons ensemble l’univers des mégadonnées.
Big data : définitions et enjeux
Avant de définir le Big Data et toutes les notions rattachées, concentrons-nous sur la donnée. Elle représente une quantité, un caractère ou un symbole sur lesquels un ordinateur réalise des opérations.
Le Big Data
Les « mégadonnées » ou données de masse se différencient des données traditionnelles par leur volume, leur variété et la vélocité avec laquelle elles sont générées, collectées et traitées. On pourrait aussi ajouter la valeur comme énième caractéristique.
Quoi qu’il en soit, c’est seulement au début des années 2000 que les données se livrent à une telle analyse et qu’elles sont ensuite popularisées par Gartner. Les outils classiques de gestion des données ne sont en effet plus suffisants pour bon nombre d’entreprises, celles qui évoluent dans le domaine industriel notamment. Des ensembles de données aussi colossaux nécessitent un système spécifique et pointu de traitement et de stockage et pouvant servir à plusieurs fins. Un service client optimal, des campagnes marketing encore plus ciblées figurent parmi les principaux exemples d’usage.
Le Data Warehouse
En français, cela signifie un entrepôt de données où les informations qui proviennent de diverses sources sont déposées. Mais elles ne restent pas à l’état de dépôt : les données sont fusionnées pour créer une base complète et performante.
Un datawarehouse désigne donc une base de données relationnelle hébergée sur un serveur dans un Data Center ou dans le Cloud. Le rôle du Data Warehouse est de soutenir l’analyse et de faciliter la prise de décision. Il existe 3 types d’entrepôt :
- l’entrepôt de données d’entreprise ;
- l’entrepôt de données opérationnelles ;
- le Data Mart.
Attention à ne pas confondre le data warehouse et le data mart. Ce dernier est, comme vous pouvez le déduire, un sous-ensemble dédié à un secteur de l’entreprise en particulier.
Le Data Management
Une fois les données collectées, il est indispensable de pouvoir gérer leur traitement. C’est le rôle du Data Management de faire parler les données pour en tirer le maximum d’informations et éclairer des décisions.
Le traitement de la donnée est évidemment encadré selon une gouvernance qui établit des lois et garantit :
- le respect de la vie privée ;
- l’image de l’entreprise ;
- la qualité des services ;
- la cybersécurité.
L’Open Data
Open Data se traduit en français par les données ouvertes, des données donc auxquelles tout le monde peut accéder pour les utiliser ou les partager. Le principe de l’Open Data repose sur les critères de disponibilité, réutilisation, distribution et participation universelle. Ces critères forment l’interopérabilité, c’est-à-dire une capacité à mélanger plusieurs groupes de données. C’est l’essence même de l’Open Data afin de créer des systèmes complexes et massifs.
Les technologies OLAP et ETL
OLAP est un acronyme qui veut dire en anglais Online Analytical Processing. C’est une technologie de traitement informatique qui facilite la consultation et l’extraction des données à des fins de comparaison. Ces données, une fois extraites, sont stockées sur des bases multidimensionnelles appelées cubes OLAP.
ETL désigne en anglais Extract Transform Load et se traduit en français par Extraction Transformation et Chargement. C’est un système qui consiste à rendre disponible les données. Après une collecte auprès de sources variées et hétérogènes, elles sont nettoyées, transformées et analysées.
La Data et la transformation digitale des entreprises
La donnée et son traitement ont engendré de nouveaux services et usages jouant ainsi un rôle crucial dans la transformation digitale des entreprises.
Le secteur de la banque et des assurances a particulièrement été modifié avec l’émergence du Big Data. Les données sont analysées dans le but de minimiser les risques financiers et de proposer aux clients des offres sur mesure en fonction de leurs salaires, de leurs habitudes de consommation…
Le secteur des Ressources humaines profite lui aussi depuis quelques années de l’analyse des données. On observe une optimisation des recrutements, une meilleure rétention des talents dans l’entreprise, et davantage de prises de décisions stratégiques et utiles.
L’industrie n’est pas non plus en reste pour tirer profit de données disponibles et analysables. Si le secteur avait l’habitude d’exploiter des données dites structurées, il doit à présent se concentrer sur le traitement des données non structurées qui arrivent brutes sous forme d’images, de commentaires, de likes…
Dans le domaine du marketing, on ne présente presque plus les bénéfices du Big Data qui s’impose en tant que référence dans une stratégie marketing efficace. Il faut retenir surtout que le Big Data aide à développer une connaissance pointue du profil de l’acheteur.
Les métiers du Big Data
L’émergence de la technologie du Big Data a apporté son lot de nouvelles compétences et de nouveaux métiers. Toutes les entreprises, de tous secteurs confondus cherchent aujourd’hui à travailler les données pour consolider leur stratégie et miser sur un plus fort développement.
Les données à disposition des entreprises représentent des quantités colossales : réseaux sociaux, e-commerce, objets connectés font exploser leur volume. Des stratégies dites « data driven », qui aident à la prise de décision, nécessitent de multiples compétences et des profils hautement qualifiés.
Le Big Data a donc donné lieu à la création de très nombreux métiers :
- Chief Data Officer ;
- Data Scientist ;
- Data Miner ;
- Data Analyst
Il y a pour l’heure plus d’offres que de demandes, ces métiers étant très récents. Certaines études prédisent que les emplois dans le Big Data seront les plus plébiscités au cours des prochaines années.
La maîtrise d’Apache Hadoop, la technologie de base du Big Data, mais aussi d’Apache Spark et des bases de données NoSQL sont les prérequis, les compétences fondamentales à posséder.