Google Cloud se prépare à lancer BigLake

Publié le 12/05/2022

La filiale Cloud de Google vient de présenter BigLake, une solution qui joint datalakes et datawarehouses. Deux notions très importantes dans la migration des entreprises vers les infrastructures nuagiques. Cette nouveauté survient à un moment où la société américaine a fondé la Data Cloud Alliance. Avec ce groupement, elle fédère les fournisseurs de Cloud autour d’un accès unifié aux informations.

Pour les entreprises, la gestion de la Data est devenue un élément clé dans le processus d’adoption d’une décision. Google Cloud vise ainsi à mieux exploiter les volumes grandissants de données. Le fournisseur de services nuagiques souhaite de ce fait coaliser l’accès aux lacs et entrepôts de données. À cet effet, il a annoncé un moteur de stockage de data lake, baptisé BigLake.

Au sujet de cette entreprise, les spécialistes de l’IT peuvent l’intégrer en tant que consultant informatique. Avec ce statut, ils profiteront d’une grande liberté, notamment grâce à l’absence de pression d’un supérieur hiérarchique. Cet avantage donne aussi la possibilité de choisir ses clients et missions.

Accomplir des workloads de façon normalisée

Pour information, la notion de lac de données fait référence à une nouvelle façon de comprendre le datawarehouse. Un concept jugé jusqu’à maintenant comme acquis. Dans leur basculement vers les solutions nuagiques, cette notion sert donc de guide pour les organisations.

Par définition, il s’agit d’un espace d’emmagasinage de chaque donnée liée à l’ensemble des applications exécutées par les organisations. Leur déversement étant réalisé sans condition. Ces datas sont à ce titre fournies de façon indépendante et permettent donc qu’on :

Leur intègre des algorithmes d’intelligence artificielle ;
Les croise entre elles.

Le BigLake de Google Cloud aidera à réaliser de manière standardisée :

Des charges de travail de machine learning ;
Des tâches analytiques.

Ceci, à partir de fichiers conservés dans des datawarehouses et data lakes différents :

Sans être obligé de reproduire ou déplacer des données ;
Sans être gêné par le format de stockage dissimulé.

Simplifier la gouvernance des données

Durant un point presse, Google Cloud a dévoilé, à travers son DG, la quantité de données qu’il a déjà traitées. Comparativement à 2020, a-t-il indiqué, les modèles machine learning ont été augmenté de 2,5 fois par les clients de :

Vertex AI, la plateforme d’auto-apprentissage de l’opérateur de services Cloud ;
BigQuery, son service de gestion de bases de données de catégorie SQL.

En parallèle, les usagers de ce dernier entrepôt de données analysent 110 000 gigaoctets d’informations par seconde. Quelques centaines d’entre eux disposant des infrastructures dépassant le millier de téraoctets. Concernant le service NoSQL Bigtable, il traite en pointe environ 5 milliards de scripts à la seconde.

Le directeur senior produit chez Google Cloud, Sudhir Hasbe a récapitulé que dans les entreprises :

Les données de toutes natures sont historiquement stockées à des endroits différents. […] Au fur et à mesure, ces dernières sont devenues de plus en plus concernées par les problématiques de gouvernance, les risques et les coûts associés. […]

Sudhir Hasbe

Selon lui, BigLake simplifie l’administration et détruit ces cloisonnements.