Facebook a publié les conclusions d’une enquête sur l’exécution de tests d’entraînement et opportunistes. Des solutions visant à déceler dans un court délai les corruptions de données silencieuses massives. Des erreurs qui peuvent se trouver au niveau tant hardware que software. À l’issue de cette étude, la société de Mark Zuckerberg a appris que ces deux méthodes doivent se compléter.
Les corruptions de données silencieuses constituent des problèmes relativement courants touchant les matériels des grands systèmes d’infrastructure. Également connu sous le nom de SDC ou Silent Data Corruption, elles affectent les processeurs, stockages, serveurs… Quand elles ne sont pas détectées par la direction des systèmes d’information (DSI), ces erreurs peuvent provoquer la perte de fichiers. De plus, elles peuvent également atteindre la couche applicative et entraîner de sérieuses répercussions .
Pour prévenir au mieux de telles conséquences, il est conseillé aux organisations de s’appuyer sur des professionnels IT expérimentés.
Des spécialistes qui peuvent opérer en freelance informatique pour choisir comment travailler ou pour agir en toute autonomie.
Des tests en et hors production doivent être réalisés
Selon Facebook, les origines des SDC varient et portent par exemple sur :
- Le vieillissement des équipements ;
- La variation de température ;
- Les dépendances de chemin de données.
Or, dans les historiques des événements système, elles passent complètement inaperçues . C’est pourquoi ces origines sont qualifiées d’erreurs silencieuses. Pour pallier ce problème, le géant des réseaux sociaux a dévoilé deux types de diagnostics permettant de :
- Déceler les SDC ;
- Affaiblir leurs impacts.
Il s’agit du test d’entraînement et celui dit opportuniste. Mené en production, le dernier existe depuis 2019, explique la firme américaine. L’entreprise révèle toutefois qu’en jaugeant les compromis de l’une à l’autre, ses experts ont conclu que :
[…] Les deux approches sont tout aussi importantes pour détecter les SDC, et nous recommandons d'utiliser et de déployer les deux à grande échelle.
Elle indique avoir constaté qu’en 15 jours, les diagnostics en production permettent de déceler sept SDC sur dix. Pour arriver à cette performance, la méthode opportuniste demande 6 mois , précise le géant des réseaux sociaux. Néanmoins, souligne-t-il, seuls des tests hors production peuvent détecter les erreurs restantes :
[…] Ce qui rend les deux méthodes tout aussi importantes.
Les tests opportunistes se révèlent plus intrusifs
Dans les détails, les diagnostics d’entraînement inspectent avec une précision d’horlogerie la nature des charges de travail en fonctionnement. Ils enclenchent également les examens granulaires à un rythme prédéfini. S’agissant des tests opportunistes, ils s’attaquent à plusieurs SDC et sans comprendre précisément ce qui se passe en production .
La méthode opportuniste garantit une détection plus discrète. Toutefois, l’architecture intrinsèque de cette approche sous-entend que l’on peut subir des corruptions entre deux intervalles de vérification . Et ce sur un appareil douteux. Facebook annonce qu’afin d’estimer l’efficacité du test, il en a évalué le rythme. Et de poursuivre qu’à l’heure actuelle, ses spécialistes ont noté qu’en moyenne :
[…] Une machine passe par des tests opportunistes en moyenne une fois tous les 180 jours. […]
Dans une infrastructure massive, les appareils font en général l’objet de nombreux événements de maintenances, programmés ou impromptus. Pour effectuer ces tests, la multinationale de Menlo Park se base sur des événements de maintenance. Ceci pour les exploiter et les accomplir. Tout est alors observé scrupuleusement : ré-images de périphérique, mises à niveau du micrologiciel, reboot du système…