Gravité des données
La gravité des données s’applique à tous les niveaux de l’infrastructure informatique, c’est pourquoi il est essentiel d’en tenir compte lors de la planification des stratégies de gestion des données.
La donnée est devenue, avec le capital physique et la propriété intellectuelle, une ressource primordiale pour l’entreprise, quel que soit son secteur d’activité. La croissance exponentielle des volumes de données structurées et non structurées va se poursuivre dans les années à venir. Dans le même temps, la prolifération des données, c’est-à-dire la dispersion des données d’entreprise dans différents centres de données et différentes régions du monde, accroît la complexité des défis liés à la croissance, au transfert et à l’activation des données.
Les entreprises doivent mettre en place une stratégie de gestion des données de masse efficace dans tous les environnements : cloud, périphérie et terminaux. C’est pourquoi il est plus crucial que jamais d’élaborer une stratégie réfléchie et calculée lors de la conception d’une infrastructure de stockage de données à grande échelle.
Ce qui fonctionnait avec les téraoctets ne fonctionne pas avec les pétaoctets. À l’heure où les entreprises cherchent à pallier le coût et la complexité du stockage, du transfert et de l’activation des données à grande échelle, tout l’enjeu est de trouver le bon équilibre entre les économies, les frictions et la simplicité. Une expérience simple, ouverte, illimitée et conçue spécialement pour les entreprises distribuées qui exploitent leurs données. Une nouvelle approche des données.
Le concept de gravité des données est un élément important de cette stratégie.
Selon le nouveau rapport d’IDC commandité par Seagate Un stockage à l’épreuve du temps : Moderniser l’infrastructure pour la croissance des données dans les écosystèmes hybrides, en périphérie et cloud, la force gravitationnelle se renforce à mesure que les données stockées s’accumulent.
Autrement dit, la gravité des données est une conséquence du volume et du niveau d’activation des données. La physique offre à cet égard une analogie tout indiquée : plus la masse d’un corps est grande, plus la force d’attraction gravitationnelle exercée par ce corps sera grande. Selon le rapport en question, les charges de travail qui contiennent les plus gros volumes de données stockées sont celles qui possèdent la masse la plus forte au sein leur « univers », attirant ainsi les autres applications, services et ressources d’infrastructure vers elles.
De par sa complexité et son importance, un jeu volumineux de données actives affecte nécessairement l’emplacement et le traitement des jeux de données plus petits qui interagissent avec lui. La gravité des données reflète ainsi la dynamique du cycle de vie des données et doit contribuer à étayer les décisions relatives à l’architecture informatique.
Prenons deux jeux de données : le premier affichant 1 pétaoctet de données et le second 1 gigaoctet. Pour fusionner ces deux ensembles, il est plus efficace de déplacer le plus petit vers le plus grand. Résultat, ce sont 1 gigaoctet de données supplémentaires qui viennent s’ajouter au jeu de données présent sur le système de stockage. Étant donné que les jeux de données les plus importants exercent une « attraction » sur les plus petits, les plus grands prennent du volume et leur force gravitationnelle se renforce.
La gestion, l’analyse et l’activation des données reposent également sur les applications et les services, qu’ils soient fournis par un fournisseur de cloud privé ou public ou par une équipe de gestion de données sur site. Les applications collectent et génèrent des données, mais les consomment, les analysent et les agrègent aussi. Un travail important doit ainsi être effectué sur les données. Naturellement, plus la masse des données augmente, plus l’utilisation de ces données devient difficile si elles ne sont pas proches des applications et des services qui aident à les gérer ou à les activer. Cela oblige ainsi souvent à déplacer les applications et les services pour les rapprocher des jeux de données, ou à les conserver à proximité de ces derniers. Des centres de données sur site aux clouds publics et à l’edge computing, le concept de gravité des données touche tous les niveaux de l’infrastructure informatique.
Mais selon le rapport de l’institut IDC, ces jeux massifs de données peuvent se transformer en trous noirs, « piégeant ainsi les données stockées, les applications et les services en un seul et même endroit, à moins que les environnements informatiques ne soient conçus de manière à permettre la migration et la gestion des données stockées, ainsi que des applications et des services qui en dépendent, quel que soit leur emplacement opérationnel ».
Étant donné que la gravité des données peut impacter l’ensemble de l’infrastructure informatique, celle-ci doit faire l’objet d’une attention particulière lors de la conception de la planification des stratégies de gestion des données. Toujours selon IDC, un objectif important de la conception d’un écosystème de données consiste à « s’assurer qu’aucun jeu de données n’exerce une force incontrôlable sur le reste de l’écosystème informatique et applicatif ».
L’architecture informatique doit placer le stockage et le mouvement des données de masse au centre du système. Cela passe par l’optimisation de l’emplacement des données. Une architecture centrée sur les données rapproche les applications, les services et l’interaction avec l’utilisateur vers l'endroit où résident les données, plutôt que de s'appuyer sur des transferts longue distance, souvent coûteux, de données de masse vers et depuis des fournisseurs de services centralisés.
Selon IDC, « l’une des façons d’atténuer l’impact de la gravité des données consiste à faire en sorte que que les données stockées se trouvent à proximité des applications, quel que soit leur emplacement ».
Ce modèle peut être obtenu en faisant appel à l’hébergement en colocation dans des centres de données regroupant plusieurs fournisseurs de services cloud privés et publics, afin de permettre aux entreprises de coupler leur stockage de données de masse avec les meilleures solutions pour les applications, l’informatique et les besoins en réseau.
L’objectif principal d’une architecture centrée sur les données consiste à garantir l’accès à vos données. L’accessibilité améliore le confort d’utilisation et la fluidité des opérations d’un pipeline de données, et peut avoir un impact sur les innovations futures de l’entreprise, en améliorant la capacité à générer des métadonnées et de nouveaux jeux de données, en permettant la recherche et la découverte des données, et en donnant davantage de moyens aux experts en données pour déployer lesdites données à des fins d’apprentissage automatique et d’intelligence artificielle (IA).
En outre, le fait de placer les données au centre de l’architecture informatique peut avoir un impact positif sur l’optimisation des performances des applications, les questions de latence de transfert, les coûts liés aux entrées et aux sorties, ainsi que les besoins en matière de sécurité et de conformité. La fiabilité et la durabilité des données constituent également un avantage important. La fiabilité est la possibilité d’accéder aux données dont vous avez besoin, tandis que la durabilité est la capacité de les préserver sur de longues périodes.
Tous ces aspects ont des conséquences importantes sur la planification de la gestion des données d’entreprise, de la définition d’une stratégie informatique globale à l’élaboration d’une initiative commerciale. La planification des charges de travail et des tâches nécessaires implique de tenir compte de la gravité des données. Les questions clés à se poser sont les suivantes : « Quel est le volume de données généré ou consommé par mon entreprise ? », « Comment sont distribuées les données entre le centre de données, le cloud privé et le cloud public, les appareils en périphérie et les bureaux décentralisés ou les succursales ? », ou encore « Quelle est la vitesse de transmission des données transférées sur l’ensemble de mon écosystème informatique ? ». La prise en compte de ces aspects permettra non seulement d’améliorer l’efficacité de l’infrastructure des données mais aussi de réduire les problèmes de coûts liés au pipeline de données.
Dans son rapport, IDC recommande de « ne jamais laisser aucune charge de travail ni aucun emplacement opérationnel dicter le mouvement des ressources de stockage ou de données ». Les données ayant une force gravitationnelle, l’infrastructure de données doit être conçue de manière à empêcher les grands volumes de données ou les charges de travail massives d’exercer une quelconque attraction sur les ressources de stockage. Pour cela, l’architecture doit pouvoir déplacer efficacement les ressources de stockage, de calcul ou d’application selon les besoins.
Cela implique d’être toujours conscient des déplacements des jeux de données, ainsi que de la manière de déplacer les données et d’exécuter les charges de travail le plus efficacement possible. Cela peut également impliquer d’automatiser le mouvement des données afin de réduire les coûts de stockage ou de déplacer les jeux de données les moins performants qui ne sont pas immédiatement nécessaires. La gestion automatisée des métadonnées mérite également d’être considérée. Celle-ci peut permettre la recherche et la découverte de données dans les magasins de données afin d’améliorer leur accessibilité.
Le plan d’actions qui découlera de ces mesures devra être suffisamment adaptatif. En effet, même si aujourd’hui, une organisation cerne bien les questions de gravité des données, celles-ci ne seront peut-être plus les mêmes dans cinq ans.
« Toutes les entreprises ne gèrent pas plusieurs ensembles massifs de données, mais plusieurs d’entre elles le font déjà », remarque IDC dans son rapport. « Et compte tenu du rythme de la transformation numérique des entreprises et de l’importance grandissante des données et de leur collecte, de nombreuses organisations devront bientôt gérer des jeux massifs de données. »
Il est essentiel que chaque système de gestion des données puisse s’adapter aux nouvelles exigences. La gestion des données et l’architecture de données sous-jacente doivent être agiles et capables de s’adapter à l’évolution des besoins des entreprises et aux nouvelles évolutions technologiques.
Si vous souhaitez en savoir plus sur les architectures hybrides, les contraintes réseau et la complexité croissante de la gestion du stockage, lisez le nouveau rapport d’IDC commandité par Seagate Un stockage à l’épreuve du temps : Moderniser l’infrastructure pour la croissance des données dans les écosystèmes hybrides, en périphérie et cloud.