Gravidade dos dados
A gravidade dos dados afeta sua infraestrutura inteira de TI, e deve ser uma importante consideração durante o planejamento de estratégias de gerenciamento de dados.
Agora, os dados são ativos essenciais para empresas em todos os setores, assim como o capital físico e a propriedade intelectual são. O crescimento dos dados, com quantidades cada vez maiores de dados estruturados e não estruturados, continuará a taxas sem precedentes nos próximos anos. Enquanto isso, a expansão dos dados — o grau crescente no qual os dados corporativos não residem mais em um só local, mas ficam espalhados entre data centers e regiões geográficas — acrescenta complexidade aos desafios de gerenciar o crescimento, o movimento e a ativação dos dados.
As empresas devem implementar uma estratégia para gerenciar dados massivos de maneira eficiente em ambientes de nuvem, borda e endpoint. E é mais importante do que nunca desenvolver uma estratégia consciente e calculada ao projetar a infraestrutura de armazenamento de dados em grande escala.
O que funcionava para terabytes não funciona para petabytes. As empresas que desejam superar o custo e a complexidade de armazenar, mover e ativar dados em grande escala devem buscar melhor economia, menos atrito e uma experiência mais simples — simples, aberta, sem limites e criada para a empresa distribuída impulsionada por dados. A new way to data
O conceito de gravidade dos dados é um elemento importante a considerar nesses esforços.
Segundo o novo relatório da IDC patrocinado pela Seagate, Armazenamento preparado para o futuro: modernizando a infraestrutura para o crescimento de dados em ecossistemas híbridos, de borda e de nuvem, conforme o armazenamento associado a dados massivos continua a crescer, o mesmo acontecerá com sua força gravitacional em outros elementos dentro do universo da TI.
Em termos gerais, a gravidade dos dados é uma consequência do volume e nível de ativação dos dados. Os princípios básicos da física fornecem uma analogia apropriada: um corpo com mais massa tem um efeito gravitacional maior sobre os corpos que o cercam. “Cargas de trabalho com os maiores volumes de dados armazenados exibem a maior massa dentro de seu ‘universo’, atraindo aplicativos, serviços e outros recursos de infraestrutura para sua órbita”, de acordo com o relatório da IDC.
Um conjunto de dados grande e ativo irá, por virtude de sua complexidade e importância, necessariamente afetar a localização e o tratamento dos conjuntos de dados menores que precisam interagir com ele. Dessa forma, a gravidade dos dados reflete a dinâmica do ciclo de vida dos dados e deve ajudar a informar decisões de arquitetura de TI.
Considere dois conjuntos de dados: um de 1 petabyte e outro de 1 gigabyte. Para integrar os dois conjuntos, a maneira mais eficiente é mover o conjunto de dados menor para o local do conjunto de dados maior. Como resultado, o sistema de armazenamento com o conjunto de 1 petabyte agora armazena também o conjunto de 1 gigabyte. Como os conjuntos de dados grandes “atraem" outros conjuntos de dados menores, os conjuntos de dados grandes tendem a agregar dados, aumentando ainda mais sua gravidade dos dados em geral.
O gerenciamento, a análise e a ativação de dados também dependem de aplicativos e serviços, sejam eles oferecidos por um fornecedor de nuvem privada ou pública ou uma equipe de gerenciamento de dados no local. Os aplicativos coletam e geram dados, além de consumir, analisar e agregar dados: muito trabalho precisa acontecer nos dados. Naturalmente, quanto mais um conjunto de dados cresce, mais difícil fica de usar esses dados, a menos que eles estejam perto dos aplicativos e serviços que ajudam a gerenciar e ativar os dados. Por isso, os aplicativos e serviços costumam ser movidos para perto dos conjuntos de dados ou são mantidos próximo deles. De data centers no local a nuvens públicas e computação na borda, a gravidade dos dados é uma propriedade que engloba a infraestrutura inteira de TI.
Mas, segundo o relatório da IDC, esses conjuntos de dados massivos podem acabar virando buracos negros, “prendendo dados armazenados, aplicativos e serviços em um só local, a menos que os ambientes de TI sejam projetados para permitir a migração e o gerenciamento de dados armazenados, junto com os aplicativos e serviços dos quais dependem, não importa a localização operacional”.
Como a gravidade dos dados podem afetar uma infraestrutura inteira de TI, é importante que isso seja considerado no design durante o planejamento de estratégias de gerenciamento de dados. Um objetivo importante no design de um ecossistema de dados, segundo a IDC, é “garantir que nenhum conjunto de dados único exerça uma força incontrolável sobre o resto do ecossistema de TI e aplicativos”.
A estratégia de arquitetura de TI deve colocar o armazenamento em massa e o movimento dos dados em seu centro. Isso começa com a otimização da localização dos dados. Uma arquitetura centrada em dados traz os aplicativos, serviços e interação de usuário mais perto do local onde os dados residem, em vez de depender de transferências de dados de longa distância demoradas e, geralmente, caras de dados massivos de e para provedores de serviços centralizados.
A IDC observa que “uma maneira de mitigar o impacto da gravidade dos dados é assegurar que os dados armazenados sejam colocalizados adjacentes aos aplicativos, independentemente da localização”.
Esse modelo pode ser realizado aproveitando os data centers colocalizados que reúnem vários provedores de serviços de nuvem privada e pública, permitindo que as empresas pareiem seu armazenamento de dados massivos com as melhores soluções da categoria para as necessidades de aplicativos, computação e rede.
O principal objetivo de uma arquitetura centrada em dados é a acessibilidade dos dados. A acessibilidade aumenta a facilidade de uso e operações sem problemas de um pipeline de dados, e pode afetar a inovação futura dos negócios, melhorando a capacidade de gerar metadados e novos conjuntos de dados, possibilitando a pesquisa e descoberta dos dados e capacitando cientistas de dados a implementar esses dados para machine learning e IA.
No entanto, colocar os dados no centro da arquitetura de TI também pode afetar positivamente a otimização do desempenho do aplicativo, problemas na latência de transferência, cobranças de acesso e saída e necessidades de segurança e conformidade. A confiabilidade e durabilidade geral dos dados também é um benefício importante. A confiabilidade é a capacidade de acessar dados quando necessário, e durabilidade é a capacidade de preservar dados por longos períodos de tempo.
Juntas, essas considerações têm grandes implicações para o planejamento do gerenciamento de dados corporativos, desde definir uma estratégia geral de TI a formular uma iniciativa de negócios. Planejar as cargas de trabalho e tarefas necessárias significa levar em conta a gravidade dos dados. As principais perguntas a serem feitas incluem: qual é o volume de dados sendo gerados ou consumidos? Qual é a distribuição de dados entre data center, nuvens privadas, nuvens públicas.dispositivos de borda e escritórios remotos e filiais? Qual é a velocidade dos dados sendo transmitidos em todo o ecossistema de TI? Lidar com essas considerações aumentará a eficiência da infraestrutura de dados e pode reduzir os problemas de pipeline de dados que custam caro mais à frente.
A IDC aconselha em seu relatório: “Não deixe que uma única carga de trabalho ou localização operacional dite o movimento do armazenamento ou dos recursos de dados”. Como os dados têm gravidade, a infraestrutura de dados deve ser projetada para impedir que conjuntos de dados massivos ou carga de trabalho individuais grandes exerçam uma atração gravitacional dominante sobre os recursos de armazenamento, com uma arquitetura que mova, com eficiência, os recursos de armazenamento, computação e aplicativo conforme necessário.
Isso significa sempre ter consciência sobre quais conjuntos de dados estão sendo atraídos para onde, qual é o caminho mais eficiente para mover os dados, e o que ajuda essas cargas de trabalho a funcionarem da melhor forma possível. Isso também pode significar automatizar o movimento dos dados para reduzir os cursos de armazenamento, ou mover conjuntos de dados de desempenho mais baixo que não sejam necessários de modo imediato ou ativo. Também vale a pena considerar o gerenciamento automatizado de metadados. Isso pode possibilitar a pesquisa e descoberta entre armazenamentos de dados, aumentando a acessibilidade dos dados.
Colocar essas ideias em prática significa implementar processos de arquitetura, infraestrutura e gerenciamento de dados que sejam adaptáveis. Embora uma organização possa ter uma boa ideia de quais são suas considerações de gravidade dos dados hoje, elas podem não ser as mesmas daqui a cinco anos.
“Nem toda empresa gerencia vários conjuntos de dados massivos, mas muitas já o fazem”, observou a IDC no relatório. “E, levando em conta o ritmo da digitalização dos negócios e a importância dada ao valor dos dados corporativos e à coleta de dados, muitas organizações estarão gerenciando conjuntos de dados massivos no futuro próximo.”
É importante que todos os sistemas de gerenciamento de dados possam mudar para acomodar novos requisitos de dados. O gerenciamento de dados e a arquitetura de dados para suportá-lo devem ser ágeis e poder se adaptar às dinâmicas necessidades de negócios e oportunidades técnicas emergentes.
Saiba mais sobre arquitetura híbrida, superação de restrições de rede e a crescente complexidade do gerenciamento de armazenamento no novo relatório da IDC patrocinado pela Seagate, Armazenamento preparado para o futuro: modernizando a infraestrutura para o crescimento de dados em ecossistemas híbridos, de borda e de nuvem