Três fatos sobre discos rígidos e SSDs
Uma análise da visão de que as unidades flash substituirão os discos rígidos no data center.
“Em breve, os discos rígidos serão coisa do passado.”
“Em breve, os arrays totalmente flash substituirão os discos e arrays híbridos no data center.”
“O data center do futuro é totalmente flash.”
Bem-vindo(a) à mais nova edição da interminável saga da extinção dos discos rígidos. Esse debate, com os destaques apresentados acima, já dura mais de uma década. As previsões que anunciavam o fim dos discos rígidos, feitas por alguns defensores entusiasmados, e, digamos, otimistas da tecnologia somente flash, não evoluíram a contento com o passar dos anos. Mas elas parecem ficar cada vez mais ousadas com o tempo.
Sem dúvida, o armazenamento flash é bastante adequado para atender às demandas de aplicações que requerem alto desempenho e velocidade. A receita das unidades flash está crescendo, assim como a receita dos arrays totalmente flash (AFA, all-flash array). Mas não às custas dos discos rígidos. A premissa que fundamenta as especulações sobre a morte dos discos rígidos é totalmente falha.
Estamos vivendo em uma era em que a universalização da nuvem e o crescimento de casos de uso de IA aumentaram o valor dos conjuntos de dados massivos. Os discos rígidos, que hoje armazenam, de longe, a maioria dos exabytes (EB) do mundo, são mais indispensáveis para operadores de data center do que nunca.
Mesmo nos últimos anos, quando os preços das memórias flash caíram temporariamente para mínimos históricos, as unidades de estado sólido (SSDs) não desbancaram os discos rígidos nas cargas de trabalho que exigem armazenamento massivo de dados.
Analistas do setor esperam que os discos rígidos sejam os principais beneficiários do crescimento contínuo de EB. O gráfico abaixo mostra que os data centers corporativos em nuvem e de grande escala, onde está a grande maioria dos conjuntos de dados do mundo, serão os locais-chave desse crescimento. Em termos relativos, o armazenamento em disco rígido está projetado para crescer 6.996 EB, enquanto o armazenamento em SSD crescerá 1.363 EB entre 2022 e 2027.1
Não é um jogo de soma zero. Em data centers, discos rígidos e unidades flash sempre trabalharam em sinergia, implantados para atender às demandas de diferentes serviços. Cada um deles tem seus próprios benefícios e propostas de valor exclusivos. Na verdade, na era da IA generativa, clusters de computação com tecnologia flash alimentam indiretamente a necessidade subsequente por mais EBs de disco rígido, já que o conteúdo gerado precisa ser armazenado de forma econômica.
Essa sinergia de mídia de armazenamento vai muito bem, enquanto a conjectura em torno da obsolescência dos discos rígidos carece de credibilidade e, em última análise, não se confirmará.
Vamos analisar melhor três dos principais mitos subjacentes a essa conjectura e os motivos gerados por dados de terceiros pelos quais os discos rígidos continuarão sendo centrais para as arquiteturas de armazenamento de dados no futuro previsível.
Os dados são claros. Os discos rígidos têm uma firme vantagem de custo por terabyte (TB) em relação aos SSDs, o que os posiciona como o elemento indispensável da infraestrutura de armazenamento do data center.
Embora os preços do armazenamento de memória flash NAND continuem altamente voláteis e tenham atingido uma baixa em 2023 devido à demanda fraca e ao excesso de oferta, a empresa de análise Forward Insights prevê um reaquecimento de preços dos SSDs a partir de 2024 e durante 2025. Após enfrentarem quedas bruscas de preços, os fornecedores de SSDs receberão bem essa reviravolta, depois de lutarem para reduzir o estoque antigo e cortar gastos de capital para alinhar a oferta à demanda. Consequentemente, já começamos a ver aumentos de preços para soluções baseadas em NAND.
A análise da Seagate da pesquisa realizada pela IDC, TRENDFOCUS e Forward Insights confirma que os discos rígidos continuarão sendo a opção com melhor relação custo-benefício para a maioria das tarefas corporativas. Projeta-se que a diferença de preço por TB entre SSDs corporativos e discos rígidos corporativos permaneça igual ou superior a relação de valor de 6 para 1 até pelo menos 2027.
Esse diferencial de preço por TB é particularmente evidente no data center, onde o custo de aquisição de dispositivo é, de longe, o componente dominante no custo total de propriedade (TCO). Levando em consideração todos os custos do sistema de armazenamento, incluindo os custos de aquisição de dispositivos, energia, rede e computação, um TCO muito superior é gerado pelos sistemas baseados em disco rígido em uma base por TB.
Em uma tentativa de superar essas disparidades incontestáveis de preço e TCO, alguns OEMs de AFA começaram a projetar seus próprios dispositivos NAND de alta densidade personalizados com opções de capacidade na casa das centenas de TB, reivindicando vantagens de TCO teóricas que vão além da economia do dispositivo até o nível do sistema. O problema com essa lógica é que adicionar níveis drasticamente mais altos de densidade de NAND a um único dispositivo ou sistema ainda não altera o diferencial de custo por TB total da mídia bruta.
Outra tática usada para desviar a atenção da desvantagem de custo por TB tem a ver com os chamados “TBe” ou “terabytes efetivos”. Dizem que, devido às técnicas de redução de dados (por exemplo, compressão de dados), um SSD pode oferecer substancialmente mais espaço de armazenamento do que a sua capacidade bruta implica. Entretanto, em grandes implementações, a redução de dados ocorre mais acima na pilha, tornando-a irrelevante no nível do armazenamento. Além disso, devido ao maior foco na proteção de dados e à prevalência de criptografia, a compressão de dados muitas vezes não é viável na maioria dos casos de uso corporativo e de nuvem. Quando os dados são criptografados, eles não podem ser compactados pois sua entropia é tão alta que não há um padrão para simplificar.
Resultado: Embora a memória flash seja excelente na realização de tarefas específicas e de alto desempenho, os discos rígidos continuarão sendo o principal destino dos EBs de data center, oferecendo uma solução confiável, econômica e amplamente adotada em um futuro previsível.
A ideia de que o setor de NAND aumentaria ou poderia aumentar seu suprimento para substituir toda a capacidade de disco rígido não é apenas otimista — tal tentativa levaria à ruína financeira. A transição de disco rígido para NAND não se limita a produzir mais unidades. É um enorme peso financeiro e logístico para ser executada, ainda mais a um preço que seja competitivo com o dos discos rígidos.
De acordo com o relatório do quarto trimestre de 2023NAND Market Monitor da analista do setor Yole Intelligence, o setor inteiro de NAND distribuiu 3,1 zettabytes (ZB) de 2015 a 2023, tendo que investir impressionantes US$ 208 bilhões em CapEx, o que é aproximadamente 47% de sua receita combinada.
O setor de disco rígido, em contrapartida, atende à grande maioria — quase 90% — das necessidades de armazenamento de data centers de uma forma altamente eficiente. Para ajudar a solidificar isso, vamos usar a Seagate Technology como representante do setor de disco rígido. Entre 2015 e 2023, a Seagate distribuiu 3,5 ZB de armazenamento. Os investimentos de capital da Seagate durante esse período de oito anos totalizaram US$ 4,3 bilhões, ou apenas cerca de 5% da receita total de discos rígidos da Seagate. Isso equivale a aproximadamente US$ 67 bilhões por ZB para o setor de NAND versus cerca de US$ 1 bilhão por ZB para a produção de discos rígidos (conforme representado pela Seagate). O setor de discos rígidos é muito mais eficiente em fornecer ZBs ao data center. A análise da Seagate das previsões da IDC para discos rígidos e da Forward Insights para SSDs mostra que, em 2024, a produção de EB de disco rígido será quase três vezes superior à de SSDs. Nesse mesmo ano, nos mercados corporativos e de data center, a produção de EB de disco rígido será seis vezes maior do que a de SSDs.
Recentemente, alguns fornecedores de AFA afirmaram que o setor de flash poderia substituir completamente a saída de capacidade do setor de disco rígido até 2028. Vamos analisar que tipo de investimento seria necessário pelo setor de NAND para alcançar isso.
O relatório da Yole Intelligence citado acima indica que de 2025 a 2027 o setor de NAND investirá cerca de US$ 73 bilhões, o que deverá gerar 963 EB de produção para SSDs corporativos, bem como outros produtos de NAND para tablets e telefones. Isso se traduz em um investimento de aproximadamente US$ 76 por TB de saída de armazenamento flash. Aplicando esse mesmo preço de capital por bit, seria necessário um investimento adicional de US$ 206 bilhões para sustentar os 2,723 ZB de capacidade de disco rígido prevista para distribuição em 2027. No total, são quase US$ 279 bilhões em investimento para um mercado total de aproximadamente US$ 25 bilhões.
Está claro que esse nível de investimento é improvável para um setor que enfrenta retornos incertos, principalmente depois de perder dinheiro ao longo de 2023.
A mais recenteFolha de especificações da NAND Flash Platinum da TrendForce mostra que há aproximadamente 28 fábricas de NAND em operação no mundo todo em 2024. Se usarmos o Fab7 Phase 1 da Kioxia, aberto em outubro de 2022, como exemplo, a construção de uma única fábrica de NAND totalmente nova custa cerca de US$ 6,8 bilhões. Dessa forma, o CapEx incremental de US$ 206 bilhões necessário pelo setor de NAND equivaleria a aproximadamente 30 novas fábricas. Essas instalações precisariam ser construídas, expandidas, testadas, qualificadas e colocadas online para produção total nos próximos três a quatro anos, dobrando o número de fábricas de NAND mundialmente em menos de quatro anos.
Além disso, o relatório StorageSphere de 2023 da IDC2 mostra que, em 2023, a proporção da capacidade instalada existente entre disco rígido e SSD em data centers com ou sem nuvem é de 7 para 1. A IDC prevê que essa relação de EBs dominante baseada em HDD permanecerá em torno de 6 a 7 vezes no futuro previsível, com uma taxa de crescimento anual composta (CAGR) de 26%, levando a uma capacidade de HDD instalada de até 10 ZB em 2027. Portanto, além de substituir toda a produção anual futura das novas instalações de disco rígido ano a ano, como descrito anteriormente, o setor de NAND também precisaria investir para substituir a parte que está envelhecendo dessa base instalada de 10 ZB de discos rígidos de data center quando ela chegar ao fim de sua vida útil, o que significa um investimento incremental muito acima dos US$ 206 bilhões necessários apenas para substituir a capacidade de disco rígido de 2,723 ZB prevista para ser fornecida em 2027.
As soluções NAND atendem a cargas de trabalho específicas de data center de maneira eficiente, mas a ideia de que os data centers dependerão completamente delas é repleta de falhas. Além dos riscos e da incapacidade de o setor de NAND substituir o suprimento de disco rígido, os preços voláteis acrescentam outra camada de incerteza para as empresas que estão em busca de estabilidade de suprimento e o melhor TCO para seu armazenamento.
A noção de que a NAND poderá substituir completamente os discos rígidos em um futuro previsível é altamente improvável, se não impossível. O setor teria que superar formidáveis obstáculos financeiros e logísticos, investindo uma grande quantidade de capital e tecnologia em um mercado que não está preparado para uma mudança que derrubaria a arquitetura de data center atual.
Aqui está uma falsa dicotomia. Os fornecedores de armazenamento totalmente flash aconselham as empresas a “simplificar” e “preparar-se para o futuro” com o uso de flash para garantir alto desempenho. Caso contrário, segundo eles, as empresas correm o risco de não conseguir acompanhar o ritmo das demandas de desempenho das cargas de trabalho modernas. Essa lógica de soma zero falha por três motivos:
Vamos falar sobre eles um por um.
Primeiro, a maior parte dos dados do mundo reside na nuvem e em grandes data centers. Nesses ambientes, as cargas de trabalho seguem uma regra de Pareto: apenas uma pequena porcentagem da carga de trabalho requer uma porcentagem significativa do desempenho. É por isso que, segundo a IDC3, nos últimos cinco anos os discos rígidos somaram quase 90% da base instalada de armazenamento em provedores de serviços de nuvem e data centers de hiperescala.
Observe a tabela abaixo, baseada na pesquisa da IDC Global DataSphere de 2023. A maioria dos dados do mundo faz parte de cargas de trabalho que precisam de tempo de transferência de dados nominal para casos de uso de finalidade geral.
Em alguns casos, os sistemas totalmente flash nem são necessários como parte das soluções de mais alto desempenho. Há sistemas de armazenamento híbrido que funcionam tão bem quanto ou mais rápido do que os de armazenamento totalmente flash. No nível do dispositivo, as diferenças em desempenho são óbvias. No entanto, nos racks de data center, em grande escala, o desempenho do disco rígido se beneficia do acesso extremamente paralelo, resultando em um nível de desempenho que é mais do que suficiente para a maioria das cargas de trabalho, incluindo IA e machine learning. Tão importante quanto isso, quaisquer vantagens de desempenho significativamente incrementais proporcionadas pela flash podem, muitas vezes, ser restritas por outras decisões de infraestrutura, como capacidade ou qualidade de rede.
Segundo, conforme estabelecido anteriormente neste artigo, as considerações sobre TCO são essenciais para a maioria das decisões relativas à infraestrutura de data center. Isso força um equilíbrio de custo, capacidade e desempenho. O TCO ideal é atingido com o alinhamento da mídia com melhor relação custo-benefício (disco rígido, flash ou fita) com os requisitos de carga de trabalho. Os discos rígidos e arrays híbridos (desenvolvidos a partir de discos rígidos e SSDs) são perfeitos para a maioria dos casos de uso de aplicativos e armazenamento em nuvem e corporativo.
Obviamente, é possível escolher usar SSDs ou AFAs para cargas de trabalho mais adequadas a discos rígidos, como serviços de arquivo, armazenamento de objetos, sistemas de gerenciamento de documentos ou hospedagem na Web. Mas em termos de custo, quanto maior for a capacidade, mais ilógica seria essa decisão. É como usar o seu carro estacionado em uma garagem para guardar as suas roupas. Dá para fazer? Claro, se é isso que você quer fazer com um carro. Mas é econômico? De modo algum.
Embora o armazenamento flash seja ótimo em cenários de leitura intensa, sua resistência diminui com o aumento da atividade de gravação. Os fabricantes tratam disso com correção de erros e superprovisionamento — um armazenamento extra não visto para substituir as células defeituosas. Entretanto, essas soluções vêm com custos extras: o superprovisionamento aumenta muito o custo do produto integrado e é necessário haver energia constante para evitar a perda de dados. Isso cria desafios para ambientes como data centers na borda ou qualquer configuração em que a operação contínua não seja garantida e seja acelerada a altas temperaturas.
Além disso, embora tecnologias como a célula de camada tripla (TLC) e célula de camada quádrupla (QLC) permitam que a flash lide com cargas de trabalho com muitos dados, como discos rígidos, a lógica econômica enfraquece para conjuntos de dados maiores ou retenção de longo prazo. Nesses casos, as unidades de disco, com sua crescente densidade de área, oferecem uma solução com melhor relação custo-benefício. Em ambientes de hiperescala, usar milhares de discos rígidos em paralelo alcança um desempenho que complementa o armazenamento flash, ilustrando sua função colaborativa nos data centers modernos.
Consequentemente, embora o flash QLC esteja dominando uma porcentagem considerável do mercado de TLC (assim como a TLC substituiu o armazenamento NAND de célula multinível (MLC)), ele não está desgastando a participação no mercado de disco rígido devido aos fatores de custo, disponibilidade e carga de trabalho explorados neste artigo.
O terceiro, e um ponto relacionado, é a afirmativa de que os AFAs são superiores aos arrays híbridos ou sistemas de armazenamento de disco rígido. Os defensores do flash dizem que usar um só tipo de armazenamento é “mais simples” do que adotar uma combinação de tipos de mídia e camadas de armazenamento. Não é bem assim.
Muitos sistemas de armazenamento híbrido empregam uma arquitetura definida por software bem comprovada e ajustada, que integra e aproveita perfeitamente os pontos fortes dos diversos tipos de mídia em unidades únicas. Em arquiteturas de data center de nuvem privada ou pública de expansão horizontal, os sistemas de arquivos ou armazenamento definido por software são usados para gerenciar as cargas de trabalho de armazenamento de data center. Elas oferecem flexibilidade mais do que adequada, permitindo que as empresas ajustem sua composição de armazenamento de acordo com as necessidades em constante mudança.
AFAs e SSDs são perfeitos para cargas de trabalho de alto desempenho e volume intenso de leitura. Mas é um erro extrapolar casos de uso específicos ou implantações de pequena escala para o mercado de massa e hiperescala, nos quais os AFAs fornecem uma forma desnecessariamente cara de fazer o que os discos rígidos já fornecem a um TCO muito mais baixo.
As arquiteturas de armazenamento corporativo grandes, de hiperescala e de nuvem selecionam armazenamentos que otimizam o custo, a capacidade e o desempenho. Os discos rígidos atendem a cargas de trabalho que o armazenamento flash não deve atender. O armazenamento flash atende a cargas de trabalho que os discos rígidos não devem atender. As duas mídias de armazenamento coexistirão no data center, com os discos rígidos continuando a dominar em termos de EBs armazenados até o futuro previsível.
Por falar em EBs, é comum indicar o aumento nos volumes de unidades SSD e a queda nas vendas de unidades de disco rígido como prova de uma inflexão no mercado de armazenamento. Mas esse argumento é falso, pois não reconhece os aumentos na capacidade dos discos rígidos e no total de vendas de EB de disco rígido, que estão crescendo mais rápido do que nunca. Um caso específico: graças à inovação de densidade de área possibilitada pela HAMR, a nova plataforma Mozaic™ da Seagate dobrará a capacidade máxima por unidade nos próximos quatro anos, enquanto a tecnologia de gravação magnética perpendicular (PMR) tradicional levou nove anos para conseguir dobrar a capacidade.
Em vez de contar o volume de unidades, o que importa, quando se trata de medir com precisão o crescimento, é a distribuição desses EB. Os analistas preveem que as distribuições de EB de disco rígido continuarão aumentando a uma taxa sem precedentes. Embora o armazenamento flash também apresente crescimento, ele não se compara ao dos discos rígidos em termos de capacidade instalada.
A análise da Seagate dos dados da IDC e TRENDFOCUS prevê um aumento de quase 250% na perspectiva de EB para discos rígidos até 2028. Extrapolando ainda mais no tempo, essa relação se mantém durante a próxima década. Confira:
A suposta obsolescência dos discos rígidos é um assunto em discussão no setor de tecnologia há mais de uma década. Entretanto, as diversas previsões não se confirmaram. Também não esperamos que a rodada mais recente se confirme.
Quase invariavelmente, os absolutistas do totalmente flash tentam substanciar seus argumentos com falácias lógicas, muitas vezes extrapolando de um pequeno subconjunto de casos de uso para a grande escala, que é onde suas conclusões não se sustentam.
É marketing criativo, na melhor das hipóteses.
Na realidade:
É claro que há outros mitos que contribuem para o “marketing criativo” que prevê o fim dos discos rígidos, como sustentabilidade, consumo de energia, confiabilidade, entre outras áreas. Fique ligado: vamos falar sobre isso nos próximos posts. Entretanto, os três mitos discutidos acima nos parecem os mais relevantes.
Qualquer análise séria dos dados apresentados neste artigo leva à conclusão de que os discos rígidos vieram para ficar. Eles continuarão a armazenar a grande maioria dos dados do mundo por muito tempo.
Sugerir o contrário é pura ilusão.
IDC, Worldwide Global StorageSphere Forecast, 2023-2027. Doc nº US50851423, junho de 2023.
Ibid.
Estudo com vários clientes da IDC, Cloud Infrastructure Index 2023: Compute and Storage Consumption by 100 Service Providers, novembro de 2023.