A New Way to Data

資料引力及其對資料儲存基礎結構的影響

資料引力會影響整個 IT 架構,在規劃資料管理策略時應視為考量重點。

目錄:

資料引力 資料引力 資料引力

資料如今在任何層面上都是不可或缺的重要公司資產,就如同實際的資本和智慧財產權。結構化和非結構化的資料量不斷增加,資料在未來數年內仍會以空前的速度成長。同時資料也會蔓延,也就是公司資料不會僅待在同一個地方,而是散佈在各個資料中心和地理位置,資料蔓延即是指資料擴散的程度。資料蔓延增加管理資料成長、移動和活用的複雜性。

企業必須採取策略,以便有效管理分散在雲端、邊緣和端點環境上的大量資料。在大規模設計資料儲存基礎結構時,需刻意制訂經過計算的策略,且重要性更勝以往。

對 TB 規模有效的做法,在 PB 規模不再適用。企業將目標放在克服大規模儲存、移動和活用資料所需的成本和複雜性。企業必須尋求更佳的經濟效益、更低的阻力和更簡單的使用方式:簡單、開放、不受限,且專為資料驅動的分散式企業所設計。A New Way To Data

投入這類心力時,不得不考量資料引力的概念。

根據 Seagate 贊助的全新 IDC 報告《順應未來趨勢的儲存裝置:跨越混合式、邊緣和雲端生態系統,讓資料成長所需的架構邁向現代化》,儲存裝置與大量資料集建立起關聯,且數量不斷成長,因此其對 IT 領域中其他元素的引力也隨之加大。

一般而言,資料引力是資料量與使用量帶來的結果。可以用基礎物理來適當比擬這種情形:質量愈大的物體對周遭物體的引力效應愈大。IDC 報告指出:「最大的資料儲存量所帶來的工作量,會在所屬『宇宙』內顯示出最大質量,將應用環境、服務和其他架構資源吸引進入其軌道內。」

使用中的大型資料集,由於所具備的複雜性和重要性,勢必會影響需要與之互動的較小資料集位置和處置方式。因此資料引力會反映出資料生命週期的變動,且必須協助告知 IT 架構決策的所需資訊。

試想有兩個資料集存在:一個為 1PB,另一個為 1GB。若要整合這兩個資料集,將較小的資料集移動到較大資料集的位置,效率會更好。因此 1PB 資料集所在的儲存系統現在也會儲存 1GB 資料集。由於大資料集會「吸引」其他較小的資料集,大資料集的傾向是聚集資料,進而提高整體的資料引力。

資料的管理、分析和活用,也需要仰賴應用程式和服務,無論是透過私人或公用雲端供應商,還是內部部署的資料管理團隊供應皆可。應用程式負責收集和產生資料,同時也會使用、分析和累積資料,對資料進行大量的處理作業。自然而然,資料集成長漸趨龐大,除非資料相當接近用於管理或啟用資料的應用程式和服務,否則資料的利用也會越見困難。因此通常會將應用程式和服務移動到接近資料集的位置,或至少要保存在資料集附近。從內部部署資料中心到公用雲端和邊緣運算,資料引力是整個 IT 架構的共同特性。

但根據 IDC 報告所述,這類大量資料集可能會變成黑洞:「將儲存的資料、應用程式和服務困在同一個位置,除非 IT 環境架構的設計方式允許移轉和管理儲存的資料,還有仰賴這些資料的應用程式和服務,而不用考慮其作業位置。」

因為資料引力會影響整個 IT 架構,在規劃資料管理策略時,應視為設計考量的重點。IDC 指出,設計資料生態系統時有一項重要目標,即是「確保沒有任何單一資料集會在其餘 IT 和應用生態系統上施加無法控制的力量」。

確保應用程式無論位置所在都能存取資料

IT 架構策略應優先注重大量資料的儲存和移動。首先要從資料位置的最佳化著手。以資料為重的架構,會讓應用程式、服務和使用者的互動靠近資料所在位置,以免必須在集中式服務供應商之間來回長距離傳輸大量資料,而花費大量時間。

IDC 表示:「減輕資料引力影響的方式之一,是確保無論應用程式位於何處,儲存的資料都會相鄰共存。」

若要達成這種模式,可運用共存資料中心,聯合多個私人和公用雲端服務供應商,讓企業得以將大量資料儲存裝置與最適合應用程式、運算和網路連線需求的解決方案類型配對。

以資料為重的架構,其重要目標之一是資料存取能力。存取能力可提升資料線路使用上的便利性和作業的順暢度。也會影響公司未來的創新,並改善產生中繼資料和新資料集的能力,如此便能搜尋和探索資料,進而讓資料科學家有能力部署上述資料,以供機器學習和 AI 使用。

將資料放置在 IT 架構的中心,對應用程式效能的最佳化,以及傳輸延遲、存取和輸出費用、安全性與合規性需求上的問題,也會產生正面影響。資料整體的可靠性和耐用度,也是重要的效益。可靠性指的是在有需要時可供存取資料的能力,耐用度則是延長資料保存期間的能力。

看重資料的 IT 策略

綜合上述考量,對企業資料管理規劃影響甚大,從整體 IT 策略的制訂到業務行動方案規劃,均會受到影響。規劃必要的工作量和工作,必須對資料引力負起責任。不得不問的關鍵問題包含:產生或消耗的資料量有多大?資料在資料中心、私人雲端、公用雲端、邊緣裝置和遠端辦公室、分公司的分佈情況為何?資料在整個 IT 生態系統中的傳輸速度多快?妥善處理上述考量,就能提高資料架構的效率,還能減少資料線路沿線問題的高昂費用。

IDC 在報告中建議:「別讓單獨一項工作量或作業位置影響儲存裝置或資料資源的移動。」由於資料具有重力,設計資料架構時,必須避免大量資料集或單獨的大型工作量對儲存資料資源施加強大的引力,且架構必須能夠有效率地依據需求來移動儲存、運算或應用程式資源。

因此必須隨時維持對下列項目的認知:從何處擷取資料、移動資料最有效率的路徑,以及如何協助工作量發揮最佳執行效率。也要將資料的移動作業自動化,以降低儲存成本,或移動非立即需要或主動需要的低效能資料集。自動化中繼資料管理也值得考慮。如此可跨資料存放區進行搜尋和探索,增加資料存取能力。

要將這些想法付諸實行,則需採取適應性的資料架構、基礎結構和管理流程。雖然企業可能很清楚目前資料引力的考量,但五年後情況可能並非如此。

IDC 報告指出:「並非每家企業都會管理多個大量資料集,但許多企業確實如此。而且考慮到業務數位化的步調,以及企業資料和資料收集作業的價值所具備的重要性,許多企業預估會在近期管理大量資料集。」

每個資料管理系統必須要有所變化,以適應新的資料需求。負責支援的資料管理和資料架構,必須靈活彈性,能順應業務需求的變化和新興技術機會。

若要深入瞭解混合式架構、如何克服網路限制,以及儲存管理不斷增加的複雜性,歡迎參閱 Seagate 贊助的最新 IDC 報告《順應未來趨勢的儲存裝置:跨越混合式、邊緣和雲端生態系統,讓資料成長所需的架構邁向現代化