結構化與非結構化資料

這篇文章中,會帶各位詳細瞭解這兩種資料和不同的用途。裝置或軟體將移往資料湖的原始格式資訊收集後,原始的輸出資料便是非結構化資料。結構化資料會以數值或文字格式整理妥當,可在預先定義的參數內將資料分門別類、重組分析。

目錄:

定義結構化與非結構化資料的主要影像 定義結構化與非結構化資料的主要影像 定義結構化與非結構化資料的主要影像

定義結構化與非結構化資料

為了將資料用於儲存、分析和下達業務決策,會將資料分類為兩種方式:結構化與非結構化資料。結構化與非結構化的差異,在於是否配合資料使用和分析用途,將資訊加以整理。

結構化資料一般由清晰定義的資訊組成 (例如固定的文字和數字),可輕鬆搜尋資訊,且以有條不紊的表格或資料庫的形式加以維護,或能以此方式追蹤。而非結構化資料的檔案或媒體格式則是五花八門,本質上並未乾淨俐落地分組或分類。

但結構化與非結構化資料的差異不僅只有資料的整理方式。為了分析之用,這兩種資料各自需要不同的科技工具,而且需要不同知識領域和技能的資料專家採取不同的分析方法。

企業傾向使用結構化資料更勝於非結構化資料。企業擷取的資料中,大約有 43% 未獲得利用,代表非結構化資料中埋藏著尚未開發的巨大價值。但這兩種資料類型都相當珍貴,而且只要企業知道差異所在、瞭解需要哪種能力才能善加使用資料,兩種都能好好加以運用。

什麼是非結構化資料?

非結構化資料是保持原始格式的資訊,通常位在收集到該資料的原始位置或鄰近位置,或位在資料湖內 — 相對上未多加區別的資料集區。所有類型的原始資料,即使尚未經過任何分類或分析,都歸類在非結構化資料內。因此非結構化資料等同於大量潛藏的價值,需要交給部署超高容量資料儲存系統的穩固資料中心和雲端架構。

因此非結構化資料相當仰賴硬碟機。由於需要以經濟實惠的方式保留大量的非結構化資料,以發掘出更大的價值,以硬碟機為主的大容量儲存系統迎來前所未見的高需求。隨著 HDD 技術不斷進步,讓容量得以節節上升,因此硬碟機能繼續提供龐大的 TCO 優勢。而因為需要在非結構化資料來源附近存取資料,並視需求將資料移往各式各樣的私人雲端和公共雲端資料中心,以供不同用途之用,這種需求也促進了架構的轉變。從封閉的專用孤島 IT 架構轉變為開放的組合式混合架構,能讓資料在分散式企業間有效率地自由移動。

非結構化資訊也稱為定性資料,意思是這單純是觀察或記錄所得的資料。以工廠中的物聯網 (IoT) 感應器為例,收集的可能是設備效能的持續性資料。這種資訊接著會送往伺服器,以 PDF 及影片檔這類非結構化的格式儲存。

非結構化資料的其他範例還包括衛星照片、氣象報告、醫院病患的生物訊號資料,以及尚未以組織化方式標記或分類的數位相機影像。共通點在於資料是被動收集,且傳輸時並未使用任何預先定義的組織化格式。非結構化資料有機會能發揮極大用處,只要能將非結構化資料視為大型資料集的一部分,審慎檢視並加以瞭解,就能找出更大的趨勢和建立預測模型,但很難迅速搜尋和分析非結構化資料並用在商業分析用途上。

什麼是結構化資料?

結構化資料是經過整理的定量資料,通常大部分是數值或文字資料,這類資料以某種標準格式存在,位於檔案或記錄的固定欄位中。像試算表或關聯式資料庫中存在的資訊,就是結構化資料的常見範例。若要尋找特定一項資料或分類資訊,企業輕鬆就能查詢資料。

舉例來說,農場上的農業感應器可能會收集原始的氣象資料,以判斷穀物是否需要澆水、又需要澆多少水。為了讓資料結構化,需要加以分類和建立格式。以結構化格式呈現的資料類型,可能就像內有標題為「一天中的時間」、「溫度」和「濕度」欄位的表格。結構可促進搜尋、分類和分析的效率。

結構化與非結構化資料

結構化與非結構化資料的主要差異在於格式。非結構化資料會以資料的原生格式儲存,例如 PDF、影片或感應器輸出資料。結構化資料會以預先定義的格式嚴格呈現,或含有預先定義的識別碼用於描述資料,且採取標準格式,如此便能輕鬆放進表格、試算表或關聯式資料庫內。

非結構化資料通常位在所謂的資料湖中,基本上這就是用於儲存不同格式原始資料的儲存庫。結構化資料位於資料倉儲內,這種儲存庫只接受使用預先定義規格格式的資料。資料湖就像是存放非結構化資料的水庫,但可能也會存放結構化資料;但資料倉儲只會放置經過整理和設定格式的結構化資料。

不論資料位於資料湖還是資料倉儲內,都是以資料庫的某種形式儲存資訊。主要差別在於,結構化資料儲存在關聯式資料庫類,以列和欄的形式儲存,採用 Structured Query Language (SQL)、PostgreSQL 或 MongoDB 等有條理的格式。這類格式讓結構化資料更易於供使用者 (或機器) 搜尋、分類和使用。非結構化資料則相反,是儲存在 NoSQL 這類非關聯式資料庫內。

這兩種類型的資料在分析方式上也有所不同,處理和操作資訊所需的工具和人員也不一樣。分析非結構化資料時,一般會使用資料堆疊和資料採集這類技術,這些是為了處理中繼資料而開發的技術,用於得出更一般性的結論。而結構化資料方面,則會使用更數學化的分析形式,例如資料分類、分群和迴歸分析。在工具和技術上,結構化資料會促進管理和分析工具的使用。用於處理結構化資料的工具範例如下:

  • 關聯式資料庫管理系統 (RDBMS)
  • 客戶關係管理 (CRM)
  • 線上分析處理 (OLAP)
  • 線上交易處理 (OLTP)

要管理和分析非結構化資料時,所使用的軟體通常需要能夠處理以多種不同格式存在的大型資料集。用於管理非結構化資料的工具範例如下:

  • NoSQL 資料庫管理系統 (DBMS)
  • 人工智慧驅動的資料分析工具
  • 資料視覺化工具

非結構化資料通常需要由受過良好訓練的專家來管理,且軟體工具需要有更先進的人工智慧和預測建模功能,一般會超過結構化資料所用的等級。機器學習適用於非結構化資料分析的策略之一。

因為結構化資料已經過分類整理,用於處理這類資料集的軟體工具,更易於讓非專業的商務使用者使用。舉例來說,資料的輸入、搜尋、查詢和操作,通常可透過十分有條理的使用者介面自助處理。

使用案例

如何使用非結構化資料的範例之一,可從 IoT 裝置的感應器資料用於預測建模的方式看出。以農場上的感應器為例,感應器會持續收集和傳送氣候、作物健康狀態和農業設備功能方面的資料。人工智慧工具可分析資料並建立預測模型,以便達到更佳的管理和決策效果。具備機器學習功能的人工智慧,可隨著時間從這些模式中學習,每次分析過後都能再產生更準確的模型。

以氣候資訊和作物成長模式的形式存在的非結構化資料,經過分析後可用於預測自動化機械未來應澆灌多少水或肥料。接著人工智慧軟體會進行自動化分析並建立預測模型,提供改善未來農場管理作業的資訊。這種分析是根據人工智慧辨識出的模式,人工智慧在篩檢感應器收集到的作物成長和土壤營養模式等多種格式的非結構化資料時,會辨識出浮現的模式。

結構化資料用於涉及定量分析的情境。像物流和庫存管理等領域,便是結構化資料能一展長才的地方,可供提升效率和改善決策制訂效果。倉儲庫存資訊一般是以結構化資料的形式存放,在關聯式資料庫內以欄和列的形式存在。這種資料能和庫存管理或商務分析系統橋接,將資訊提供給商務使用者和資料科學使用者。使用者和所使用的軟體工具可取得指標的固定值,例如特定產品線的獲利能力,以及採購和運送相關的間接成本。公司便可根據量化的輸出來下達決策。

目前這兩種資料各有不同用途。裝置或軟體將移往資料湖的原始格式資訊收集後,原始的輸出資料便是非結構化資料。結構化資料會以數值或文字格式整理妥當,可在預先定義的參數內將資料分門別類、重組分析。隨著機器學習和人工智慧繼續進步,很可能會出現能夠挖掘、分析非結構化資料並從中學習的新功能,並且讓非結構化資料立即派上用場。