構造化データ vs. 非構造化データ
この記事では、2種類のデータとその用途の違いを考察します。非構造化データは、情報を収集するデバイスまたはソフトウェアが出力したままの状態のデータを指し、データは元の形式のままデータレイクに移されます。一方で構造化データは、数字やテキスト形式でまとめられたデータを指し、事前定義されたパラメータにもとづいて分類したり、編成/再編成したり、分析したりすることができます。
保存、分析、ビジネス上の意思決定のためのデータ分類には2通りの方法があります。それが、構造化と非構造化です。構造化と非構造化の違いは、データの使用や分析のために情報が整理されているかどうかという点です。
構造化データは通常、明確に定義された情報(例えば明確な文字列や数字など)で構成されており、高度に編成された表やデータベースを使って簡単に検索したり、維持したり、追跡したりすることができます。一方、非構造化データはさまざまな種類のファイルやメディア形式が入り混じったもので、きれいにグループ分けや分類がされていません。
構造化データと非構造化データの違いは、情報の収集方法だけに留まりません。分析では、それぞれ異なるテクノロジーツールや分析方法が必要となり、使用するためには幅広い知識やスキルを持つプロの手が必要となります。
企業では、非構造化データよりも構造化データが多く使用される傾向にあります。企業が保存している全データのうち、約43%は実際には活用されていません。つまり、非構造化データには膨大な価値が手つかずのまま眠っているということです。しかし、この2つの違いは何か、活用するためにはどのような能力が必要なのかを理解すれば、企業はどちらの種類のデータにも価値を見出し、上手く活用することができます。
非構造化データはRAW形式の情報で、多くの場合、最初に収集された元の場所かその近く、あるいはデータレイク(未分類データの保存場所)に保存されています。ここには、分類や分析が行われていないものなど、あらゆる種類の収集されたRAWデータが含まれているため、その潜在価値は計り知れません。しかし、その価値を活用するためには、大容量データ・ストレージ・システムを備えた優れたデータセンターやクラウド・アーキテクチャが必要です。
そのため、非構造化データには多くのハードディスク・ドライブが必要になります。経済的な方法で膨大な量の非構造化データを維持し、高い価値を手に入れる必要があることから、ハードディスク・ドライブを中心とした大容量ストレージ・システムに対する需要はかつてないほど高まっており、ハードディスク・ドライブは、HDD技術の発展に伴い、TCO面で大きなメリットをもたらし続けています。必要に応じてソースの近くにある非構造化データにアクセスし、それぞれの使用目的のためにさまざまなプライベート・クラウドやパブリック・クラウド・データセンターに移動させる必要があることから、自社専用の閉鎖的でサイロ化されたITアーキテクチャから、現在は分散型の企業全体でデータを自由かつ効率的に動かすことができるオープンで自由に構成できるハイブリッド環境へとシフトが進んでいます。
非構造化情報は定性データとも呼ばれ、これは単純に監視・記録されるだけの情報になります。例えば工場のモノのインターネット (IoT) センサーは、機器の性能に関するデータを継続的に収集します。この情報はその後サーバーへと送信され、PDFやビデオファイルといった非構造化形式で保存されます。
これ以外の非構造化データの例としては、衛星写真、天気予報、病院患者の生体シグナルデータ、タグ付けやカタログ化して整理されていないデジタルカメラの画像などが挙げられます。非構造化データには、事前定義された組織的なフォーマットを行わずに、受動的に収集・送信されるという特徴があります。非構造化データは、大容量データセットの一部として活用し、理解することができれば、大まかな傾向の把握や予測モデルの構築に大変役立ちますが、ビジネス分析における検索や分析には向いていません。
構造化データは、ファイルや記録内の固定フィールドに標準的な形式で存在する整理された定量データのことで、最も一般的な例は数字やテキストベースのデータです。スプレッドシートやリレーショナル・データベースに含まれる情報が、構造化データの一般的な例です。整理されていることで、データを簡単に検索することができ、特定のデータや情報グループを見つけ出しやすくなります。
例えば農場で使用される農業用センサーは、水やりのタイミングや必要な水の量を判断するために、天候に関するRAWデータを収集します。このデータを構造化するためには、分類してフォーマット化する必要があります。このように構造化されたデータは、「時間帯」、「温度」、「湿度」などの見出しの付いた列を含むひとつの表として使用されます。このように構造化することで、検索、並べ替え、分析などが簡単に行えるようになります。
構造化データと非構造化データの主な違いは形式です。非構造化データは、PDF、ビデオ、あるいはセンサー出力など、ネイティブ形式で保存されます。一方で構造化データは、厳密に事前定義された形式、あるいは事前定義された説明的な記号を使って標準的な形式で保存されているため、表、スプレッドシート、リレーショナル・データベースなどに簡単に配置することができます。
非構造化データは多くの場合、さまざまな形式のRAWデータを保存するデータレイクと呼ばれる場所に保存されます。一方で構造化データは、事前定義された仕様にフォーマットされたデータだけを受け入れるリポジトリ、すなわちデータウェアハウスに保存されます。データレイクは非構造化データと場合によっては構造化データを保存する一方、データウェアハウスは整理・フォーマットされた構造化データだけを保存します。
データの保存場所がレイクであってもウェアハウスであっても、情報は何らかの形のデータベースに保存されることになります。主な違いは、構造化データはリレーショナル・データベースに保存される点です。ここでは、Structured Query Language (SQL)、PostgreSQL、MongoDBなどの組織化された形式を使って、行と列に分けてデータが保存されます。こうした形式により、構造化データはユーザーやマシンにとって検索、並べ替、作業しやすいものになります。一方で非構造化データは、NoSQLなどの非リレーショナル・データベースに保存されます。
これら2種類のデータは、分析の方法、さらには作業や操作に必要となるツールや人材も異なります。非構造化データは通常、データスタッキングやデータマイニングなど、メタデータを使った作業のために開発されたテクニックを使って分析を行い、より一般的な結論を導き出します。構造化データは、データ分類、クラスタリング、回帰分析など、より数学的な形式の分析を使用します。ツールやテクノロジに関しては、構造化データでは管理ツールや分析ツールを使用しやすくなります。構造化データを使った作業に用いられるツールには、以下のようなものがあります。
非構造化データの管理や分析には通常、さまざまな形式で保存された大容量のデータセットを使った作業に対応するソフトウェアが使用されます。非構造化データの管理に用いられるツールには、以下のようなものがあります。
多くの場合、構造化データよりも非構造化データのほうが、十分に訓練を受けた専門家や高度なAIや予測モデリング機能を搭載したソフトウェアツールが必要になります。非構造化データの分析に用いられる戦略のひとつに、機械学習があります。
構造化データはすでに分類・整理されているため、こうしたデータセットを使った作業に用いられるソフトウェアツールは、それほど専門性のないビジネスユーザーでもアクセスしやすいものになります。例えば多くの場合、データの入力、検索、クエリ、操作は、高度に組織化されたユーザーインターフェイスを介してセルフサービス形式で行われます。
非構造化データの活用方法の例として、予測モデリングにおけるIoTデバイスのセンサーデータの使用が挙げられます。例えば農業用センサーは、気候、農作物の状態、農業機器の機能などに関するデータを継続的に収集し、発信します。その後、AIツールがこのデータを分析し、予測モデルを構築することで、管理や意思決定を支援します。AIと機械学習を組み合わせて長期的なパターンを予測し、その後さらに分析を行うことでより正確なモデルを構築することが可能になります。
気候や農作物の成長パターンなどの非構造データを分析することで、自動装置が農作物に与えるべき水や養分の量を予測することができるようになります。その後、AIソフトウェアが自動分析を実行し、今後の農業管理にさらに役立つ予測モデルを構築します。こうした分析は、例えばセンサーから収集した農作物の成長や土壌養分のパターンなど、さまざまな形式の非構造データをふるいにかけてAIが認識したパターンをもとに行われます。
構造化データは、定量分析を伴う用途に用いられます。物流や在庫管理は、構造化データが効率アップや意思決定の強化に役立つ分野です。倉庫にある在庫は多くの場合、構造化データとして、列と行から成るリレーショナル・データベースで保存されています。このデータを在庫管理やビジネス分析のシステムとつなぎ合わせることで、ビジネスとデータ分析、どちらのユーザーにとっても役立つものにすることができます。ユーザーやユーザーが使用するソフトウェアツールは、特定の製品ラインの収益性、調達や出荷に関連する諸経費などの指標に高い価値を置くことができます。さらに企業は、定量化可能な情報をもとに意思決定を行えるようになります。
現時点では、これら2種類のデータの用途は、それぞれ異なります。非構造化データは、情報を収集するデバイスまたはソフトウェアが出力したままの状態のデータを指し、データは元の形式のままデータレイクに移されます。一方で構造化データは、数字やテキスト形式でまとめられたデータを指し、事前定義されたパラメータにもとづいて分類したり、編成/再編成したり、分析したりすることができます。今後AIやMLがさらに進化を遂げ、非構造化データのマイニング、分析、応用、即時利用を可能にする機能が登場することが予想されます。