Gestructureerde of ongestructureerde gegevens
In dit artikel bespreken we de twee soorten gegevens en de verschillende toepassingen. Ongestructureerde gegevens zijn de onbewerkte uitvoer van apparaten of software die informatie verzamelen die in het oorspronkelijke formaat naar data lakes wordt verplaatst. Gestructureerde gegevens zijn georganiseerd in een numerieke of tekstindeling en kunnen worden gecatalogiseerd, georganiseerd, gereorganiseerd en geanalyseerd binnen vooraf gedefinieerde parameters.
Met het oog op opslag, analyse en zakelijke besluitvorming worden gegevens op twee manieren geclassificeerd: gestructureerd en ongestructureerd. Het verschil tussen gestructureerd en ongestructureerd hangt af van het feit of de informatie al dan niet is georganiseerd met het oog op gegevensgebruik en -analyse.
Gestructureerde gegevens bestaan meestal uit duidelijk gedefinieerde informatie (zoals tekst en cijfers) die gemakkelijk kan worden doorzocht en onderhouden in of kan worden gevolgd via een goed georganiseerde tabel of database. Anderzijds komen ongestructureerde gegevens in verschillende bestands- of media-indelingen voor en zijn ze niet intrinsiek netjes gegroepeerd of geclassificeerd.
De verschillen tussen gestructureerde en ongestructureerde gegevens gaan echter verder dan de manier waarop de informatie wordt verzameld. Voor analysedoeleinden vereist elk een andere set technologische hulpmiddelen en analysemethoden die worden ingezet door gegevensprofessionals met uiteenlopende kennis en vaardigheden.
Organisaties zullen eerder geneigd zijn om meer gestructureerde gegevens te gebruiken dan ongestructureerde. Ongeveer 43% van alle gegevens die organisaties vastleggen, wordt niet gebruikt, wat een enorme onaangeboorde waarde vertegenwoordigt op het gebied van ongestructureerde gegevens. Beide gegevenstypen zijn echter waardevol en kunnen worden benut zolang organisaties begrijpen hoe deze typen van elkaar verschillen en welke capaciteiten nodig zijn om er gebruik van te maken..
Ongestructureerde gegevens zijn informatie in zijn onbewerkte vorm; ze bevinden zich vaak in of nabij de oorspronkelijke locatie waar ze worden verzameld, of in data lakes (relatief ongedifferentieerde gegevenspools). Omdat ze alle soorten onbewerkte gegevens vertegenwoordigen die worden verzameld, zelfs deze die niet zijn gecatalogiseerd of geanalyseerd, vertegenwoordigen ze enorme hoeveelheden potentiële waarde en vereisen ze daarom robuuste datacenter- en cloudarchitecturen die gegevensopslagsystemen met zeer hoge capaciteit inzetten.
Ongestructureerde gegevens belasten harde schijven dus intensief. De noodzaak om meer waarde te genereren door grote hoeveelheden ongestructureerde gegevens op een rendabele manier te bewaren, betekent dat er meer dan ooit vraag is naar opslagsystemen met massacapaciteit op basis van harde schijven - die aanzienlijke TCO-voordelen blijven bieden, aangezien de vooruitgang in HDD-technologie steeds hogere capaciteiten mogelijk blijft maken. De noodzaak om toegang te krijgen tot ongestructureerde gegevens in de buurt van de bron en deze indien nodig te verplaatsen naar diverse private en publieke clouddatacenters die voor verschillende doeleinden kunnen worden gebruikt, stimuleert ook de overstap van gesloten, bedrijfsgebonden en geïsoleerde IT-architecturen naar open, samenstelbare, hybride architecturen waar gegevens vrij en efficiënt door de gedistribueerde onderneming kunnen worden verplaatst.
Ongestructureerde informatie wordt ook wel kwalitatieve gegevens genoemd, wat betekent dat het gewoon informatie is die wordt waargenomen of vastgelegd. Internet of Things (IoT)-sensoren in een fabriek kunnen bijvoorbeeld gegevens verzamelen over de voortdurende prestaties van apparatuur. De informatie wordt vervolgens naar servers verzonden om te worden opgeslagen in een ongestructureerde indeling, zoals een PDF- en videobestand.
Andere voorbeelden van ongestructureerde gegevens zijn onder meer satellietfoto’s, weerberichten, biosignaalgegevens van patiënten in een ziekenhuis en beelden van digitale camera’s die nog niet op een georganiseerde manier zijn getagd of gecatalogiseerd.. De gemeenschappelijke noemer is dat gegevens passief worden verzameld en verzonden zonder vooraf gedefinieerde organisatorische indeling. Hoewel ongestructureerde gegevens zeer nuttig kunnen zijn bij het opsporen van grotere trends en het opstellen van voorspellende modellen nadat ze zijn beoordeeld en begrepen als onderdeel van een enorme gegevensset, is het lastig om ze vlot te doorzoeken en te analyseren met het oog op bedrijfsanalyses.
Gestructureerde gegevens zijn georganiseerde, kwantitatieve gegevens (meestal numerieke of op tekst gebaseerde gegevens) die een of andere standaardindeling hebben in een vast veld binnen een bestand of record. Informatie in spreadsheets of relationele databases zijn veelvoorkomende voorbeelden van gestructureerde gegevens. Deze organisatie maakt het eenvoudig om zoekopdrachten op de gegevens uit te voeren om te zoeken naar specifieke stukjes gegevens of groepen informatie.
Landbouwsensoren op een boerderij kunnen bijvoorbeeld onbewerkte weergegevens verzamelen om te bepalen wanneer gewassen moeten worden bewaterd en hoeveel water ze nodig hebben. Om de gegevens te structureren, moeten ze worden gecategoriseerd en ingedeeld. Dit type gegevens in een gestructureerde indeling kan eruitzien als een tabel met kolommen met de titels ‘tijd van de dag’, ‘temperatuur’ en ‘vochtigheid’. De structuur vergemakkelijkt zoeken, sorteren en analyseren.
Het belangrijkste verschil tussen gestructureerde en ongestructureerde gegevens is de indeling. Ongestructureerde gegevens worden opgeslagen in de oorspronkelijke indelingen, zoals een PDF-, video- of sensoruitvoer. Gestructureerde gegevens worden strikt gepresenteerd in een vooraf gedefinieerde vorm of met vooraf gedefinieerde aanduidingen die ze beschrijven, in een gestandaardiseerde indeling, zodat ze gemakkelijk in een tabel, spreadsheet of relationele database kunnen worden geplaatst.
Ongestructureerde gegevens bevinden zich vaak in een zogeheten data lake, dat in wezen een opslagplaats is die onbewerkte gegevens in verschillende indelingen opslaat. Gestructureerde gegevens bevinden zich in datawarehouses, opslagplaatsen die alleen gegevens accepteren die volgens vooraf gedefinieerde specificaties zijn opgemaakt. Een data lake is als een reservoir dat ongestructureerde gegevens opslaat en ook gestructureerde gegevens kan opslaan, terwijl een datawarehouse alleen georganiseerde en opgemaakte gestructureerde gegevens bevat.
Of de gegevens zich nu in een data lake of een datawarehouse bevinden, de informatie wordt opgeslagen in een of andere vorm van een database. Het belangrijkste verschil is dat gestructureerde gegevens worden opgeslagen in een relationele database, opgeslagen in rijen en kolommen met behulp van georganiseerde indelingen zoals Structured Query Language (SQL), PostgreSQL of MongoDB. Deze indelingen maken het voor gebruikers – of machines – veel gemakkelijker om gestructureerde gegevens te doorzoeken, te sorteren en te gebruiken. Ongestructureerde gegevens worden daarentegen opgeslagen in een niet-relationele database zoals NoSQL.
De twee soorten gegevens verschillen ook in de manier waarop ze kunnen worden geanalyseerd, alsook in de tools en het personeel dat nodig is om ermee te werken en ze te bewerken. Ongestructureerde gegevens worden doorgaans geanalyseerd met behulp van technieken zoals datastacking en datamining, die zijn ontwikkeld om met metagegevens te werken en tot meer algemene conclusies te komen. Als het gaat om gestructureerde gegevens, kunnen meer wiskundige vormen van analyse, zoals gegevensclassificatie, clustering en regressieanalyse, worden gebruikt. Wat tools en technologieën betreft, vergemakkelijken gestructureerde gegevens het gebruik van beheer- en analysetools. Voorbeelden van tools die worden gebruikt om met gestructureerde gegevens te werken zijn:
Voor het beheer en de analyse van ongestructureerde gegevens wordt doorgaans software gebruikt die kan werken met grote gegevenssets die uit meerdere indelingen bestaan. Voorbeelden van tools voor het beheer van ongestructureerde gegevens zijn:
Ongestructureerde gegevens vereisen vaak beheer door een goed opgeleide expert en softwaretools met meer geavanceerde AI en voorspellende modelleringsmogelijkheden dan deze die voor gestructureerde gegevens worden gebruikt. Machinaal leren (machine learning, ML) is een van de strategieën die worden gebruikt voor de analyse van ongestructureerde gegevens.
Omdat gestructureerde gegevens al zijn gesorteerd en georganiseerd, zijn de softwaretools die worden gebruikt om met deze gegevenssets te werken, beter toegankelijk voor niet-deskundige zakelijke gebruikers. Invoer, zoekopdrachten, query’s en bewerking van gegevens worden bijvoorbeeld vaak gedaan op een zelfbedieningsmanier vanuit een goed georganiseerde gebruikersinterface.
Een goed voorbeeld van hoe ongestructureerde gegevens kunnen worden gebruikt, is de manier waarop sensorgegevens van IoT-apparaten kunnen worden ingezet voor voorspellende modellering. Sensoren op bijvoorbeeld een boerderij verzamelen en verspreiden voortdurend gegevens over het weer, de gezondheid van gewassen en de werking van landbouwmachines. AI-tools kunnen vervolgens die gegevens analyseren en voorspellende modellen bouwen voor beter beheer en betere besluitvorming. AI met ML-mogelijkheden kan in de loop van de tijd van deze patronen leren en bij elke volgende analyse nauwkeurigere modellen produceren.
Ongestructureerde gegevens in de vorm van weers- en gewasgroeipatronen kunnen worden geanalyseerd om te voorspellen hoeveel water of voedingsstoffen de geautomatiseerde machines in de toekomst moeten geven. Vervolgens voert de AI-software een geautomatiseerde analyse uit en stelt een voorspellend model op om in de toekomst het bedrijfsbeheer beter te informeren. Deze analyse is gebaseerd op patronen die de AI herkent terwijl het ongestructureerde gegevens in meerdere indelingen doorzoekt, zoals patronen in gewasgroei en bodemvoeding die door sensoren worden verzameld.
Gestructureerde gegevens worden gebruikt in scenario’s met kwantitatieve analyse. Logistiek en voorraadbeheer zijn gebieden waarin gestructureerde gegevens nuttig zijn om efficiëntie en besluitvorming te verbeteren. De inventaris in een magazijn wordt doorgaans bijgehouden in de vorm van gestructureerde gegevens met kolommen en rijen in een relationele database. Deze gegevens kunnen vervolgens worden gekoppeld aan voorraadbeheer- of bedrijfsanalysesystemen om zowel zakelijke als data science-gebruikers te informeren. Gebruikers en hun softwaretools kunnen veel waarde hechten aan meetgegevens zoals de winstgevendheid van bepaalde productlijnen en de overhead die gepaard gaat met inkoop en verzending. Bedrijven kunnen dan beslissingen nemen op basis van kwantificeerbare uitvoer.
Tegenwoordig hebben de twee soorten gegevens verschillende toepassingen. Ongestructureerde gegevens zijn de onbewerkte uitvoer van apparaten of software die informatie verzamelen die in het oorspronkelijke formaat naar data lakes wordt verplaatst. Gestructureerde gegevens zijn georganiseerd in een numerieke of tekstindeling en kunnen worden gecatalogiseerd, georganiseerd, gereorganiseerd en geanalyseerd binnen vooraf bepaalde parameters. Naarmate AI en ML zich blijven ontwikkelen, zullen er waarschijnlijk nieuwe mogelijkheden ontstaan om ongestructureerde gegevens te ontginnen, analyseren, ervan te leren en er direct gebruik van te maken.