Verdrink niet in je datalake, maak van data een bron van waarde
Grote organisaties, zo blijkt uit een onderzoek dat AMIS Conclusion recent heeft laten verrichten, hebben grote moeite om waarde uit data te halen en hun datalandschap effectief en beheersbaar te houden. De oplossing ligt niet (alleen) in het implementeren van een datalake. Belangrijk is onder andere om data-engineering aan te pakken als software-engineering, stelt Head of Strategy Robbrecht van Amerongen.
16 juni 2023 | Blog | Door: AMIS Conclusion
Deel
Data te complex geworden
De IT is te complex geworden, bleek uit een onderzoek dat wij in 2020 hebben gehouden. In het voorjaar van 2023 hebben we het onderzoek herhaald, maar dan voor data. Simpel gesteld is de conclusie hetzelfde: data is te ingewikkeld geworden. De ondervraagde organisaties kampen met tal van uitdagingen op het gebied van data-overdaad, data-engineering en dataplatformen.
Data is als water: het is vitaal voor organisaties. Maar in plaats van dat ze dankzij water groeien als kool, suggereert het onderzoek eerder dat organisaties verdwalen in de datazeeën of zelfs verdrinken in hun eigen datalake.
Dataworstelingen in cijfers
Enkele opmerkelijke uitkomsten uit het onderzoek onder 150 digital leaders bij grote organisaties:
- 39 procent oordeelt dat de bijdrage van de data aan de bedrijfsdoelstellingen groter is dan de kosten.
- 12 procent stelt dat de verzamelde data in het geheel niet van waarde is voor de organisatie.
- 42 procent komt niet altijd tot de benodigde inzichten door de immense hoeveelheid data die men heeft.
- 40 procent weet niet (precies) wat de kwaliteit en herkomst van de data is.
- 27 procent zegt dat er niet altijd toegang is tot de verzamelde data en 31 procent dat domeinexperts en data-scientists data niet snel genoeg voorhanden hebben.
- 38 procent van de data wordt niet benut.
De conclusie is duidelijk: data verzamelen is geen probleem. Op een betrouwbare manier beschikken over actuele en adequate data en daar vervolgens bruikbare informatie uithalen om beslissingen op te baseren wél.
Oorzaken
Een belangrijke oorzaak is natuurlijk de gigantische zee aan gegevens die organisaties verzamelen. Denk met name aan video- en audiobestanden, externe data en ruwe IoT-data. Ter illustratie: 90 procent van alle digitale data wereldwijd is de afgelopen paar jaar geproduceerd.
Organisaties hebben bovendien vaak hun praktijken voor data-governance en data-engineering niet op orde en zijn bang om data weg te gooien. Plus: ze beschikken veelal niet over voldoende capaciteit en een geautomatiseerde aanpak via een dataplatform om data voor te bereiden en tot kant-en-klare dataproducten te verwerken. En daardoor stapelt de onverwerkte data zich op.
Analysis paralysis en andere nadelige gevolgen
Dit soort dataworstelingen kunnen serieuze gevolgen hebben voor organisaties. Zoals het verstoppen van je datalake en het vastlopen van je dataprocessen. Is de data zo gebrekkig van kwaliteit en structuur en zo overdadig qua volume dat het lastig is om voortgang te boeken of überhaupt tot waarde uit de data te komen? Dan spreken we van analysis paralysis.
In het onderzoek gaf 40 procent van de respondenten aan dat niet volledig duidelijk is wat de herkomst en kwaliteit van de data is. Zorgelijk, aangezien steeds meer beslissingen op data worden gebaseerd. De herkomst, de traceerbaarheid en het juiste meetmoment zijn cruciale pijlers voor datagedreven werken. Datascientists en machine learning-specialisten moeten immers te allen tijde kunnen vertrouwen op de juistheid van de dataproducten waarmee ze werken.
Maar ook de beschikbaarheid en verversfrequentie van dataproducten – die tot nu toe vooral voor analyses tijdens kantooruren gebruikt worden – moet omhoog. Deze producten worden immers continu voor realtime besluitvorming ingezet. Traditionele datawarehouses en datalakes ondersteunen realtime besluitvorming minder goed omdat ze traditioneel zijn ingericht op batchgewijze verversing.
Tot slot kunnen de problemen op het vlak van data-engineering en dataplatforms leiden tot hoge kosten, compliance-risico’s en een gebrek aan slagkracht en flexibiliteit.
Datalake is geen magische doos
Om een misverstand uit de wereld te helpen: dit soort problemen los je niet op door simpelweg een datalake te implementeren. Dat is geen magische doos waar je alles in kunt gooien en die een zee aan ongestructureerde data 1-2-3 omtovert tot bruikbare informatie. De kwaliteit en relevantie van de data, de skills van de data-engineer en de overige tools die worden gebruikt zijn minstens zo belangrijk als het datalake zelf.
Data-engineering als software-engineering
Het verzamelen en verwerken van data op een ongestructureerde en onvoldoende doordachte manier levert dus problemen op. Een compleet andere aanpak is nodig. Centraal daarbij staat het ontsluiten, integreren, opschonen en beschikbaar houden van data en het ontwikkelen van waardevolle dataproducten op basis van betrouwbare en actuele data. Dit is een competentie die over het algemeen niet bij data-scientists aanwezig is omdat zij als uitgangspunt hebben dat de data ‘er voor ze is’.
Wij adviseren organisaties daarom om voor data-engineering dezelfde principes toe te passen als voor software-engineering. Door goede software-engineeringpraktijken te volgen, zorg je ervoor dat zowel de gegevens als de dataproducten consistent en betrouwbaar zijn.
De belangrijkste uitgangspunten daarbij zijn kwaliteit, betrouwbaarheid, herhaalbaarheid, traceerbaarheid en onderhoudbaarheid. Daarnaast zijn een lage fouttolerantie, een hoge frequentie, goede governance, accurate monitoring, continu testen en een volledig geautomatiseerd proces van belang.
Randvoorwaardelijk voor datasucces zijn overigens ook volledige ondersteuning van het senior management en investeringen in zowel goede dataproducten als nieuwe competenties binnen het datateam.
Just-enough, just-in-time
Wat verder belangrijk is: pas de strategieën van just-enough en just-in-time toe. Dat betekent dat je alleen noodzakelijke data opslaat respectievelijk dat je gegevens pas verwerkt op het moment dat ze relevant zijn. Op deze manier optimaliseer je het beheer van je data door onnodige opslag en verwerking te verminderen.
Stel, je bent een grote hamburgerketen en verzamelt IoT-data van al je koelkasten. Ieder uur registreren die de temperatuur, waarbij realtime een signaal naar de manager wordt gestuurd als de temperatuur boven de 5 graden komt. Na een paar dagen wil je voor je rapportage alleen nog weten welke koelkasten over langere tijd wel en niet goed functioneren. Daarvoor hoef je alleen maar bij te houden of ze boven een bepaalde temperatuur zijn geweest. In plaats van alle uurwaardes te behouden, kun je voor deze rapportage ook alleen de gemiddelde temperatuur en de minimum- en maximumtemperatuur per dag bewaren.
Van data je bron van waarde maken
Heb je je data-engineering naar een hoger plan getild en beschik je over een volwassen dataplatform? Dan maak je van data een bron van waarde. Je data-scientists kunnen dan sneller en effectiever dataproducten bouwen, je digitale slagkracht en wendbaarheid vergroten, meer flexibiliteit creëren én je datalandschap overzichtelijker, beheersbaarder, consistenter, betrouwbaarder en vooral effectiever maken. Van het verouderde datawarehouse-gebaseerde business intelligence kun je toegaan naar direct ingrijpen op basis van realtime informatie of zelfs het ontwikkelen van voorspellende modellen. Voor deze realtime besluitvorming is betrouwbare en actuele data essentieel.
Onze aanbevelingen
In het onderzoeksrapport geven we hiervoor negen aanbevelingen, die kort samengevat hierop neerkomen:
- Begin achteraan en stel duidelijke strategieën en doelen op
- Start klein en werk stapje voor stapje
- Teamwork makes the datadream work
- Datamesh als web van (domein)specialisten
- Datakwaliteit: deurmat ervoor en bezem erdoor
- Beheersbaar, herhaalbaar, betrouwbaar
- Technologie is slechts een enabler
- Wees voorzichtig met data op de plank
- Houd het simpel.
Wil je meer lezen over de onderzoeksresultaten en ontdekken wat onze aanbevelingen precies inhouden? Download dan het onderzoeksrapport Van data-overdaad naar just-enough en just-in-time.