NieuwsConclusionConclusion AMISNieuwsSpark datajoy: Marie...

Spark datajoy: Marie Kondō’s lessen voor data-overdaad en data-engineering

Grote organisaties, zo wijst ons onderzoek uit, beschikken over gigantische datazeeën – maar vaak niet over de capaciteiten om daar (voldoende) waarde uit te halen. Hoe kunnen ze toe naar een datalandschap dat beheersbaarder is én meer waarde oplevert? Immers: weet je dankzij realtime data een superieure informatiepositie te creëren, dan levert dit een direct voordeel op. Wij hebben de zes lessen van opruimgoeroe Marie Kondō erop nageslagen en spiegelen deze aan de best practices op het gebied van data-engineering en dataplatforms.

24 oktober 2023 | Blog | Door: Conclusion AMIS

Deel

Spark datajoy: Marie Kondō’s lessen voor data-overdaad en data-engineering

Organisaties hamsteren massaal data

De conclusie van het onderzoek dat we recent hebben gehouden is duidelijk: grote organisaties hamsteren massaal data. Ze verzamelen en bewaren grote hoeveelheden gegevens zonder dat (precies) duidelijk is wat het doel daarvan is. Maar liefst twee derde van de organisaties (63%) verzamelt bijvoorbeeld bewust meer data dan zij momenteel gebruiken omdat deze gegevens in de toekomst van waarde zouden kunnen zijn.

Het wrange? Het bewaren en beschikbaar houden van grote hoeveelheden data kost niet alleen veel aan opslagcapaciteit, het leidt data-analisten ook nog eens af in hun werk. Idealiter zijn zij in staat om op basis van een superieure informatiepositie betere besluitvorming te faciliteren. Op ieder moment van de dag; op basis van actuele data. De realiteit? Bij veel organisaties moeten ze dagelijks hun weg zien te vinden in een oerwoud van irrelevante data. Met als uiteindelijke resultaat dat de data niet eens bruikbaar is omdat de actualiteit, de meetfrequentie of het detailniveau niet geschikt zijn voor de toepassing in kwestie.

Kondō: korte metten met data-overdaad

Data-pipelines die vastlopen, geen waarde uit data kunnen halen, hoge kosten, frustraties bij dataspecialisten, minder slagkracht en flexibiliteit: de gevolgen van data-overdaad liegen er niet om.

Gelukkig is er een uitweg: Marie Kondō. De opruimmethode KonMari van deze Japanse opruimgoeroe is weliswaar bedoeld voor woonhuizen, maar is evengoed van toepassing op je datalandschap. Met de volgende zes regels van Kondō komt een opgeruimd en beheersbaar datahuis binnen handbereik. In de lessen van deze opgeruimde influencer zien wij een link met de best practices op het gebied van data-engineering en dataplatforms.

Regel #1: pak data serieus aan

‘Commit yourself to tidying up’, zegt Kondō. Een succesvol initiatief om orde te scheppen in de datajanboel vereist commitment van het topmanagement. En dat blijkt uit het toekennen van de juiste middelen, methodiek, expertise en een adequaat budget. Als je serieus aan de slag wilt gaan met waarde halen uit data, dan moet je het beschikbaar krijgen van data ook serieus aanpakken. Tijdig opruimen scheelt bergen zoekwerk én voorkomt verkeerde conclusies.

Belangrijk is dat het management zich serieus committeert aan het werken met data. Naast een duidelijke datastrategie dient er ook voldoende budget te zijn voor een goed werkend dataplatform. Via data-engineering moet er een betrouwbaar en efficiënt dataplatform worden gebouwd dat een superieure informatiepositie geeft voor data-analisten en machine learning-specialisten. Alleen zo schep je de basis voor realtime inzichten waarmee je op ieder moment van de dag betere beslissingen kunt nemen.

Gedrevenheid en een professionele werkwijze kunnen voorkomen dat er onnodige data ontstaat. Focus op bruikbaarheid is daarbij altijd het uitgangspunt. Hiervoor kun je het datateam duidelijke en meetbare criteria meegeven, zoals ‘90 procent van de data is maximaal vier uur oud’, ‘alle datakoppelingen zijn 95 procent van de tijd beschikbaar’ en ‘minder dan 15 procent van de pipelines heeft overlappende databronnen’.

Regel #2: begin met het einddoel voor ogen

‘Imagine your ideal lifestyle’, dicteert Kondō. Oftewel: zonder duidelijke doelen heeft het opruimen geen zin. Voor data geldt dit net zo. Aan de hand van de bedrijfsdoelen, strategieën en (business)vragen die je wilt beantwoorden, leid je af wat voor informatie met welke mate van actualiteit je nodig hebt. Daarna stel je vast welke data daarvoor nodig is. Wat je dus vooral níét eerst moet doen? Grasduinen door de data en kijken wat er opvalt. Begin dus altijd met het einddoel voor ogen.

Hoe ziet jouw ideale datalandschap eruit? Het is belangrijk dat je strategie voor het verzamelen en analyseren van data aansluit bij de bedrijfsdoelen. Een van de belangrijkste bedrijfsdoelen is in de regel het verbeteren van de actuele informatiepositie van beslissers. Is het je strategie om meer op data te kunnen sturen? Dan moeten zowel het onderliggende dataplatform als de processen rondom data-engineering volledig gericht zijn op het verwerken van realtime data. En dat is iets heel anders dan het bijhouden van een datawarehouse.

Regel #3: maak keuzes in je dataplatform en deel de argumenten

‘Finish discarding first. Before getting rid of items, sincerely thank each item for serving its purpose’, luidt de derde regel. KonMari focust sterk op het wegdoen van items die je niet nodig hebt. Ook voor data is dit van toepassing: verwijder wat niet van belang is – liefst nog voordat het naar de cloud gaat. Gartner schat dat zo’n 80 tot 90 procent van de data van organisaties dark data (die dus niet wordt gebruikt om inzichten uit te verkrijgen) dan wel ‘ROT’ (=redundant, outdated of trivial) is. Veel bedrijven weten vaak niet eens welke data dark of ROT is en bewaren daarom alles.

Hoe schoon je de data op? Door dubbele, verouderde en irrelevante data te verwijderen. Dit is vaak een proces met meerdere iteraties om alle fouten en inconsistenties in de data te identificeren en corrigeren. Binnen dit proces helpen data-engineers om deze data in het vizier te krijgen en te reduceren.

Vervolgens moet je een langetermijnplan hebben om je datalandschap beheersbaar te houden. Dat kan via gepredefinieerd en geautomatiseerd beleid, waarbij data continu wordt opgeschoond. Bij het aanmaken van de data leg je vast wat het doel is en hoe lang je het gaat bewaren.

Valideer procesdata bij de voordeur door te controleren of het nauwkeurig, betrouwbaar en consistent is – en classificeer het meteen. Valideer niet eenmalig bij het bouwen. Nee: blijf valideren bij het gebruik. Toets of de data nog steeds binnenkomt én of de binnengehaalde data zinvol is. Moderne dataplatforms bieden dergelijke mogelijkheden, al worden ze nog niet altijd gebruikt. Meet je bijvoorbeeld de buitentemperatuur en komen er ’s winters opeens waardes van 35 graden binnen, dan komt deze data niet de drempel over.

Tot slot: meet periodiek de voortgang van je datastrategie en de omvang en kwaliteit van je data. En zorg dat er nieuwe opschoonacties komen op basis van de uitkomsten. Oftewel: ontplooi alle activiteiten die behoren tot het takenpakket van de moderne data-engineer.

Regel #4: bewerk data per domein, niet per systeem

‘Tidy by category, not location’, is de vierde regel van Kondō. Kondō propageert om niet per kast of ruimte op te ruimen, maar per categorie. Voor organisaties betekent dit dat je niet per vestiging, regio of systeem moet opschonen. Stel, de hele organisatie werkt met een gecentraliseerd IT-platform. Dan is het beter om eerst bijvoorbeeld alle dubbele producten op te schonen binnen de gehele organisatie, in plaats van per vestiging of regio alle dubbele gegevens te reduceren.

Opruimen per categorie helpt om data op een georganiseerde manier te analyseren, categoriseren en prioriteren. Het geeft ook een heel ander inzicht, aangezien in veel organisaties de gegevens van een specifieke categorie (zoals producten, klanten en orders) in meerdere systemen bestaan. Dit zijn de onderdelen die je in een goed dataplatform moet onderbrengen. Structureer je per categorie? Dan kun je duidelijke data-pipelines definiëren die een direct doel dienen. Data-analisten hoeven niet door een veelvoud van bronnen te grasduinen om de juiste gegevens te vinden. In plaats daarvan kunnen ze direct aan de slag. Net zoals je in een opgeruimd huis meteen kunt doen wat je van plan bent.

Regel #5: begin op de juiste plek

‘Follow the right order’, luidt les nummer vijf. Binnen een complex en divers datalandschap helpt het, voordat je gaat nadenken over complexe algoritmes, om te starten met de beschikbaarheid en actualiteit van de data. Over deze onderdelen is weinig discussie: het zijn noodzakelijke fundamenten voor het creëren van waarde. Daarentegen leveren algoritmes ter ondersteuning van automatische realtime besluitvorming over het algemeen juist wél veel discussie op. Heb je de basis al op orde? Dan kan deze discussie veel duidelijker gevoerd worden. Zonder dat je wordt afgeleid door de juistheid van de data.

Regel #6: levert het waarde of plezier op

‘Ask yourself if it sparks joy’, is Kondō’s laatste les. Plezier klinkt misschien niet als het beste criterium voor het werken met data. In plaats daarvan zou je kunnen zeggen dat het analytische waarde moet hebben. Door het inzetten van data-engineering en de juiste dataplatforms kan iedereen in de organisatie doen waar hij of zij goed in is. Er moet altijd voldoende vertrouwen zijn dat de andere teams meetbare data van de juiste kwaliteit opleveren. Werken je dataspecialisten met data waar ze meer waarde uit kunnen halen? Dan leidt dit absoluut tot meer werkplezier. En dus is waarde joy.

Bewaren of niet: that’s the question

Data bewaren voor toekomstig gebruik kan interessant zijn. Met meer historische data kun je bijvoorbeeld bedrijfsprocessen verbeteren, klantinzichten verbreden, nieuwe dataproducten ontwikkelen of een steviger fundament leggen voor voorspellende analyses.

Op papier. Want wij zien dat gegevens die bij onze klanten op de plank liggen, later vaak onbruikbaar zijn om alsnog in te zetten. Bijvoorbeeld omdat ze te onvolledig, ongedetailleerd of beperkt qua verversfrequentie zijn.

Ons advies? Werk vanuit de best practices van data-engineering en dataplatforms. Zorg dat de verwerking en traceerbaarheid van je data goed functioneert en resulteert in bruikbare dataproducten. Staat je dataproduct eenmaal? Hanteer dan een strikt weggooiregime. Is je dienst nog in ontwikkeling, bewaar dan juist wat meer data. Zo houd je de ruimte om hypotheses te toetsen en causale relaties te onderzoeken.

Wees vooral niet bang om data die je niet direct kunt plaatsen, weg te gooien. Of stop het bij wijze van spreken in een doos, schrijf er een houdbaarheidsdatum op en zet het op zolder. Is de datum verstreken en heb je er nooit meer naar gekeken? Dan kan het de prullenbak in.