Spitten in data
Volgens Ochse van Virtual Sciences en Koopmans van DIKW bieden de hedendaagse data-analyticstechnieken vooral veel meer flexibiliteit en maken ze het mogelijk om ICT-oplossingen veel sneller dan voorheen te ontwikkelen.
13 januari 2017 | Blog | Door: Virtual Sciences Conclusion
Deel
'Big data’ is een van de buzzwords in het hedendaagse bedrijfsleven. Steeds meer ondernemingen slaan grote hoeveelheden data op, in de hoop daar vroeg of laat hun voordeel mee te kunnen doen. Bedrijven die er klaar voor zijn, kunnen op basis van de hedendaagse data-analyticstechnieken compleet nieuwe businessmodellen ontwikkelen, aldus dataspecialisten Frenk Ochse en Hugo Koopmans. Maar voor veel organisaties blijkt de status quo van de ICT-infrastructuur vooralsnog een sta-in-de-weg.
Het gesprek vindt plaats bij Conclusion, waarvan het mede door Frenk Ochse opgerichte Virtual Sciences inmiddels een zelfstandige werkmaatschappij is. De plek is ook voor chief data scientist Hugo Koopmans bekend: zijn bureau DIKW is een vaste partner van Conclusion en wordt geregeld ingehuurd voor datagerelateerde opdrachten.
Het begrip ‘big data’ verwijst om te beginnen naar wat Ochse en Koopmans de ‘3 V’s’ noemen. Koopmans: “We slaan al dertig jaar allerlei data elektronisch op, maar wat er vandaag de dag gebeurt onderscheidt zich op de parameters Volume, Variety en Velocity. Ofwel: het gaat om heel veel data, van een zeer uiteenlopende variëteit, die bovendien ‘streaming’ worden gegenereerd. Een tweede verschil is dat we voorheen alles opsloegen in een zogeheten relationele database met tabellen en kolommen, zeg maar hier een tekstveldje en daar een getalletje. Vandaag de dag ziet een database er min of meer uit als een enorme bak, een ‘data lake’ waarin allerlei soorten data zijn opgeslagen. Het maakt dus niet uit of het tekstbestanden zijn, pdf’s, e-mails, video’s, geluidsbestanden of interserverberichten – we bepalen pas achteraf welke criteria we daarop loslaten om het ‘actionable’ ofwel bruikbaar te maken.”
Een valkuil van big data is dat je verkeerde inzichten ontsluit. Bij heel grote hoeveelheden data is er namelijk altijd wel sprake van correlaties.
Ochse zegt om die reden liever over ‘big data analytics’ te spreken dan sec over ‘big data’. Hij zegt: “Je kunt wel alles opslaan, maar informatie als zodanig is niets, tenzij je er een betekenis aan geeft. Ofwel: de storage is een voorwaarde, maar de analytics brengen de meerwaarde. Wat overigens niet veranderd is, is dat kennis van de sleutelprocessen van de klant nog steeds essentieel is. Dus je hebt nu wel veel meer verschillende data, maar je moet nog net als vroeger uitmaken wat relevant is en welke inzichten je ermee kunt ontsluiten. Dan pas kun je echt wat gaan doen met big data.”
Koopmans: “Klopt. Daarbij is een valkuil van big data dat je verkeerde inzichten ontsluit. Bij heel grote hoeveelheden data is er namelijk altijd wel sprake van correlaties. Er zijn daarvan heel mooie voorbeelden te vinden op internet – dan blijkt er gedurende een bepaalde periode een aantoonbare correlatie te zijn tussen het aantal mensen dat verdrinkt in een zwembad en het aantal films waarin Nicolas Cage een rol speelt, om maar wat te noemen. Als data-analist ben je echter op zoek naar causaliteit, niet naar correlaties.”
Extreem krachtig
Volgens Ochse en Koopmans bieden de hedendaagse data-analyticstechnieken vooral veel meer flexibiliteit en maken ze het mogelijk om ICT-oplossingen veel sneller dan voorheen te ontwikkelen. Zo bouwde DIKW voor DHL Parcel Benelux een compleet nieuw track-and-tracesysteem in slechts tien weken tijd, volledig getest en in productie genomen. Koopmans: “Dat is echt heel erg snel, als je bedenkt om hoeveel miljoenen pakketjes het gaat en om hoeveel statusupdates. De gemiddelde responstijd voor klanten die de status van hun pakketbezorging willen bekijken ligt in het nieuwe systeem onder de tweehonderd milliseconden, dus zeg maar dat ze realtime inzicht kunnen bieden. Dat zou allemaal niet mogelijk zijn geweest met een traditionele database.”
Een andere belangrijke technologische ontwikkeling die gelijk opgaat met de beschikbaarheid van big data is die van de zoektechnologie. “Daarmee kun je door enorme hoeveelheden gegevens spitten, waarbij het niet uitmaakt wat voor soort gegevens het zijn en waar ze staan – al zijn ze verspreid over honderden servers, zoals in de cloud”, zegt Koopmans. “Dat maakt de mogelijkheden extreem krachtig. Om een voorbeeld te geven: we werden op een zeker moment benaderd door een groot offshorebedrijf dat zó snel gegroeid was dat ze bij het bemannen van hun projecten niet meer wisten waar welke kennis zat.
"Een bedrijf als Booking.com experimenteert permanent en optimaliseert zijn dienstverlening voortdurend aan de hand van de uitkomsten"
We hebben toen alle data van tienduizend medewerkers van de afgelopen vijf jaar die op het intranet stonden geanalyseerd – van e-mails tot PowerPoint-presentaties en van vergadernotulen tot milieueffect-rapportages. Op die manier konden we zien wat de bijdrage van het individu aan het grotere geheel is, en vooral: waar de echte kennis zit. Wie publiceert inhoudelijk rijke content? Wie stuurt e-mails alleen maar door, en wie beantwoordt ze echt inhoudelijk? Enzovoorts. Uiteindelijk konden we een Google-achtige applicatie opleveren die op basis van een willekeurige vraag een lijst met experts genereert binnen de organisatie. En dan niet op basis van wat er in hun officiële cv staat, maar op basis van hun concrete bijdrage aan de organisatie.”
Experimentele wetenschap
Tegelijkertijd, zegt Ochse, zijn heel veel bedrijven absoluut nog niet toe aan de mogelijkheden die big data analytics biedt. Ze beschikken over een verouderde IT-infrastructuur, met als gevolg dat er overal schotten staan tussen de beschikbare data en nieuwe, externe databronnen niet geïntegreerd kunnen worden. Ochse: “Bij Virtual Sciences houden we ons vooral met die problematiek bezig: hoe breng je in een onderneming waar alles stroperig is, de dynamiek weer terug? Wij ontwikkelen alternatieve manieren om bepaalde data te ontsluiten, bestaande databronnen te ‘blenden’ of te verrijken met nieuwe, externe data. Of we ontwikkelen bepaalde filters, zodat er relevante datasets ontstaan die bepaalde bedrijfsprocessen kunnen versnellen of forecasting mogelijk maken. Dat heeft niet direct met big data analytics van doen, al gebruiken we wel dezelfde technieken.”
Volgens de dataspecialisten zijn het dan ook vooral nieuwe ondernemingen die het potentieel van big data ten volle kunnen uitbuiten. “Grote organisaties zoals banken experimenteren er wel mee, maar zetten dit soort activiteiten in een aparte kraamkamer buiten de bestaande organisatie”, aldus Ochse. “Dan heb je geen last van legacy en eventuele bedrijfsculturele barrières. Hoe traditioneler de omgeving, hoe lastiger het wordt.”
Koopmans: “Kijk bijvoorbeeld naar een nieuwkomer als Booking.com. Dat bedrijf doet meer dan duizend experimenten per dag: het is één en dezelfde website, maar ze veranderen bij groepjes individuele bezoekers steeds een kleurtje, of een knopje, of de plek waar iets staat … ze experimenteren permanent en optimaliseren hun dienstverlening aan de hand van de uitkomsten. Theoretisch modelleren wordt steeds minder interessant. En marketing wordt meer en meer een experimentele wetenschap.”
Digitaal aura
Er zijn aan het gebruik van grote hoeveel-heden data ook risico’s verbonden, zeggen Koopmans en Ochse. “De vraag hoe we die data ook goed beveiligen wordt steeds prangender”, zegt Ochse. “Daarbij hebben ook algoritmes last van zoiets als een normaalverdeling: ze kunnen goed overweg met de mainstream, maar hebben meer moeite met de uitzonderingen. Daarom kan een volstrekt onschuldig, maar misschien ietwat onhandig geformuleerd mailtje ineens aangemerkt worden als ‘potentieel terroristisch’, met alle gevolgen van dien. Er is geen techniek die geen keerzijde heeft.”
En dan zijn er natuurlijk ook nog de ethische aspecten, want het is de vraag of alles wat kan, ook gewenst is. Koopmans: “Vanaf 2017 worden alle nieuwe auto’s met een online airbag geleverd. Die vangt niet alleen de klap op bij een botsing, maar stuurt ook direct een berichtje: ‘auto gebotst, daar en daar, reed zo hard.’ Nuttig voor de hulpdiensten, interessant voor de politie, maar je voelt ’m al: zo’n airbag kan bij wijze van spreken de hele gebruikshistorie van die auto doorsturen en dan wordt het óók interessant voor de schadeverzekeraar. De vraag is: willen we die kant op, enkel omdat het kan?”
Zeker in een tijd waarin nagenoeg elke consument over een ‘digitaal aura’ beschikt (mobiele devices leggen namelijk permanent contact met zendmasten en wifinetwerken) is heel veel persoonlijke informatie relatief eenvoudig te vergaren en te combineren. Ochse: “Het Internet of Things en de doorbraak van drones zullen dat alleen maar versterken. Dáár liggen voor ons data scientists straks de grote uitdagingen. Het goede mogelijk maken, maar misbruik tegengaan.”