Machine Learning/AI
Data collectie en transformatie is noodzakelijk
Het succes van machine learning hangt af van de hoeveelheid en het soort data en de beschikbare domeinkennis. Datavoorbereiding bepaalt dus het succes. En dat kost meer tijd dan men denkt.
Beschikbaar maken en verrijken van data
Voordat diepgaande analyse van data plaatsvindt, wordt de data eerst beschikbaar gemaakt. In een voor het gekozen model beschikbaar format, op een toegankelijke locatie. Van eenvoudige, komma gescheiden bestanden tot genormaliseerde (ster) schema’s in een data warehouse. Ook kan het zijn dat er nog verrijking plaats moet vinden op (een deel van) de data. Maar alleen als de data wordt gebruikt voor het trainen van zogenoemde ‘supervised’ machine learning modellen. Dit wordt ook wel ‘labelen’ genoemd. Dit kan geautomatiseerd, in geval van (gestructureerde) historische data. Of handmatig. Is dat geen optie, dan worden er ‘unsupervised learning’ algoritmes onderzocht. Zoals clustering, neurale netwerken of detectie van uitschieters.
Het trainen en testen van de modellen
Voor het trainen van de modellen is een ruime keuze aan technologieën en platforms beschikbaar. Om gebruik te maken van deze diversiteit werkt Virtual Sciences Conclusion met het Expertise Platform dat beschikt over een service adoption layer. Denk hierbij aan adapters voor IBM Watson, WEKA, Python en SPSS. Modellen worden automatisch getraind, getest en gedeployed mits aan ingestelde specificaties wordt voldaan. Zijn al deze stappen afgerond? Dan wordt de daadwerkelijke analyse uitgevoerd en de uitkomsten gecommuniceerd. Denk aan BI en services.
Onze thema's
Haal het maximale uit data
Laten we samen kijken hoe we jouw doelstellingen kunnen realiseren
David van Westendorp