Analyseren en Visualiseren van Time Series

-

30 augustus 2019   |   Nieuws   |   Door: AMIS Conclusion

Deel

Meetup foto Time Series Data Analytics AMIS

Veel belangrijke data is of kan worden beschouwd als time series data. Van metingen van verkeersdrukte of bloeddruk tot weercondities, geluidsfragmenten, waterstanden en de locatie van je favoriete postduif. In Data Analytics zijn allerlei technieken voor het visualiseren van het verloop van signalen. We gaan met Jupyter Notebooks, Python en de Plotly visualisatie library aan de slag om mooie, effectieve visualisaties te maken. We doen dat ondermeer voor etappes in de Tour de France 2019, op basis van Strava data die door coureurs zelf zijn gepubliceerd. Uiteraard besteden we eerst aandacht aan het verkrijgen, laden en wranglen van deze data voor we tot de visualisaties komen.

  • Datum: Donderdag 12 september 2019
  • Tijd: 17:00-21:00 (incl. diner)
  • Locatie: Conclusion Nieuwegein (Edisonbaan 15), Marconi zaal
  • Spreker: Lucas Jellema
  • Voorkennis: Enige ervaring met Python en/of Jupyter Notebooks is meegenomen, maar is niet noodzakelijk
  • Meebrengen: Laptop met de mogelijkheid om een Docker container te draaien (of toegang tot een cloud-omgeving waar je dat kan doen)

Meer informatie? Scroll naar beneden! 

Wat kan je verwachten

Time Series bevatten vaak trends, periodieke effecten (lange termijn – seasonality - en korte termijn – variatie per uur of per dag). We gaan met verschillende algoritmes aan de slag om deze periodieke effecten te vinden en hun frequentie te bepalen. Deze informatie gebruiken we om data sets te begrijpen, afhankelijkheden tussen signalen te constateren en voorspellingen te doen. We kijken onder andere naar Twittergedrag van bekende mensen en mogelijk bots.

Meer geavanceerde en recent ontwikkelde algoritmes zijn beschikbaar om signalen en data series met elkaar te vergelijken en vast te stellen of ze op elkaar lijken. We gebruiken onder andere Symbolic Representation (SAX) en Matrix Profile om van grote data series in acceptabele doorlooptijden te achterhalen welke lijken op elkaar en welke herhalende patronen de series bevatten. We kijken naar het herkennen van de taal van een document door naar de frequentie van letter-voorkomens te kijken, en we gaan een op basis van een snippet van een data serie (hoogte-registratie) uitzoeken op welke referentie-serie dit snippet het meest lijkt.

De sessie is een combinatie van presentatie en demonstratie gevolgd door stukken hands-on. Alle sources zijn beschikbaar in GitHub en er is een Docker Container Image met daarin de omgeving met Jupyter Lab/Notebook, Python 3.7, Anaconda, Plotly en overige libraries. Je kunt de container draaien op je laptop of op een cloud-omgeving – daar ben je zelf voor verantwoordelijk.

Enige ervaring met data-manipulatie en het gebruik van Jupyter Notebooks en Python is meegenomen, maar niet noodzakelijk om waarde te halen uit deze sessie.

Time Series AMIS Meetup Data Analytics