Koninginneweg 8
1217 KX Hilversum
Onlangs heeft een groot deel van de Trigonus medewerkers een cursus Data Foundations mogen beleven. Aan Frederik Tijhuis de schone taak om een tiental medewerkers van divers pluimage (solution architecten, business analisten, consultants en projectmanagers) een rondleiding te geven door de wondere wereld van de Data. Een wereld die zich kenmerkt door buzzwords: van Big Data tot Predictive Analysis, Random Forests, Datamining, Hadoop clusters tot Deep Learning, om maar een paar te noemen. Wat opvalt is dat de overlap groot is, en veel terminologie ingegeven is door de klant zelf, dan wel de context waarbinnen deze opereert. Datzelfde geldt – in iets mindere mate – voor de sleutelrollen in dit speelveld: zowel data scientists, data analisten en data engineers, houden zich vaak op de één of andere wijze bezig met de basisfuncties binnen de dataketen: aggregeren, opslaan, analyse en presentatie.
Zo daalden we verder af van het bredere concept AI naar – specifieker – Machine Learning met de daarbij passende modellen, en daar weer binnen Deep Learning, waarbij neurale netwerken worden aangesproken om voorspellingen en besluitvorming te ondersteunen.
Machine Learning kent vele toepassingen: denk bijvoorbeeld aan iets eenvoudigs als een spamfilter, maar ook aan complexere modellen die marktontwikkelingen voorspellen of beeldverwerking toepassen om zelfstandig rijden mogelijk te maken. Al deze toepassingen hebben echter hetzelfde gemeen: ze gebruiken (veel) historische data om patronen te leren en die vervolgens toe te passen in de praktijk. Dat leren kan ‘supervised’ door middel van classificatie van, dan wel regressie op data, of ‘unsupervised’, door middel van bijvoorbeeld clustering of anomalie detectie.
Na het leerproces komt de fase van voorspellen: daar hebben we op cursusdag 2 in de praktijk mee mogen spelen. Zo hebben we met behulp van de tool RapidMiner data klaargezet, een model getraind en tevens gevalideerd. Hierna bleken we vrij snel in staat om op basis van een deugdelijke dataset een goede voorspelling te doen van de kwaliteit van diverse wijnen; een belangrijke skill voor de aankomende zomerperiode!
Al met al hebben we in enkele dagen zo een mooi overzicht gekregen van data in al zijn facetten, maar ook geleerd dat succes niet voor ieder data initiatief vanzelfsprekend is: veel hangt af van de kwaliteit en tijdigheid van de data, maar ook van bijvoorbeeld toegepaste classificaties en/of (het ontbreken) van de doelstelling zélf.
Een nuttige twee dagen, met dank aan onze enthousiaste docent Frederik!