Masterclass 2: Data VErwerving en Verwerking

De volgende stap is data. Verwerving en vooral voorbereiding. We gaan het hebben over het koppelen en voorbereiden van je data zodat je in de volgende stap goed je analyses kunt doen en visualisaties kunt maken. Data verwerven en voorbereiden kost tijd. Met name het voorbereiden van data. Data Wrangling zoals het ook wel genoemd wordt - het temmen van je data neemt soms tot wel 80% van de totale tijd van een data & analyseproject in beslag. Sneller en efficiënter worden in deze stap kan dus véél tijdwinst opleveren. We gaan op zoek naar manieren om dat te laten lukken. Kijk eerst de introductie - daarna aan de slag met het lesplan. Tot donderdag!

Datakwaliteit

Kijk om te beginnen eens naar onderstaande video’s. Doe daarna opdracht 1.

Video 1: een voorbeeld van een grafiek die je recent vast regelmatig langs zien komen.

Dashboards en mooie visualisaties bevredigen vaak een behoefte aan inzicht en informatie. Nieuwsgierigheid wint het al snel van een kritische blik en eventuele voetnoten met nuances. Je draagt als data-analist een flinke verantwoordelijkheid.


Video 2: een klassieker op het gebied van visualiseren met data.

Ja dit was 14 jaar geleden. Het laat nog steeds zien hoe je een meeslepend verhaal kunt vertellen met data. Dus ook alvast inspiratie voor Masterclass 8 - Adviseren met data. Je kunt als je het leuk vindt en zin hebt in afleiding … ook zelf spelen met de visualisaties die Hans Rosling laat zien op de website https://www.gapminder.org/tools/

Opdracht 1:

Als je beide video’s gezien hebt weet je natuurlijk welke van de twee visualisaties gebaseerd is op goede en welke op slechte data. Hans Rosling behandelt in zijn video een voorbeeld van een overtuiging over eerste en derde wereldlanden die met behulp van data goed te nuanceren blijkt. Ook al wil dat niet zeggen dat de overtuiging daarmee de wereld uit is.

Beantwoord deze vragen en post de antwoorden op Teams:

1. Verwacht je dat je met goede data en goed onderzoek bestaande meningen en stereotypen kunt veranderen?

2. Betoog ten eerste waarom goed onderzoek wél helpt.

3. Betoog ten tweede waarom goed onderzoek níet helpt.

4. Conclusie: waarom moet je het tóch doen?

5. Bekijk de beantwoording van tenminste één andere deelnemer en laat weten wat je er sterk aan vindt en wat je er zelf van geleerd hebt.

DAtafouten

Met goede data kun je goede analyses doen en goed advies geven. Met slechte data kun je nog steeds analyses doen en ook advies geven … het wordt alleen geen zeker geen goed advies. Eerste onderwerp dat we behandelen om je te helpen efficiënt te worden in het opsporen en verhelpen van datafouten zijn drie typen datafouten.

Fout Oorsprong Hoe te vinden?
Datatypes fout Ontstaat vaak tijdens invoeren of automatisch inlezen van de data. Excel kiest soms automatisch voor een datatype dat niet klopt. In PowerBI door bij het inlezen van de data de kolommen met datatypen na te lopen. Er is een goed werkende autodetect functionaliteit. Tutorial volgt!
Onmogelijke waarden Ontstaat over het algemeen bij invoer van de data. Vooraf goed nadenken over: de range of soorten waarden die kunnen voorkomen.
Maak een visualisatie die het makkelijker maakt om data visueel te inspecteren.
  • Bij tekst: in een lange lijst met namen, postcodes en plaatsnamen zijn de waarden die maar één keer voorkomen een goede lijst om langs te lopen. - zie ook hoe discrete outliers te vinden hieronder
  • Bij getallen:
    • Bij discrete waarden (waarden die je kunt tellen): frequentietabel of staafdiagram
    • Bij waarden op een continue schaal: Een scatterplot met min/max lijnen of gefilterd op waarden die buiten de te verwachten minimale en maximale waarden vallen.
Outliers Allerlei oorzaken - hoeft geen fout te zijn; doorgaans gewoon vrij uniek persoon/observatie Meerdere opties:
  • Als discreet (kun je tellen):
    Cross tab - speciale vorm van draaitabel(Excel) of Matrix visualisatie (PowerBI) waarbij je de frequenties van twee variabelen met elkaar vergelijkt
  • Bij waarden op een continue schaal:
    Scatterplot, scattermatrix of outlierstatistiek (dit is geen onderdeel van het Masterclassprogramma) - tijd om hulp in te gaan schakelen!

In het Webinar zullen we op zoek gaan naar een aantal van bovenstaande fouten in een grote set trainingsdata. Daar ga je PowerBI voor nodig hebben dus zorg dat je in ieder geval de Desktopversie geïnstalleerd hebt.

Waar we met name aandacht aan zullen besteden: hoe voorkom je deze fouten en hoe los je ze op?

Optionele verdieping

Dit is géén verplichte stof! Mocht je geïnteresseerd zijn in een aantal van bovenstaand begrippen en in het geval van het vinden van outliers in PowerBI - een paar video’s die je op weg kunnen helpen:

Havo/VWO uitleg frequentietabellen: https://www.youtube.com/watch?v=_MY2U7VZj5M

Havo/VWO uitleg kruistabellen: https://www.youtube.com/watch?v=EhdmUadqdrM

Outlier detectie in PowerBI: https://www.youtube.com/watch?v=3L_P86q5564

Data-rollen

Rond het onderwerp data & analyse vind je in elke organisatie een aantal rollen. Samen zorgen ze ervoor dat Data & Analyse mogelijk is. Let wel - het zijn rollen en géén functies. Goede kans dus dat één persoon meerdere van deze rollen heeft. Zeker natuurlijk in kleinere organisaties. Daarbij - de rollen worden nu misschien nog niet goed ingevuld. De tijd of competenties kunnen ontbreken. De rollen alvast op een rijtje:

  • Data Engineer: Focus op Techniek en op beschikbaarheid van data voor bedrijfsprocessen én voor analyse - bedenkt de inrichting van de software en infrastructuur die ervoor zorgt dat data opgeslagen, bewerkt, beschikbaar gesteld en verwijderd kan worden.

  • Data Scientist: Focus op Techniek en op Analyse van data - Techniek bij de data scientist gaat over statistiek en het gebruik van software om analyses te kunnen uitvoeren, modellen te kunnen bouwen en die gebruiksklaar op te leveren aan de Data Engineer.

  • Data Steward: Focus op Business en op beschikbaarheid van data voor bedrijfsprocessen én voor analyse - bepaalt bijvoorbeeld de eisen die de organisatie stelt aan data en dataverwerking.

  • Data Analist: Focus op Business en op Analyse van data - geeft antwoord op vragen van de business en maakt gebruik van de data die door de Data Engineer beschikbaar wordt gesteld, de Datasets, expertise en modellen die door de DataScientist beschikbaar wordt gesteld en heeft een goede relatie met de Data Steward over bijvoorbeeld de kwaliteit van de data of aanvullende gewenste data.

Opdracht 2: datarollen

Ga eens op onderzoek in je eigen organisatie:

1. Welk van deze rollen heb jij?

2. Welk van deze rollen wordt binnen jullie organisatie door anderen ingevuld?

3. Welk van deze rollen wordt vervuld door partijen buiten jullie organisatie?

4. Beschikken jullie samen over alle kennis en vaardigheden om de rollen (op basisniveau) uit te kunnen voeren?

5. Hoe beoordeel je de samenwerking tussen elk van deze rollen nu? Wordt er bijvoorbeeld al actief samengewerkt op het onderwerp data & analyse?

Post de antwoorden op deze vragen binnen je Breakoutgroep en plan een afspraak om die te bespreken. Het bespreken met je Breakoutgroep hoeft níet vóór het webinar. Doe dat bijvoorbeeld de dag of week erna.

Deze vragen zullen we tijdens de webinar verder op in gaan. Daarbij geven we extra toelichting op elk van de rollen en de kennis en vaardigheden waarover een persoon met die rol zou moeten beschikken. Belangrijkste doel van deze oefening is bekend te raken met veelvoorkomende data termen en het voorbereiden op de hulpvraag: bij wie moet je straks zijn binnen - of buiten - je organisatie zijn voor hulp.

Je eigen case

Met het Masterclassprogramma lopen we met de inhoud die we behandelen telkens net iets voor op het werk aan je eigen case. Dat stelt je in de gelegenheid de verschillende concepten eerst te leren en daarna toe te passen. Daar leer je weer extra goed van.

Deze periode adviseren we je om je te richten op:

1. Het afronden van je probleemdefinitie en issue trees

2. Een start te maken met het conceptueel datamodel. Gebruik bijvoorbeeld draw.io om het conceptueel datamodel digitaal te maken en het makkelijk te kunnen delen.

Blijf voortgang houden met je case. Perfectie is niet nodig - later een keertje terug voor fine tuning kan altijd nog.

3. Bespreek je case met je buddy. Upload je werk naar je persoonlijke folder in Teams en plan een afspraak! Vreemde ogen helpen enorm en zeker als ze iets kunnen zien dat zwart op wit staat.

Als je het nog een keer wilt raadplegen: hieronder nog een keer het stuk uit het webinar van Masterclass 1 waarin we het conceptueel model toelichten. Stel vragen gerust op teams!

Samenvattend

Werk door dit lesplan heen en laat het ons weten als je vragen hebt. We staan voor je klaar! Schrijf je vragen op zodat je ze in Teams of in de Webinar paraat hebt. Als vragen op Teams vaker voorkomen besteden we daar in de Masterclass extra aandacht aan.

Je huiswerk nog 1 keer:

Opdracht 1: Bekijk de video’s en beantwoord de vragen over datakwaliteit. Post je antwoorden in het kanaal voor Masterclass 2

Opdracht 2: Ga op zoek naar de toekenning van de verschillende datarollen binnen jouw organisatie en bespreek met je reviewgroepje.

Opdracht 3: Werk voor je eigen case aan een eerste versie van je probleemdefinitie, issue tree en conceptueel datamodel en plan een afspraak met je buddy om die te bespreken.

Succes en we zien jullie donderdag in het Webinar!