“Garbage in is garbage out”. Een vrij bekend gezegde in de wereld van data-analyse. Maar wat nou als je ‘garbage’ hebt en niet goed weet hoe je dit moet gaan verbeteren? En kun je dan echt helemaal niets met die data? In deze blog vertellen we je er graag meer over.

Wat is datakwaliteit eigenlijk?

Bij het bepalen van de datakwaliteit wil je kijken naar o.a de accuraatheid en de volledigheid. Maar ook zaken als formaat (datums, telefoonnummers) en consistentie spelen een grote rol.

Sturen op data terwijl je weet dat deze data niet goed is, kan gevaarlijk zijn. Aan de andere kant is het natuurlijk ook niet altijd nodig om 100% perfectie na te streven voor je beslissingen kan nemen. In veel gevallen is 80% echt al wel genoeg om beslissingen op te kunnen nemen. 

Hoe kunnen we dit beoordelen?

Bij het maken van dashboards voor klanten nemen we het stukje datakwaliteit altijd mee. Onderdeel van de rapportages zijn altijd diverse checklistjes die gebruikt kunnen worden om de datakwaliteit te beoordelen. Is het bijvoorbeeld in de rapportage van belang dat iets op postcodes wordt getoond, dan checken we of deze overal op een correcte manier is ingevuld. Sommige van de ‘veelgemaakte fouten’ kunnen we dankzijn Power BI prima oplossen. Een (extra) spatie tussen de cijfers en de letters is er prima structureel uit te halen. Het wordt echter anders als blijkt dat bij een groot deel van de klanten de postcodes helemaal niet gevuld zijn.

En dan?

Door in het dashboard een checklist op te nemen met ‘lege’ postcodes, kunnen deze in de bron worden gevuld. In sommige gevallen kan het wenselijk zijn om dit veld in de bron verplicht en/of in een vast format te gaan zetten, zodat dit bij nieuwe klanten gelijk goed komt te staan. 

Het verbeteren van datakwaliteit is immers geen eenmalig proces, maar iets dat voortdurend moet worden opgevolgd. Op die manier wordt de ‘awareness’ binnen de organisatie verhoogt en zal de datakwaliteit steeds verder worden verhoogd.

Bruikbaar?

In veel gevallen kun je al best het een en ander doen, maar belangrijk is wel dat iedereen bewust wordt van een eventuele te lage datakwaliteit. Per situatie zal altijd moeten worden gekeken off de data betrouwbaar genoeg is om conclusies te trekken, of dat dit eerst nog verdere verbetering nodig heeft.