Datamigratie begint met Data!

Als datamigratie specialist komen we het maar al te vaak tegen: De opdrachtgever start een implementatietraject, waar datamigratie een noodzakelijk onderdeel van is. Zonder naar de daadwerkelijke brondata te kijken wordt aangenomen dat deze data voldoet aan de algemeen geldende business rules. De migratiestrategie en migratiespecificaties worden op basis van deze aanname (en daarmee theoretische situatie) opgesteld. Vervolgens wordt de migratieprogrammatuur gebouwd en worden de eerste test- en proefmigraties gestart. En wat blijkt: ontzettend veel uitval! Enerzijds vanwege (een gebrek aan) datakwaliteit, anderzijds blijken de migratiespecificaties niet de lading te dekken. Gevolg: Terug naar de tekentafel, veel re-work, kostbare tijd en geld gaat verloren.

Juist om die reden is het slim om een datamigratie te starten met de praktijk: de brondata. Voordat er gestart wordt met de strategie en specificaties is het raadzaam om een analyse op de data uit te voeren.

Een heel simpel voorbeeld is de vulling van het veld ‘geslacht’. Op basis van de theoretische situatie verwacht men 2 waarden: ‘M’ en ‘V’. Echter bij de test- en proefmigraties blijkt dat 50% van de data uitvalt als gevolg van deze aanname. Als resultaat van eerdere migraties of bijvoorbeeld een gebrek aan invoercontroles in het huidige systeem komen ook de waarden ‘Male’, ‘Female’, ‘1’, ‘0’ en NULL voor. De migratiespecificaties en programmatuur voorzien niet in deze situaties.

Een ander treffend voorbeeld is zijn dubbele voorkomens. Klantregistraties met exact dezelfde eigenschappen (bijv. op basis van naam, geslacht, geboortedatum en adres) zijn veelal eenvoudig te onderkennen. Maar wat als twee of meer registraties minimaal afwijken maar toch dezelfde persoon lijken te zijn? Een materiedeskundige kan zien de alleen de naam afwijkt (bijv. “C.R.E van het Hek” versus “C.R.E. v/h Hek”) maar geslacht en geboortedatum hetzelfde zijn. Echter het is ondoenlijk om handmatig alle registraties te controleren en daar waar nodig samen te voegen. Indien deze situaties met behulp van fuzzy matching technologie onderkend waren, zou men in de migratielogica rekening kunnen houden met het samenvoegen van deze registraties.

Tot slot blijkt vaak uit een data-analyse dat niet alle data relevant is voor de migratie. Denk hierbij aan historische data waarvan de bewaarplicht reeds is verstreken. Of de situatie waarin men dacht dat er 300k objecten gemigreerd dienen te worden, maar na analyse blijkt dat 15% van de objecten de status “Niet meer in gebruik” heeft. Zonder dit te beseffen kan er veel tijd verloren gaan in het oplossen van uitval of het verbeteren van datakwaliteit voor objecten waarvan later blijkt dat ze niet gemigreerd dienen te worden. Zonde van de tijd en energie!

Een analyse vooraf zorgt ervoor dat er tijdens de bouw en specificatie rekening gehouden kan worden met dit soort situaties. Het filteren van data, uitvoeren van datacorrecties, uniformeren van de data of het uitbreiden van de mappingen voorkomt onnodige uitval en inspanning.

Het creëren van dit inzicht is een eenvoudige stap. Slimme tools genereren geautomatiseerd de benodigde statistieken waarop je de strategie en specificaties kunt baseren. Denk hierbij aan vullingsgraden, spreiding, domeinwaarden, verplichtheid, uniciteit, frequentieverdelingen, etc. Dit soort slimme hulpmiddelen stellen je veelal ook in staat om dubbele registraties inzichtelijk te maken of data te profileren.

Onderstaand voorbeeld toont de samenvatting van de statistieken van een tabel met klantinformatie, waarbij al duidelijk wordt dat het veld ‘geslacht’ niet op eenduidige wijze gevuld is.

Voorbeeld van statistieken met behulp van DATPROF Analyze op basis van dummy data.

Het vooraf inzicht creëren in omvang, complexiteit, vulling en metadata levert waardevolle kennis op, waarmee het vervolgtraject veel efficiënter en effectiever uitgevoerd kan worden. Met deze kennis stel je jezelf in staat om:

  • Op basis van feiten onderbouwd het gesprek aan te gaan met data-eigenaren, acceptanten en andere stakeholders.
  • Slimme keuzes te maken, bijvoorbeeld ten behoeve van de migratiestrategie voor historische data.
  • Op het juiste moment maatregelen te nemen op het gebied van datakwaliteit.
  • Dekkende migratiespecificaties op te stellen en migratieprogrammatuur te genereren.

Deze eenvoudige maatregel draagt bij aan het minimaliseren van de risico’s tijdens het uitvoeren van een datamigratie. Het voorkomt dat kostbare tijd en geld verloren gaat, verhoogt de kans op een soepele acceptatie en draagt bij aan een voorspelbare en controleerbare datamigratie.

Dus, niet alleen het woord ‘datamigratie’ begint met ‘data’, ook de uitvoering ervan!

 


ITCG denkt én doet al bijna twee decennia in data integratie, datamigratie, datakwaliteit en testdata en deelt haar opgedane kennis graag met de wereld in de vorm van blogs –lees ook onze andere artikelen.