Photoshop of doek en penseel?

Het ontbreken van goede testdata-sets kan een grote belemmering vormen voor een efficiënt en effectief testproces. Vooral Agile-trajecten, met steeds kortdurende ontwikkelintervallen, brengen dit fenomeen vaak pijnlijk duidelijk aan het licht.

Als je bij het maken van testdata-sets gebruik kunt maken van productiedata, dan heeft dat als groot voordeel dat de data al bestaan, heel representatief zijn en alleen nog maar naar een testomgeving gekopieerd hoeven te worden

Maar testen met een volledig productie-kopie is doorgaans niet efficiënt, vanwege het grote beslag op extra database-capaciteit en verwerkingstijd.

Voor de meeste specifieke tests zal tevens gelden dat het ‘productie-kopie’ niet gericht is, omdat het veel gevallen zal bevatten die voor de betreffende tests totaal irrelevant zijn, ofwel gevallen niet bevat die voor bepaalde tests juist cruciaal zijn!

Het grootste bezwaar is vaak dat het testen met een productie-kopie gewoonweg niet veilig is, vanwege de aanwezigheid van gevoelige persoonsgegevens en concurrentie-gevoelige gegevens.

Met de juiste subsetting- en anonimiserings-tools kunnen uit productie-data testdata-sets worden afgeleid, die zowel representatief, efficiënt, gericht, én veilig zijn.

Ik vergelijk die wijze van creëren van een representatief onderdeel van een data-werkelijkheid uit productie-data met het bijknippen en manipuleren van een kopie van een bestaande afbeelding met bijvoorbeeld Adobe® Photoshop®. Hoe meer er ten opzichte van het origineel ongewijzigd kan blijven, hoe efficiënter dit proces zal zijn.photoshop

Testdata kunnen ook volledig op basis van regels en metadata gegenereerd worden, zonder dat daarbij bestaande productie-data als grondstof wordt gebruikt. Zulke, geheel naar eigen wensen samengestelde synthetische datasets zouden dus representatief, efficiënt, gericht én veilig moeten kunnen zijn.

Ik vergelijk deze wijze van creëren van een beeld van een nieuwe werkelijkheid als het maken van een schilderij op doek met penseel, waarbij je de gehele compositie zelf kunt bepalen. Maar schilderen op doek met penseel vergt heel veel inspanning, geduld en nauwkeurigheid, zeker als het een grote werk met veel details betreft.

Zo is het ook met het opstellen, vastleggen en onderhouden van alle regels en metadata die nodig zijn complexe datamodellen volledig met -alleen maar- synthetische data te vullen. Als de te vullen data-modellen groot en complex zijn en veel constraints en afhankelijkheden bevatten, dan wordt het achterhalen, modelleren en onderhouden van alle regels en metadata al snel ondoenlijk.

penseelMoeten we daarom dus maar niet op de synthetische toer, als we testdata willen genereren?

Wellicht niet voor de volledige vulling. Maar in veel gevallen kan juist door het slim combineren van de twee hierboven genoemde concepten een optimaal resultaat worden behaald.

Dit is ook de reden waarom wij werken met de gebundelde krachten van drie producten, te weten DATPROF Subset (subsetting), DATPROF Privacy (anonimisering) en DATPROF Integrate (data-transformatie).

Met het subsetting-tool genereren we op eenvoudige en efficiente wijze representatieve subsets uit bestaande productie-data, terwijl allerlei complexe afhankelijkheden in de data behouden blijven.

Met het anonimiserings-tool elimineren we op eenvoudige en gestructureerde wijze gevoeligheden in de data, waardoor er veilig mee getest kan worden. Niet op basis van dynamische masking, maar door middel van echte anonimisering!

Met het data-transformatie-tool genereren we fictieve, synthetische data. Die data gebruiken we enerzijds als aanvulling op het subsetten, bijvoorbeeld als er testgevallen nodig zijn die in de productiedata niet voorkomen, of ter vervanging van gevoelige waarden tijdens het anonimiseren.

Via de link http://www.datprof.com/nl/news/datprof-stelt-synthetische-testdata-beschikbaar/

zijn voorbeeldbestanden met fictieve, synthetische testdata te downloaden. Het gebruik is vrij en voor eigen verantwoordelijkheid.

Kort nawoord: Niet alles hoeft snel en ik bewonder de oude meesters voor het geduld dat ze hadden bij het maken van hun prachtige creaties. En als opdrachtgever wist je ook dat het geen ‘klaar-terwijl-u-wacht’-product betrof. Dat ligt met testdata toch heel anders. Het genereren daarvan is anno 2016 geen kunst (meer). We willen er niet meer op wachten en dat hoeft ook niet!

 


ITCG denkt én doet al bijna twee decennia in data integratie, datamigratie, datakwaliteit en testdata en deelt haar opgedane kennis graag met de wereld in de vorm van blogs –lees ook onze andere artikelen.