Duplikátumok

Az adattisztítás egyik legfontosabb célja általában a rendszerekben megtalálható duplikátumok kimutatása és feldolgozása. Természetesen, amikor duplikációról beszélünk, akkor általában tudjuk, hogy nem csak két rekord lehet egyforma, hanem akár több példányban is szerepelhet egy entitás az adatbázisban. Tehát a helyes elnevezés multiplikáció lenne, azonban az általános elterjedt szóhasználat és a könnyebb értelmezés miatt a duplikációt használjuk.

A duplikátumok felderítése annál eredményesebb lesz, minél jobb minőségűek az azonosításra leginkább használható adatok. Például természetes személyek esetében a név, születési hely, születési dátum, jogi személyek esetében az adószám, a cégjegyzékszám tekinthető azonosításra leginkább alkalmas adatnak. Ha ezek az adatok nem megfelelő minőségűek, akkor duplikátum felderítés előtt erősen ajánlott adattisztítást végezni. Természetesen az adatok sohasem lesznek hibátlanok, tehát a duplikátumkeresést végső soron többé-kevésbé hiányos, hibás adatokon kell elvégezni. Ez azt jelenti, hogy nem lehet a megfelelő mezők értékének pontos egyezőségére alapozni a keresést, hanem hasonlósági kritériumokat kell megfogalmazni. Jó duplikátumkereső algoritmusok használatával még mérsékelten hibás adatok között is meg lehet találni a valószínű duplikátumcsoportokat, amelyek nagy részét az emberi felülvizsgálat is igazolja.

 

Duplikáció keresése

Duplikáció keresés során algoritmikus módszerekkel felderítjük és kilistázzuk, hogy melyek az azonos entitások, azaz ügyfelek, illetve termékek. Ehhez duplikátumcsoportokat képzünk, amin az azonos egyedhez tartozó, egynél nagyobb elemű rekordhalmazt értjük. A feladat az azonos egyedet képviselő rekordok csoportokba sorolása.

Master record képzése

Ha nem cél vagy nem lehetséges a teljes deduplikálás, pl. mert több megmaradó rendszerben szerepelnek a duplikátumcsoport egyes elemei, akkor célszerű miden csoporthoz egy-egy ún. master recordot készíteni. A master record alapja a legnagyobb prioritású rendszerben szereplő rekord lehet, amit szükség és indokoltság esetén a többi rendszer adataiból is frissíthetünk, kiegészíthetünk. A master record általában a csak legfontosabb ügyfél(azonosító) adatokat tartalmazza, és esetleg az üzleti tevékenység szempontjából legfontosabb néhány további adatot.

Duplikáció feloldása (deduplikálás)

A duplikátumok megtalálása után következik a duplikátumok megszüntetése. Konkrétan, minden duplikátumcsoportban kijelöljük a megtartandó rekordot, a többit pedig megszüntetjük. A megtartandó rekord kijelölése történhet azon az alapon, hogy melyiknek legjobb minőségűek az adatai, de néha ennél bonyolultabb a feladat. Azokat az entitásokat, pl. termékeket, amelyek a duplikátumcsoport egyes rekordjaihoz tartoznak, a megszüntetendő rekordokról le kell választani, és a megmaradó rekordhoz kell kötni. Az esetek egy részében itt technikai korlátokba ütközünk. Pl. előfordulhat, hogy valamely terméket nem lehet vagy rentábilisan nem lehet átsorolni másik ügyfélrekordhoz: ilyenkor kényszerűen az a rekord lesz a megmaradó, amelyhez eleve kapcsolódik ilyen termék.

DSS Consulting

Leave a Comment

Your email address will not be published. Required fields are marked *