Data-Matching selbst gemacht

Ein wichtiger Grundsatz aus dem Qualitätsmanagement lautet: "Ein Fehler kommt umso teurer zu stehen, je später er bemerkt wird". Daher wurde bei der Migration eines Abrechnungssystems beschlossen, die Bereinigung der ca. 100 Millionen Datensätze mit Kundendaten so gut wie möglich im Altsystem vorzunehmen, also vor der Migration in das neue System und im besten Fall nur vollständige und korrekte Angaben zu übernehmen.

Wie man Kundennamen vor der Migration bereinigt
Die Bereinigung der Daten stand unter Anderem vor der Herausforderung, mit der Vielzahl von unterschiedlichen Namen aus diversen Sprachen und Kulturen umzugehen. Es ist das eine, aus "Mueller" ein "Müller" zu machen, bei "Meier" und "Maier" ist es dann schon schwieriger, und ausländische Namen erschweren die Aufgabe zusätzlich.

Es wird auf jeden Fall nützlich sein, ein Mass des Abstandes zwischen Zeichenketten zu definieren. Als geeignet hat sich hierbei eine Modifikation des wenig bekannten Verfahrens von Jaro und Winkler erwiesen.

Ebenso ein hilfreiches Werkzeug bei solchen Unterfangen ist die phonetische Suche. Das bekannteste solche Verfahren ist sicherlich der Soundex-Algorithmus, welcher allerdings nur sehr bedingt mit Namen aus dem nicht englischsprachigen Raum zurecht kommt.

Wesentlich flexibler ist hier das jüngere Verfahren von Daitch-Mokotoff, welches für eine Vielzahl von Sprachen anwendbar ist und in einer veränderten Version zum Einsatz kam.

Als letzter wesentlicher Baustein hat sich eine Suche innerhalb der Zeichenketten fester Damerau-Levenshtein Distanz, einer Variante der Edit Distanz, zu einer gegebenen Zeichenkette als hilfreich erwiesen. Hierzu wurde die entsprechende Nachbarschaftssuche - mit einem festen Abstand, meist 1 oder 2 - "ausprogrammiert" und hoch effizient implementiert.

Im Ergebnis konnten mit Hilfe derartiger Techniken die Daten automatisch mit mehreren weicher werdenden Kriterien überprüft und ggf. sogar bereinigt werden. Die danach immer noch fraglichen Daten hatten einen so kleinen Umfang, dass sie dem Fachbereich zur Prüfung und Klärung vorgelegt wurden. So wurden im Ergebnis nur geprüfte und für gut befundene Daten in das neue System übernommen.