Unterschätzte Herausforderung und Hebel Datenbereinigung: Smart Data Cleaning

10.01.2018

Eine erfolgreiche Datenbereinigung ist vielleicht nicht der spannendste Teil eines Predictive Analytics Projektes, definitiv aber eine der wesentlichen Erfolgsbedingungen. Unsaubere Stamm- und Bewegungsdaten sorgen dafür, dass die Prognosequalität sinkt bzw. dass für viele Datensätze gar keine sinnvolle Analyse erfolgen kann. Um dieser Herausforderung bestmöglich zu begegnen setzen wir auch bei der Datenbereinigung auf Machine Learning und Text Mining. Um die Datenqualität für unsere Analysen und Prognosen auf das bestmögliche Niveau zu bringen wenden wir dieselben grundsätzlichen Algorithmen ein, welche auch für die Erstellung von Prognosemodellen genutzt werden.

 

Was bedeutet das konkret?

Statistische Analysen und darauf basierende Methoden der Anomalie- bzw. Fehlererkennung benötigen Zahlenwerte. Während nicht plausible Alters- oder Zeitangaben noch vergleichsweise einfach identifiziert werden können, ist dies bei Freitexten deutlich schwieriger. Wo wurden die Eingaben für Nachname und Straßenname vertauscht? Welche Ortsangabe enthält wahrscheinlich einen Tippfehler?

 

Fingerprinting und Text Mining

Um Fehler automatisch auch für Freitextfelder wie Name, Adresse, … zu erkennen setzen wir auf das sogenannte „Fingerprinting“ jeder Freitexteingabe. Dabei wird jeder Texteintrag in eine Binärmatrix übertragen, die Buchstabenvorkommen, Textlänge- und varianz in Zahlenwerte umwandelt. So lässt sich jedes Textfeld numerisch darstellen und statistisch analysieren. Für jedes Freitextfeld lassen sich so erwartete Muster berechnen und auf dieser Basis können so genauso wie für numerische Felder statistische Ausreißer und wahrscheinliche Fehleingaben identifiziert und korrigiert werden.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Auf dieser Grundlage sind wir in der Lage, Fehler für alle Datentypen zu erkennen und in vielen Fällen (insbesondere vertauschte Eingaben und Tippfehler) zu beheben. Die Datenqualität steigt so nicht nur für Zahlen-, sondern auch für Freitexteingaben.

 

 

Share on Facebook
Share on Twitter
Please reload

Aktuelle Einträge
Please reload

Archiv
Please reload

Schlagwörter