Datenqualität (oder auch Data Quality) bezeichnet die Erfassung sowie Aufbereitung von Daten (Informationen) und stellt deren Zustand bzw. Qualität fest. Dabei unterscheidet man zwischen guter und schlechter Datenqualität. Beide Zustände – sowohl gute als auch schlechte Datenqualität – können positive oder negative Auswirkungen auf das Unternehmen haben.
Als Synonym für Datenqualität wird oft der Begriff „Informationsqualität“ verwendet. Das ist aber nur bedingt richtig. Nichtsdestotrotz stehen sich die Begriffe nahe bzw. folgen aufeinander. Die Grundlage für Informationen sind Daten, daher wirkt sich die Datenqualität auf die Qualität der Informationen aus, die aus den Daten gewonnen werden. So können zum Beispiel keine „guten“ Informationen aus schlechten Daten generiert werden.
Darüber hinaus wird Informationsqualität oftmals mit hoher Qualität gleichgesetzt. Allerdings fehlt zu solch einer wertenden Aussage eine relativierende Betrachtung, da die Qualität an bestimmten Merkmalen, Kennzahlen oder Anforderungen festgemacht werden muss. Deshalb ist die Qualität einer Information immer abhängig vom Kontext und / oder vom Nutzen und sollte niemals isoliert betrachtet werden.
Daten sind zu einem wesentlichen Aspekt jedes Unternehmens geworden. Besonders für Entscheider ist die Datenqualität ausschlaggebend. Deren Basis bietet die Grundlage für viele (weitreichende) Entscheidungen. Laut Gartner Research sind schlechte, falsche und/oder unvollständige Daten für 9,7 Mio. Dollar Schaden pro Unternehmen verantwortlich.¹ Aber es entstehen nicht nur Umsatzverluste. Zusätzlich entstehende Kosten (z.B. für Transport, Recherche, Material) oder die Beschädigung der Reputation sind negative Auswirkungen von schlechter Datenqualität. Insbesondere bei Big-Data-Anwendungen/-Projekten sind die Daten größer, vielfältiger und schneller, was das Thema Datenqualitätsmanagement noch wichtiger macht.
Zudem bringt eine hohe Datenqualität zahlreiche Vorteile mit sich und ist deshalb so wichtig:
Um die Datenqualität zu messen, gibt es bestimmte Kennzahlen. Am bekanntesten sind die folgenden elf Datenqualitätskriterien:
Eine hohe Datenqualität ist ein fortlaufender Prozess. Zu Beginn sollte mit allen Fachbereichen ein Single Point of Truth bestimmt werden – ein System, wo zukünftig alle Daten gespeichert und genutzt werden. So werden Datensilos aufgelöst und Dubletten vermieden. Ab dem Zeitpunkt, an dem eine saubere Basis vorliegt (z.B. Adressprüfung via Batch-Verfahren), sollten Unternehmen die Daten direkt bei der Erfassung am Point-of-Entry validieren und überprüfen lassen (z.B. mithilfe einer Adressvalidierung). Damit gelangen nur noch korrekte Daten in das System und eine Gewährleistung der Datenqualität ist sichergestellt. Wenn diese Schritte getan sind, empfiehlt sich ein Datenqualitätsmanagement, womit die Daten laufend überwacht und kontrolliert werden. Letztendlich lohnt sich hier jeder Euro, da die Kosten, einfach nichts zu tun, um ein Vielfaches höher ausfallen.
Quellen:
¹ https://www.dnb.com/de-de/wissen/studien/datenqualitaet-die-4-kriterien/