Betreuer: Prof. Dr. Andreas Lux
Kurzfassung:
Der vorgeschlagene Ansatz konzentriert sich auf das Auffinden von Datenqualitätsproblemen durch die Untersuchung von Datenausreißern, die in einem Datenclustering-Schritt erkannt werden. Das Clustering wird mit dem State-of-the-Art-Algorithmus „Hierarchical Density-Based Spatial Clustering of Applications with Noise“ (HDBSCAN) durchgeführt. Nach einem aktiven Lernansatz werden die repräsentativsten Datenpunkte pro Datencluster ausgewählt und dem Datenkonsumenten präsentiert. Damit wird die Erkennungsgenauigkeit erhöht, indem das Datenqualitätslabel für ein ganzes Cluster auf der Grundlage des Datenqualitätslabels angenommen wird, das vom Datenkonsumenten manuell festgelegt wird.
Um den manuellen Aufwand für die Untersuchung von Datenausreißern zu verringern, wird der Algorithmus "Uniform Manifold Approximation and Projection“ (UMAP) zur Transformation der Daten verwendet. Schließlich werden aus den erkannten Datenqualitätsproblemen Geschäftsregeln abgeleitet, um den manuellen Aufwand in Zukunft weiter zu reduzieren und langfristig die Datenqualität zu gewährleisten.
Sie verlassen die offizielle Website der Hochschule Trier