Gesellschaft für Informatik e.V.

Lecture Notes in Informatics


Ausgezeichnete Informatikdissertationen 2002 D-3, 49-58 (2002).

GI, Gesellschaft für Informatik, Bonn
2002


Editors

Dorothea Wagner (ed.)


Copyright © GI, Gesellschaft für Informatik, Bonn

Contents

Density-based clustering in large databases using projections and visualizations

Alexander Hinneburg

Abstract


Es wurde ein Rahmensystem für Clusteranalyse entwickelt, daß Cluster-Primitive für verschiedene Aufgabenstellungen bereit hält. Alle Cluster-Primitive basieren auf Dichteschätzung, die von der eigentlichen Clusteranalyse getrennt wurde. Diese Trennung führte zu Algorithmen mit besser Laufzeitkomplexität. Um hoch-dimensionale Daten zu bearbeiten wurde ein neuer Algorithmus vorgeschlagen, der Cluster in verschiedenen Projektionen Abbildung 2: HD-Eye Screenshot Version 1 and Version 2, Erklärung der Teilfenster in der oberen Abbildung im Uhrzeigersinn von Oben: Separator Baum, Icon Repräsentation von 1D Projektionen, 1D Projektion-Histogramm, 1D Dichte Diagramm, Icon Repräsentation für multi dimensionale Projektionen and 2D Dichte Diagramme. Density-Based Clustering in Large Databases (a) Color (b) Histogramm Abbildung 3: Beispiel für ein-dimensionale Color-Density Plots Abbildung 4: Beispiel für einen zwei-dimensionalen Color-Density Plot (a) 1 dimensional (b) multidimensional Abbildung 5: Struktur der Icons (a) ein-dimensional (b) mehr-dimensional Abbildung 6: Beispiele für Icons passend zu den vorhergehenden Color-Density Plot in Abb.3 und 4 (a) (b) (c) (d) Abbildung 7: (a) zeigt Color-Density Plots von molekular-biologischen Daten mit den separarierenden Minima für die Rauschschwelle $ξ= 0$. Aufgrund der Visulisierungen erhöht der Anwender die Rauschschwelle auf 2\%. $Teil(b)$ zeigt die veränderten Density-Plots, wobei die Intervalle mit einer Dichte unterhalb der Rauschschwelle gelb gezeichnet sind. Mit Hilfe der Rauschschwelle werden Trennpunkte entfernt, die durch leichte Schwankungen in der Datenverteilung verursacht werden. Die Teile (c,d) zeigen wie eine größere Menge von Repräsentanten die Approximationsqualität der Cluster verbessert. In dem Beispiel werden in den Daten des US Census Büros die dichten geclusterten Gebiete der Westund Ostküste getrennt. Density-Based Clustering in Large Databases des hoch-dimensionalen Datenraumes finden kann. Der neue Algorithmus kann Cluster finden, die von anderen bekannten Verfahren nicht gefunden werden. Zum Abschluß wurde das HD-Eye-System entwickelt, das automatische Verfahren mit Visualisierungstechniken verknüpft, um dem Nutzer eine bessere Grundlage für seine Entscheidungen zu liefern und um das Verständnis und die Einschätzung der Ergebnisse zu erleichtern. In zukünftigen Arbeiten kann der Algorithmus um das Finden von Clustern mit abhängigen Attributen erweitert werden. In diesem Rahmen gibt es auch Potential zur Entwicklung neuer Visualisierungstechniken. Ebenso können Verfahren für nominale Daten (im Gegensatz zu den hier genutzten nummerischen Daten) untersucht werden. Literatur [AGGR98] Agrawal, R., Gehrke, J., Gunopulos, D., und Raghavan, P.: Automatic subspace clustering of high dimensional data for data mining applications. In: SIGMOD 1998, Proceedings ACM SIGMOD International Conference on Management of Data, 1998, Seattle, Washington, USA. S. 94-105. ACM Press. 1998. [HAK00] Hinneburg, A., Aggarwal, C. C., und Keim, D. A.: What is the nearest neighbor in high dimensional spaces? In: VLDB'2000, Proceedings of 26th International Conference on Very Large Data Bases, Cairo, Egypt. S. 506-515. Morgan Kaufmann. 2000. [HK98] Hinneburg, A. und Keim, D.: An efficient approach to clustering in large multimedia databases with noise. In: KDD'98, Proc. of the 4th Int. Conf. on Knowledge Discovery and Data Mining. S. 58-65. AAAI Press. 1998. [HK99] Hinneburg, A. und Keim, D. A.: Optimal grid-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. In: VLDB'99, Proceedings of 25th International Conference on Very Large Data Bases, September 7-10, 1999, Edinburgh, Scotland, UK. S. 506-517. Morgan Kaufmann. 1999. [HKW02] Hinneburg, A., Keim, D. A., und Wawryniuk, M.: Hdeye: Visual mining of highdimensional data (demo). In: SIGMOD 2002, Proceedings ACM SIGMOD International Conference on Management of Data, June 3-6, 2002, USA. ACM Press. 2002. [HKW03a] Hinneburg, A., Keim, D. A., und Wawryniuk, M.: Using projections to visually cluster high-dimensional data. IEEE Computing in Science \& Engineering. $5(2)$:14-25. 2003. [HKW03b] Hinneburg, A., Keim, D. A., und Wawryniuk, M.: Hdeye: Visual mining of highdimensional data (demo). In: ICDE 2003, Proceedings of the 19th International Conference on Data Engineering, ICDE, India. IEEE Press. 2003. [HWK99] Hinneburg, A., Wawryniuk, M., und Keim, D. A.: Hdeye: Visual mining of highdimensional data. Computer Graphics \& Applications Journal. $19(5)$:22-31. September/October 1999. [Sc92] Scott, D.: Multivariate Density Estimation. Wiley and Sons. 1992. [Si86] Silverman, B. W.: Density Estimation for Statistics and Data Analysis. Chapman \& Hall. 1986.


Full Text: PDF

GI, Gesellschaft für Informatik, Bonn
ISBN 3-88579-407-1


Last changed 12.06.2012 13:41:40