Algorithms for Dynamic Geometric Data Streams
Abstract
Die zunehmende Vernetzung moderner Computersysteme produziert ge- waltige Datenmengen, deren Behandlung die heutige Informatik vor unz$\ddot $ahlige Probleme stellt. Traditionelle Algorithmen, deren Laufzeit zu stark von der Gr$\ddot $oße der Daten abh$\ddot $angt, sind h$\ddot $aufig nicht anwendbar. Oft sind die Eingabedaten sogar zu groß f$\ddot $ur die verf$\ddot $ugbaren Speichermedien. Wir stellen neue, grundlegende Algorithmen zur Analyse gewaltiger Datenmengen vor, die unter minimalen Anforderungen an den Speicher der Computersysteme beweisbar gute Zusammenfassungen der Daten berechnen. Zun$\ddot $achst erarbeiten wir grundlegende Ergebnisse zum Ziehen von Stichproben aus dynamischen Datenstr$\ddot $omen. Mit Hilfe dieser Stichproben k$\ddot $onnen vielf$\ddot $altige Aussagen $\ddot $uber die Eingabedaten getroffen werden, was wir anhand von Beispielen beweisen. Anschließend wenden wir uns dem Clustering gewaltiger Datens$\ddot $atze zu. Wir entwickeln eine Methode, große Datenmengen zu sogenannten Coresets zusammenzufassen. Die Methode erzeugt beweisbar k-meansund k-median-Clusterings mit beliebig guter Approximationsgarantie und ist anwendbar in vielen verschiedenen Modellen: Die Clusterings k$\ddot $onnen mit wenig Speicher f$\ddot $ur dynamische Datenstr$\ddot $ome berechnet werden, sie lassen sich in sublinearer Zeit durch Bereichsanfragen erstellen, und auch sich bewegende Punkte k$\ddot $onnen effizient zusammengefasst werden. Eine Implementierung zeigt, dass die Methode auf großen realen Testdaten gute Clusterings deutlich schneller berechnen kann als h$\ddot $aufig angewendete traditionelle Algorithmen. Schließlich besch$\ddot $aftigen wir uns mit der Analyse der Struktur von großen Graphen wie dem Webgraph. Wir entwickeln neue Methoden, um die Anzahl von Teilgraphen (z.B. Dreiecken) eines Graphen zu z$\ddot $ahlen, der als Datenstrom von Kanten gegeben ist.
Full Text: PDF