Gesellschaft für Informatik e.V.

Lecture Notes in Informatics


Informatik 2004, Informatik verbindet, Band 2, BeitrĂ€ge der 34. Jahrestagung der Gesellschaft fĂŒr Informatik e.V. (GI), Ulm, 20.-24. September 2004 P-51, 187-192 (2004).

GI, Gesellschaft fĂŒr Informatik, Bonn
2004


Editors

Peter Dadam, Manfred Reichert (eds.)


Copyright © GI, Gesellschaft fĂŒr Informatik, Bonn

Contents

Ontologie-basiertes Web Mining

Marc Ehrig , Jens Hartmann and Christoph Schmitz

Abstract


Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende AnsĂ€tze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes Verfahren zur Identifikation und Extraktion kontextrelevanter Informationen aus dem Internet vor, welches Hintergrundwissen in Form von Ontologien verwendet. EinfĂŒhrung - Web Mining Die Anwendung von Data-Mining-Methoden zur Erkennung von RegularitĂ€ten in Daten auf das World Wide Web wird Web Mining genannt. Im Allgemeinen wird Web Mining in folgende drei Bereiche unterteilt: $\bullet $Web Content Mining: Die Erkennung von RegularitĂ€ten in Texten und Multi- Media Objekten (beispielsweise Grafiken) in Web Dokumenten. $\bullet $Web Usage Mining: Die Erkennung von RegularitĂ€ten in der Benutzung von Web Dokumenten. $\bullet $Web Structure Mining: Die Erkennung von RegularitĂ€ten in der Struktur von Web Dokumenten und ihrer Relationen. Im Kontext der Erkennung neuer und nĂŒtzlicher Ressourcen beispielsweise fĂŒr ein semantisches Informationsportal [SEAL03], erscheint die kombinierte Verwendung von Content und Structure Mining Methoden sinnvoll. Erst die intelligente Kombination von Methoden zur inhaltlichen Analyse von Ressourcen sowie deren relationalen Betrachtung lĂ€sst bedarfsgerechte SchlĂŒsse ĂŒber die Zugehörigkeit und Relevanz einer Ressource fĂŒr ein Informationsportal zu. Des Weiteren lĂ€sst sich vorhandenes Wissen fĂŒr eine gezielte Suche verwenden, d.h. auf Basis von Hintergrundwissen ĂŒber eine DomĂ€ne wird die Wertigkeit von Ressourcen in Bezug auf die Zugehörigkeit und Relevanz abgeschĂ€tzt. Dadurch kann die Suche nach potentiell bedeutsamen Ressourcen fokussiert werden. 187 Das Werkzeug welches zur Identifikation und Extraktion von Ressourcen aus dem Internet eingesetzt wird, wird im Allgemeinen Web Crawler genannt. Bestehende Web Crawler unterscheiden sich zum Teil in ihrer Konzeption und somit auch in ihrer Architektur stark, welches sich auf die jeweilige Verwendung der gewonnen Ressourcen bzw. der jeweiligen Anwendung zurĂŒckfĂŒhren lĂ€sst [CHA02]. Es lassen sich dabei zwei grundlegende Arten von Crawlern unterscheiden. Zum einen Crawler, die die Dokumente aufgrund ihrer Verlinkung einsammeln, wie beispielsweise der Crawler von Google1 Webbase [RAG99]. Dem GegenĂŒber stehen inhaltsbasierte Crawler, welche die enthaltenen Dokumenten-Texte in eine Relevanzbewertung einbeziehen und so den Crawling-Prozess fokussieren [EHR02]. Ein großer Nachteil bestehender Web Crawler ist deren proprietĂ€re Ausrichtung auf eine bestimmte Anwendung hin. Eine Weiter-verwendung bzw. Erweiterung ist daher i.d.R. schwierig bis unmöglich. Die von uns entwickelte Konzeption stellt im Allgemeinen einen Ansatz fĂŒr eine modulare und flexible Methodik zur intelligenten Erkennung und Extraktion von Wissen ab, die sich auf das Internet sowie auf Dokumente in Intranets bspw. in Unternehmen und Einrichtungen der öffentlichen Hand anwenden lĂ€sst. METIS - Ein ontologie-basierter Web-Crawler Allgemeiner Überblick Die Konzeption unseres Web Crawlers roo t S S RDF Scheme cla property ss S KAON/Lexicon S T T T T METIS sieht die Verwendung von Ontology lexical entry references T ontology value person T ka airlin D owns o e S l exicon:airline nr R flies D ef R k T a on: airplan v pilot Management kaon:val al e T " airline mehreren Modulen vor, welche flexibel " carrier" T T " metadata l exicon:Lufthansa kaon:ref Lufthansa A340 J. Smith k a : v a l " Lufthansa" austauschbar und erweiterbar sind. In Abbildung 1 wird die allgemeine System- User This is just some text about airplanes like Boeing 747s. Interaction Crawler-Modul fĂŒr das eigentliche Holen Preprocessing Computation der Daten aus dem WWW zustĂ€ndig, welche dann im Preprocessing-Modul weiter verarbeitet werden (Fehlerkorrektur, ? Datentransformation, etc.). Die verarbei- ? Crawling ? teten Seiten werden indiziert und bspw. in ? eine Datenbank gespeichert worauf das Abbildung 1 Computation-Modul mittels dem Ontology- Modul die jeweilige Relevanz einer Seite berechnet und dem Crawling-Modul die nĂ€chsten Webseiten angibt, die geholt werden sollen.


Full Text: PDF

GI, Gesellschaft fĂŒr Informatik, Bonn
ISBN 3-88579-3080-6


Last changed 24.01.2012 21:47:13