Gesellschaft für Informatik e.V.

Lecture Notes in Informatics


Ausgezeichnete Informatikdissertationen 2015 D-16, 329-338 (2016).

Gesellschaft für Informatik, Bonn
2016


Copyright © Gesellschaft für Informatik, Bonn

Contents

Pipelines für effiziente und robuste Ad-hoc-Textanalyse

Henning Wachsmuth

Abstract


Suchmaschinen und Big-Data-Analytics-Anwendungen zielen darauf ab, ad-hoc relevante Informationen zu Anfragen zu finden. Häufig müssen dafür große Mengen natürlichsprachiger Texte verarbeitet werden. Um nicht nur potentiell relevante Texte, sondern direkt relevante Informationen zu ermitteln, werden Texte zunehmend tiefer analysiert. Dafür können theoretisch komplexe Pipelines mit zahlreichen Analysealgorithmen eingesetzt werden. Aufgrund fehlender Effizienz und Robustheit sind die durchgeführten Textanalysen in der Praxis jedoch bislang auf einfache, manuell erstellte Pipelines für antizipierte Anfragen beschränkt. Der vorliegende Beitrag gibt einen Überblick über einen Ansatz zur automatischen Erstellung von Pipelines für beliebige Textanalysen. Die resultierenden Pipelines sind effizienzoptimiert und arbeiten robust auf heterogenen Texten. Der Ansatz kombiniert zu diesem Zweck neuartige Verfahren, die auf Techniken der klassischen künstlichen Intelligenz und des maschinellen Lernens basieren. Formale Untersuchungen wie auch zahlreiche empirische Experimente belegen, dass der Ansatz einen wichtigen Schritt hin zum Ad-hoc-Einsatz von Textanalyse-Pipelines in Suchmaschinen und Big-Data-Analytics-Anwendungen darstellt.


Full Text: PDF

Gesellschaft für Informatik, Bonn
ISBN 978-3-88579-975-7


Last changed 09.12.2016 18:43:47