Gesellschaft für Informatik e.V.

Lecture Notes in Informatics


Ausgezeichnete Informatikdissertationen 2001 D-2, 61-70 (2001).

GI, Gesellschaft für Informatik, Bonn
2001


Editors

Dorothea Wagner (ed.)


Copyright © GI, Gesellschaft für Informatik, Bonn

Contents

The maximum-margin approach to learning text classifiers: methods theory, and algorithms

Thorsten Joachims

Abstract


Diese Dissertation verfolgt einen neuen Ansatz zur Textklassifikation, der nicht die An- zahl der Attribute, sondern die Separationsweite als zentrales Komplexitätsmaß verwendet, wodurch sich der “curse of dimensionality” bei der Textklassifikation beweisbar umgehen läßt. Dieser Ansatz verbindet erstmalig eine theoretische Fundierung mit darauf aufbauenden robusten Methoden und effizienten Algorithmen. Über das spezielle Anwendungsgebiet der Textklassifikation hinausgehend, enthält die Dissertation allgemeine Er- gebnisse im Bereich des maschinellen Lernen, insbesondere Fehlerschranken für SVMs, -Schätzer, die Analyse der Transduktion und die Trainingsalgorithmen für SVMs. Alle {\tt<\hskip-.5e<} Techniken und Methoden sind in SVM{\Dj} Ø implementiert und öffentlich verfügbar. 3 Thorsten Joachims Literaturverzeichnis [FPB$\cdot 94$] N. Fuhr, U. Pfeifer, C. Bremkamp, M. Pollmann, and C. Buckley. Probabilistic Learning Approaches for Indexing and Retrieval with the TREC-2 Collection. In The Second Text Retrieval Conference (TREC-2). National Institute of Standards and Technology, 1994. [HW90] P. Hayes and S. Weinstein. CONSTRUE/TIS: a System for Content-Based Indexing of a Database of News Stories. In Annual Conference on Innovative Applications of AI, 1990. [JH99] T. Jaakkola and D. Haussler. Probabilistic Kernel Regression Models. In Conference on AI and Statistics, 1999. [Lew01] D. Lewis. Applying Support Vector Machines to the TREC-2001 Batch Filtering and Routing Tasks. In Text Retrieval Conference (TREC), 2001. [Lyo68] J. Lyons. Introdutions to Theoretical Linguistics. Cambridge University Press, London, 1968. [Mar61] M. E. Maron. Automatic Indexing: An Experimental Inquiry. Journal of the Association for Computing Machinery, 8:404-417, 1961. [Pla99] J. Platt. Fast Training of Support Vector Machines Using Sequential Minimal Optimization. In B. Schölkopf, C. Burges, and A. Smola, editors, Advances in Kernel Methods - Support Vector Learning, chapter 12. MIT-Press, 1999. [SB88] G. Salton and C. Buckley. Term Weighting Approaches in Automatic Text Retrieval. Information Processing and Management, $24(5)$:513-523, 1988. [Vap98] V. Vapnik. Statistical Learning Theory. Wiley, Chichester, GB, 1998. [Zip49] George Kingsley Zipf. Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology. Addison-Wesley, Cambridge, MA, USA, 1949. Thorsten Joachims ist ein Assistant Professor im Department of Computer Science an der Cornell University. Er begann seine Arbeit dort im Jahre 2001, nach einem kurzen Postdoc am Institut für autonome, intelligente System der GMD in Bonn. Ebenfalls im Jahre 2001 schloss Thorsten Joachims seine Dissertation bei Prof. Katharina Morik am Lehrstuhl für KI der Universität Dortmund ab, wo er seit 1997 als wissenschaftlicher Mitarbeiter tätig war. Sein Diplom der Informatik erhielt er im Jahre 1997, ebenfalls von der Universität Dortmund, mit einer Diplomarbeit zu “WebWatcher”, einem Browsing-Assistenten für das WWW. Seine Forschungsinteressen liegen im Bereich des maschinellen Lernens und dem Information Retrieval. Speziell arbeitet er im Bereich der statistischen Lerntheorie, der Support Vector Maschinen und dem maschinellen Lernen für die Informationssuche. Bis 1996 verbrachte er einen eineinhalbjährigen Forschungsaufenthalt bei Prof. Tom Mitchell an der Carnegie Mellon University. 1991 war er ein Bundessieger beim Bundeswettbewerb Informatik der GI.


Full Text: PDF

GI, Gesellschaft für Informatik, Bonn
ISBN 3-88579-406-3


Last changed 12.06.2012 13:40:49