Recommenderdienste für wissenschaftliche Bibliotheken und Bibliotheksverbünde
Abstract
Wissenschaftliche Bibliotheken stellen ein vielversprechendes Anwendungsfeld für Recommenderdienste dar. Wissenschaftliche Bibliotheken können leicht kundenzentrierte Serviceportale im Stil von amazon.com entwickeln. Studenten, Universitätslehrer und -forscher können ihren Anteil an den Transaktionskosten (z.B. Suchund Bewertungskosten für Informationsprodukte) reduzieren. Für Bibliothekare liegt der Vorteil in einer Verbesserung der Kundenberatung durch Empfehlungen und einer zusätzlichen Unterstützung bei der Marktforschung, Produktbewertung und dem Bestandsmanagement. In diesem Beitrag präsentieren wir eine Strategie, mit der verhaltensbasierte, verteilte Recommenderdienste in bestehende Bibliothekssysteme mit minimalem Aufwand integriert werden können und berichten über unsere Erfahrungen bei der Einführung eines solchen Dienstes an der Universitätsbibliothek der Universität Karlsruhe (TH). Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified. The lawyer has at his touch the associated opinions and decisions of his whole experience, and of the experience of friends and authorities. The patent attorney has on call the millions of issued patents, with familiar trails to every point of his client's interest. The physician, puzzled by a patient's reactions, strikes the trail established in studying an earlier similar case, and runs rapidly through analogous case histories, with side references to the classics for the pertinent anatomy and histology. The chemist, struggling with the synthesis of an organic compound, has all the chemical literature before him in his laboratory, with trails following the analogies of compounds, and side trails to their physical and chemical behavior. Vannevar Bush, Juli 1945 [Bus45] 43 Einf ührung In diesem Beitrag präsentieren wir eine Strategie, verteilte Recommenderdienste in bestehende wissenschaftliche Bibliothekssysteme zu integrieren, und berichten über unsere Erfahrungen bei der Einführung eines solchen Systems für die Universitätsbibliothek der Universität Karlsruhe (TH). Motiviert wurde dies durch die zunehmenden Schwierigkeiten von Wissenschaftlern und Studenten, effizient relevante Literatur in konventionellen datenbankbasierten Katalogsystemen zu finden. Eine vor kurzem im Auftrag des BMBF durchgeführte Studie von Klatt et al. [KGKF01] über die Verwendung von elektronischen wissenschaftlichen Artikeln in der universitären Ausbildung zeigt, dass zwar drei Viertel aller Studierenden elektronische Literaturrecherchen als sehr wichtig einschätzen, mehr als sechzig Prozent von ihnen aber dennoch in erster Linie ihre Studienkollegen um Empfehlungen bitten. Außerdem deckt die Studie erhebliche Mängel beim Zugang zu wissenschaftlicher Literatur auf: ein Drittel der Benutzer klagt über die Komplexität des Zugangs zur Literatur und über Informationsüberflutung, ein weiteres Drittel über Schwierigkeiten bei der Einschätzung und Bewertung der Qualität der gefundenen elektronischen Beiträge. Symptomatisch für diese Situation ist, dass für neunzig Prozent der Wissenschaftler elektronische Literaturrecherche aus einer E-Mail Beratung mit Studierenden und Kollegen besteht, und dass zwei Drittel Literatursuche hauptsächlich über allgemeine Suchmaschinen wie Google durchführen. Dieses Vertrauen auf persönliche, soziale Netze ist besonders kritisch im Hinblick auf den weiter ungebrochenen Trend zu Massenuniversitäten zu sehen. Dies bedeutet, dass mehr und mehr Universitäten steigende Studentenzahlen mit einer mehr oder weniger fixen Anzahl von Lehrenden ausbilden müssen (siehe dazu [GSHJ01]). Ein Recommenderdienst, wie der in Abbildungen 1 und 2 gezeigte der Universitätsbibliothek der Universität Karlsruhe ist eine skalierbare Lösung für diese Probleme. Er bietet intelligente Zugriffspfade, wie sie von Vannevar Bush [Bus45] erstmals in seiner Vision vom Fortschritt der Wissenschaft prophezeit wurden, um die Überflutung von Benutzern mit Information zu reduzieren und spart etwas der für persönliche Erkundungen und für das Geben von Empfehlungen notwendigen, kostbaren Zeit. Abbildung 1 zeigt eine detaillierte Buchansicht mit Autor (Schmitz, Norbert), Titel (Baustoffkunde für den Praktiker), Verlag, Schlüsselworte, etc. Im dunklen Balken auf der rechten Seite erscheint der Link zu Empfehlungen nur, wenn - wie im Beispiel - auch Empfehlungen vorhanden sind. Abbildung 2 zeigt die Empfehlungen für Baustoffkunde für den Praktiker` von Schmitz. ' Im Bereich von Forschungsprojekten zum Thema digitale Bibliotheken sind Prototypen von Recommendersystemen wie Fab [Bal97] und PADDLE [HTK00] entwickelt worden. Bollen und Rocha [BR00] diskutieren den Einsatz von Empfehlungsdiensten und ihre Evaluation in digitalen Bibliotheken. Überraschenderweise wurde der Einsatz von Empfehlungsdiensten für klassische wissenschaftliche Bibliotheken bisher nicht angedacht, obwohl gerade diese Bibliotheken aufgrund ihrer riesigen und qualitativ hochwertigen Bestände von solchen Diensten die größten Vorteile zu erwarten haben. In diesem Beitrag konzentrieren wir uns auf zwei Themen: Abschnitt 2 beschreibt die Strategie, die wir zur Integration des Recommenderdienstes in die vorhandenen Bibliothekssysteme der Universitätsbibliothek der Universität Karlsruhe (TH) entwickelt haben. In Abschnitt 3 fassen wir das stochastische Kaufverhaltensmodell, das wir zur Erzeugung 44 Abbildung 1: Detaillierte Dokumentansicht von Schmitz von Empfehlungen verwenden, kurz zusammen und diskutieren seine Gültigkeit im Kontext einer wissenschaftlichen Bibliothek. Unsere Stichprobe stammt von der Webseite des südwestdeutschen Bibliotheksverbunds mit 23 Bibliotheken, der von der Universitätsbibliothek der Universität Karlsruhe (TH) gehosted wird. Die Beobachtungsperiode für die Auswertungen in diesem Beitrag läuft von 01.01.2001 bis 31.05.2003. Ergänzend dazu zeigen wir einige Implementierungsdetails und erörtern die Leistungsfähigkeit des Systems. 2 Die Integration von Empfehlungsdiensten in bestehende wissenschaftliche Bibliotheken Die Recommenderdienste, die an der Universitätsbibliothek Karlsruhe (TH) betrieben werden, basieren auf einer generischen Architektur, deren Hauptidee durch das Entwurfspattern einer Bibliothek mit aktiven Agenten beschrieben wird [GSH01]. Abbildung 3 zeigt dieses Pattern, welches das generische Agenten Pattern von Russell und Norvig [RN95] verwendet. In diesem Pattern arbeiten ein Bibliotheksobjekt, ein Beobachtungsagent und ein Schnittstellenagent zusammen, um automatisch Informationsdienste - in unserem Fall Empfehlungen - zu erzeugen. Die Umgebung, die aus der Bibliothek, den referenzierten Informationsobjekten und ihren Benutzern besteht, wird von den Agenten mittels Sensoren wahrgenommen. Die unabhängig voneinander agierenden Agenten sammeln Informa- 45 Abbildung 2: Empfehlungliste zu Schmitz tion und beeinflussen ihre Umgebung, indem sie Information in der virtuellen Bibliothek ändern (Beobachtungsagent) oder indem sie Benutzern Ergebnisse präsentieren (Schnittstellenagent). Die Unabhängigkeit der Agenten wird durch eine Abschwächung der Konsistenzbedingungen erreicht. Gleichzeitig werden dadurch weniger Ressourcen benötigt und die Implementierung wird durch Wegfall von Synchronisationsbedingungen einfacher. In diesem Pattern wird ein Gleichgewicht zwischen Konsistenzund Leistungsanforderungen erreicht. In Abbildung 4 zeigen wir eine Architektur für Recommenderdienste, die das Pattern aus Abbildung 3 als eine Agentur von Softwareagenten einbettet. Die Architektur besteht aus drei Schichten: nämlich dem Legacy-Bibliothekssystem, dem Recommendermanagementsystem und dem öffentlichen Web-Katalog (Online Public Access Catalog - OPAC). Im Vergleich zu der in Geyer-Schulz et al. [GSHJ02] vorgestellten generischen Architek- 46 A1: Referenzen:=$hole_Referenzen()$ B2: Ergebnis:=$bearbeite(Anforderung)$ Bib: Bibliothek A3: \"$andere(Info)$ {\tt<\hskip-.5e<}verweist auf{\tt>\hskip-.5e>} A :Beobachtungsagent B :Schnittstellenagent B3: $zeige(Ergebnis)$ :Informationsobj. A2: Info:=$beobachte()$ B1: $sende(Abfrage)$ Benutzer: Benutzer Abbildung 3: Kollaboration zwischen aktiven Agenten in einer Agentur für Bibliotheken. tur entspricht das Legacy-Bibliothekssystem einem Meta-Datenmanagementsystem, das Recommendersystem einem Brokermanagementsystem und der OPAC der B2C-Kundenschnittstelle. Die Aufgabe des in Abbildung 3 dargestellten Beobachtungsagenten wird in zwei Teilaufgaben zerlegt, die durch den Benutzerbeobachtungsagenten und durch den Aggregationsagenten in Abbildung $4 \ddot $ubernommen werden. Die Interaktionen zwischen Personen, Softwareagenten und Informationsspeichern werden durch Pfeile dargestellt. Die Pfeilrichtung zeigt an, wer die Aktivität startet. Ein Name als Beschriftung eines Pfeils beschreibt die Art der Aktivität, bei unbeschrifteten Pfeilen handelt es sich um einfache Informationsanforderungen. Im Legacy-Bibliothekssystem werden Informationsobjekte im traditionellen MAB-Format (Maschinelles Austauschformat für Bibliotheken) [Die99] für Bücher und Journale dargestellt. Das MAB-Format ist nach den Vorgaben der Deutschen Bibliothek für wissenschaftliche Bibliotheken in Deutschland das Meta-Daten Standardformat. In der von uns in diesem Abschnitt vorgeschlagenen Architektur ist die Schnittstelle zwischen dem Legacy- Bibliothekssystem und den beiden anderen Komponenten der Architektur bewußt minimal. Die Schnittstelle besteht nur aus einer einzigen Methode, mit der auf Meta-Daten mit Hilfe eines eindeutigen Objektschlüssels im Bibliothekssystem zugegriffen werden kann. Damit sind sowohl das Recommendermanagementsystem als auch der OPAC fast vollständig von der im Bibliothekssystem verwendeten Datenbanktechnologie unabhängig. Dies ist auch unbedingt erforderlich, da es sich in unserem Fall bei dem zugrunde liegenden System um ein Legacy-Bibliothekssystem ohne Standardschnittstellen für externe Anwendungen handelt. Deshalb sind die von uns benötigten Softwareagenten in die Web- Schnittstelle des OPAC integriert. Dies impliziert auch, das wegen der fehlenden Schnittstellen des Legacy-Systems die Meta-Daten von Informationsobjekten verteilt abgespeichert werden. Informationsbeobachtungsagenten können nur Meta-Daten, die nicht im Legacy-System gespeichert werden, ändern. Diese Art der verteilten Datenhaltung garantiert auf der einen Seite, dass durch Softwareagenten auf keinen Fall Daten im Bibliothekssystem inkonsistent werden, und sie erlaubt andererseits die Integration von agentenbasierten Informationsdiensten, die die Transaktionskosten für das Meta-Datenmanagement reduzieren und die Servicequalität des Bibliothekssystems - zum Beispiel durch verbesserten Zugang zu Information - erhöhen. 47 beobachtet Benutzer- Benutzerbeobachtungsschnittstelle agenten Benutzer verbucht Empfehlungs- Transaktionslogs agenten OPAC Aggregationsagenten Manager des Einzelhandelsverwaltet Empfehlungsdienstes statistiken Recommender Management System verwaltet Bibliothekar Bibliothek Legacy Bibliothekssystem Abbildung 4: Die Architektur einer Bibliothek mit Recommenderdiensten Die Recommendermanagementschicht und der OPAC sind enger gekoppelt. Der Recommenderdienst, den wir in diesem Beitrag beschreiben, basiert auf beobachtetem Benutzerverhalten. In einem Informationsmarkt setzen wir die Auswahl eines Informationsobjekts durch Verfolgen eines Links mit dem Kauf eines Konsumguts gleich. In einer Bibliotheksumgebung entspricht das Betrachten eines detaillierten Bucheintrags dem Verfolgen eines Links in einem Informationsmarkt oder dem Kauf eines Konsumguts. Das Betrachten eines solchen detaillierten Katalogeintrags enthüllt das Interesse des Benutzers an einem bestimmten Buch, Journal oder Multimedia-Dokument. Während Verleihdaten eher Kaufdaten entsprechen, und für dieses Projekt auch verfügbar wären, wurden sie aus zwei Gründen nicht verwendet. Der erste Grund ist der Schutz der Privatsphäre, die durch die Analyse anonymer Benutzersessions nicht verletzt wird. Der zweite Grund liegt im Bias der Verleihdaten wegen des geringen Verfügbarkeitsgrads von Büchern, der zur Zeit etwas über 50\% liegt. Der Benutzerbeobachtungsagent wird durch den Sessionmanager im OPAC implementiert. Er zeichnet Warenkörbe` in HTTP-\Log -Dateien mit in Links eingebetteter Sessioniden- ' tifikationsnummer auf. Gegenüber den in der Literatur (z. B. [Coo00, TK02]) vorgeschlagenen Sessionidentifikationsheuristiken, mit denen ex-post Sessions mit Hilfe von Data- Mining Verfahren rekonstruiert werden, verfügt dieser Ansatz über eine wesentlich höhere Genauigkeit. Preprocessing durch den Benutzerbeobachtungsagenten auf Seiten der Universitätsbibliothek besteht im wesentlichen aus der Extraktion aller HTTP-Get-Requests mit Sessionidentifikationsnummer. Preprocessing am Recommenderserver implementiert 48 Bibliotheks- Empfehlungs- Benutzer server server hole detaillierten Existieren Katalogeintrag Empfehlungen? Seite mit Linkgraphik Link hole Empfehlungsliste Empfehlungsliste Abbildung 5: Message Trace sowohl einfache Verfahren zum Erkennen und Filtern von Web-Robots als auch das Aufsplitten von überlangen Sessions nach 15 Minuten Pause für die öffentlichen Terminals im Bibliotheksgebäude und für Sessions, die von Bookmarks mit in den Link eingebetteten Sessionidentifikationsnummern neu aufgerufen werden. Der Aggregationsagent auf der Ebene des Recommendermanagementsystems erzeugt Warenkörbe, berechnet das im Abschnitt 3 kurz vorgestellte stochastische Kaufverhaltensmodell für jedes Buch und erzeugt Statistiken, um die Qualität der für das Recommendersystem geschätzten Modelle laufend beurteilen zu können. Der Empfehlungsagent liegt am Recommendationserver und ist als serverseitiges Skript implementiert. Er erzeugt Empfehlungsseiten mit der Corporate-Identity der Universitätsbibliothek und der Bibliotheken im Verbund. Dieser Dienst wird durch einen Link, der in den Bucheintrag im OPAC am Bibliotheksserver integriert ist, wenn es Empfehlungen zu einem Buch gibt, angesprochen. Der Link ist nur sichtbar, wenn es Empfehlungen zu einem Buch gibt. Fehlertoleranz im Hinblick auf Systemabstürze des Recommenderdienstes wird - bis auf einen Broken-Image-Fehler - durch Ausnutzung des Alternate-Tag Mechanismus der HTML-Seitenbeschreibungssprache und auf Hardwareseite durch einen Recommenderserver mit unterbrechungsfreier Stromversorgung gewährleistet. Abbildung 5 beschreibt den Message Trace, den der Benutzer auslöst, der den detaillierten Bucheintrag für das Buch Baustoffkunde für Praktiker`, das in Abbildung 1 gezeigt ' wird, anfordert und anschließend die in Abbildung 2 gezeigte Empfehlungsseite verwendet. Um die Last des Bibliotheksservers möglichst gering zu halten, wird in die Seite mit dem detaillierten Katalogeintrag nur mehr ein Link auf die passende, bereits fertige Empfehlungsliste gesetzt. Dadurch und durch einen Cache bleibt der Zusatzaufwand für den Bibliotheksserver auf einen Zugriff pro Buch beschränkt. 3 Der Empfehlungsdienst der Universitätsbibliothek der Universität Karlsruhe (TH) Ehrenbergs [Ehr88] Repeat-Buying Theorie beschreibt die Häufigkeitsverteilung von in einer Sitzung gemeinsam gekauften Informationsprodukten als logarithmische Reihen- $49 f(x_obs)$ $f(x_exp) 10$ Ausreißer
Full Text: PDF