2002/8 | Fachbeitrag | Retrieval

Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?

von Klaus Holthausen

Von Klaus Holthausen

 

Inhaltsübersicht:

 

 

 

Neue – scheinbar intelligente –

 

Internet-Suchmaschinen wie etwa wisenut

 

oder vivisimo

 

verblüffen durch ihre innovativen Funktionen: Jedem Suchwort

 

werden inhaltliche Kategorien zugeordnet, die die Suche wesentlich

 

überschaubarer machen. Parallel dazu wird zunehmend auch Datenbank-

 

und Dokumentenmanagement-Software mit intelligenten Retrieval-Funktionalitäten

 

ausgestattet. Wie unterscheiden sich nun die zahlreichen Produkte

 

am Markt technologisch?

 

 


Patentschriften eröffnen den Blick hinter die Kulissen

 

 

Das Fachvokabular der Produkt-Flyer und Web-Demos ist für

 

den Laien verwirrend – wie soll man etwa den Unterschied zwischen

 

"Bayesian Networks" und "Clusterungs-Technologie"

 

bewerten? Ein kleiner Blick hinter die Kulissen ist möglich,

 

wenn man sich die Patentschriften im Bereich der Suchtechnologie

 

näher anschaut. Allein in der Patentklasse G06F verbergen sich

 

Hunderte Patente, die quasi die Kochrezepte für intelligente

 

Wissensmanagement-Funktionalitäten enthalten. Als "Anleitungen

 

zur technischen Lehre" müssen Patentschriften detailliert

 

abgefasst werden. Software-Patente enthalten üblicherweise

 

im Anhang Flussdiagramme, die die wesentlichen Merkmale des Verfahrens

 

illustrieren. Demnach bieten die Patentschriften einen ausgezeichneten

 

Einstieg in das Studium der verschiedenen Suchtechnologien.

 

 

 

Eine komfortable Patentrecherche ist etwa unter www.delphion.com

 

möglich. Leider sind seit einigen Monaten ausführliche

 

Recherchen kostenpflichtig, lediglich die Kurzzusammenfassungen

 

sind ohne Anmeldung zugänglich. Für jeweils drei Dollar

 

kann man sich komplette Patentschriften als PDF-Datei herunterladen.

 

Seitenanfang

Das Vektorraum-Modell

 

 

Die Mehrheit der untersuchten Patente für Suchtechnologien

 

stützt sich auf das so genannte Vektorraum-Modell, zu dem Gerard

 

Salton wesentliche Beiträge geleistet hat [1].

 

Was ist nun die grundlegende Idee hinter dem Ansatz von Salton?

 

Zunächst geht er davon aus, dass zwei Dokumente dann eine inhaltliche

 

Ähnlichkeit aufweisen, wenn sie möglichst viele Begriffe

 

gemeinsam enthalten. Für jeden Begriff wird ermittelt, wie

 

oft er insgesamt im Datenbestand auftritt und wie oft er in einem

 

einzelnen Dokument enthalten ist. Die relative Häufigkeit eines

 

Begriffes wird somit zur Gewichtungsgrundlage. Die Abbildung des

 

Dokumentes auf eine Kette gewichteter Begriffe wird als Vektor bezeichnet.

 

Diese Vektoren kann man sich als geometrische Objekte – etwa

 

Pfeile – vorstellen. Wenn zwei Vektoren in dieselbe Richtung

 

zeigen, sind die dazugehörigen Dokumente ähnlich. Der

 

Winkel zwischen den beiden Vektoren definiert also das Ähnlichkeitsmaß.

 

Die Mathematik hierzu ist seit Anfang der 70er Jahre publiziert,

 

ein Standard-Werk ist das Buch "Introduction to Modern Information

 

Retrieval" von 1983 [2]. Die Formeln

 

als solche sind nicht patentierbar.

 

 

 

Wie kommt es dann dennoch zu der Vielzahl der Patente? Im Wesentlichen

 

sind hier drei Möglichkeiten aufzuführen:

 

 

  1. Die Patente beschreiben in der Regel Verfahren oder Systeme. Die Umsetzung der Algorithmen in einem konkreten Datenbank-Umfeld, die Reihenfolge der Verarbeitung sowie die Verteilung der Information variieren. Hier steckt das Know-how quasi im Detail. Zum Beispiel erweisen sich manche Verfahren bei der Verarbeitung großer Datenmengen (> 1 GB) als schlicht zu langsam. Hier haben dann diejenigen Anbieter einen Vorteil, denen es gelingt, durch Vorberechnungen und Verschlankungen des Algorithmus die Performance zu optimieren. Diesen Vorsprung durch ein Patent zu sichern, ist legitim. Die Patentschrift US 6377945 gibt ein aktuelles Beispiel, wie sich die Datenhaltung durch ein spezielles Verfahren ("Sparse suffix trees") optimieren lässt.
  2. Die Formeln werden variiert. Ein Beispiel hierzu gibt die Patentschrift US 5692176 ("Associative text search and retrieval system"). Dort wird nicht unmittelbar mit relativen Häufigkeiten gearbeitet, sondern die Quadrate der Häufigkeiten bilden die Gewichtungsgrundlage. Solche Variationen bilden durchaus einen strategischen Vorteil: Die ad hoc gesetzte Hausformel ist meistens so spezifisch, dass sie in keinem Lehrbuch der Welt auftaucht. Ein naturwissenschaftliches Gesetz als Formel wäre ja auch nicht patentierbar. Meistens wird der Kern-Algorithmus noch um heuristische Regeln ergänzt.
  3. Jemand hat eine wirklich innovative Idee.

 

 

Eine hervorragend anschauliche Darstellung der Arbeitsweise des

 

Vektorraum-Modells gibt die Patentschrift US 4839853 ("Computer

 

information retrieval using latent semantic structure"). Eine

 

interessante Variante dieses Verfahrens setzt explizit neuronale

 

Netzwerke zur Erstellung von Kontext-Vektoren ein (US 5619709).

 

Da die Vektorraum-Verfahren vom Ansatz her übereinstimmen,

 

bestimmt meistens der heuristische Anteil über die Qualität

 

der Suchergebnisse.

 

 

Seitenanfang

Statistische Thesauri

 

 

Eine Alternative zum Vektorraum-Modell stellen statistische Thesauri

 

dar (Beispiel: US 5926811). Hier setzt man so an, dass im voraus

 

Ähnlichkeiten zwischen Begriffen berechnet werden, die dann

 

bei der Gewichtung von Dokumenten genutzt werden können. Solche

 

automatisch generierten Thesauri können dann noch durch externe

 

Daten (z.B. Wörterbücher) ergänzt werden. Diese Systeme

 

ersparen es dem Anwender, etwaige Variationen seiner Suchanfrage

 

einzugeben. Lautet das Suchwort beispielsweise "Computer",

 

so assoziiert der statistische Thesaurus den Begriff "PC"

 

und ein Wörterbuch könnte den Begriff "Rechner"

 

hinzufügen. So wird insgesamt eine wesentlich größere

 

Zahl von Dokumenten berücksichtigt, insbesondere auch diejenigen

 

Dokumente, die das eigentliche Suchwort nicht enthalten.

 

 

 

Sehr interessant ist die Idee, einzelne Silben und Buchstabenfolgen

 

als Mikro-Syntax zu betrachten und diesen Gewichtungsfaktoren zuzuordnen

 

(siehe etwa US 4849898). Bestimmte Regelmäßigkeiten,

 

die bei der Anwendung dieses Ansatzes auf die arabische Sprache

 

gefunden wurden, inspirierten hier den Erfinder Dr. Tammam Adi.

 

 

 

Das intelligente Text-Retrieval alleine ermöglicht häufig

 

noch keine hinreichenden Wissensmanagement-Funktionalitäten.

 

Sinnvolle Ergänzungen sind die Berücksichtigung von Benutzer-Profilen

 

(US 6098065) sowie die Implementierung von Knowledge Bases (US 6038560).

 

Gerade in diesem Umfeld wird sich ein großer Teil der künftigen

 

Erfindungen bewegen.

 

Seitenanfang

 

Neurobiologisch motivierte Netzwerke

 

 

Wo sind nun aber künftig wesentliche Innovationen zu erwarten?

 

Neurowissenschaftler wie etwa Ralph Linsker von der IBM-Forschungsabteilung

 

in New York haben Ende der 90er Jahre mathematische Verfahren entwickelt,

 

die die Art und Weise, wie natürliche Nervenzellen Informationen

 

austauschen, nachbilden. Auf der Basis dieser Technologie lassen

 

sich leistungsstarke Suchmaschinen herstellen. Als Verfahren zur

 

Mustererkennung mittels eines "Artificial Neural Device"

 

wird diese Technologie bereits heute vom US-amerikanischen Militär

 

genutzt. Mit der Verfügbarkeit leistungsstarker PCs öffnet

 

sich nun ein breites Anwendungsfeld im Bereich des Wissensmanagements.

 

 

 

Gegenüber klassischen neuronalen Netzwerken bieten die neurobiologisch

 

motivierten Netzwerke einen ganz wesentlichen Vorteil: Die Netzwerke

 

müssen nicht trainiert werden, sie legen völlig autonom

 

die Bedeutung von Information fest.

 

 

 

Das Konzept der so genannten internen Repräsentation beschreibt,

 

wie neuronale Systeme selbstorganisiert eine Repräsentation

 

ihrer Welt konstruieren [3]. Dieser Ansatz

 

hat auch philosophische Konsequenzen: Hat Hegel einst in seiner

 

"Wissenschaft der Logik" eine selbstreferenzielle Mechanik

 

des Denkens postuliert, die sich nunmehr auf Computer abzubilden

 

beginnt? In der Tat lassen sich verblüffende Analogien zwischen

 

Hegels Logik und der Arbeitsweise selbstorganisierter neuronaler

 

Netzwerke feststellen [4].

 

 

Seitenanfang

Wissen bleibt subjektiv

 

 

Bemerkenswert ist, dass Wissen auch künftig subjektiv bleibt.

 

Ein assoziativer Rechner, der etwa ein Zeitungsarchiv abbildet (ein

 

Beispiel ist unter www.waz.de

 

zu erproben), wird letzten Endes lediglich die Themen und den Wortlaut

 

der Redakteure abbilden. Das gleiche System – angewandt auf

 

ein anderes Zeitungsarchiv – führt zu völlig anderen

 

Wissensrepräsentationen: Eine Finanzzeitung hat eine andere

 

Repräsentation von "Bill Clinton" als etwa ein Boulevard-Blatt.

 

Aber es geht noch weiter: Der Steuerexperte des Finanzblatts verwendet

 

explizit ein anderes semantisches Netz als sein Kollege, der über

 

Börsenkurse berichtet. Die Idee eines weltweiten Semantic Web

 

übersieht diesen per se subjektiven Charakter von Information.

 

Jeder Aussagesatz ist eingebettet in eine individuelle Matrix von

 

Hypothesen und Erfahrungen.

 

 

 

Selbstreferenzielle neuronale Netzwerke sind in der Lage, Brücken

 

zu bauen zwischen verschiedenen Communities. Die Suche nach Information

 

hat zur Voraussetzung, dass wir uns über das zu Findende orientieren.

 

Diese enge Verzahnung zwischen suchen und lernen wird häufig

 

übersehen. Ein Suchender, dessen Suchanfrage "Mannesmann"

 

unter anderem auch mit Artikeln über Vodafone beantwortet wird,

 

wird frustriert sein, wenn er nichts von der Mega-Fusion weiß.

 

Jede Antwort des Systems bedeutet einen Iterationsschritt für

 

eine Korrektur der Hypothesen, die der nächsten Frage zugrunde

 

liegen werden.

 

 

 

Der Mensch, der in der Maschinerie des Wissensmanagements steckt,

 

wird also unverzichtbar bleiben. Insofern bringen intelligente Suchmaschinen

 

nicht in erster Linie einen Rationalisierungseffekt, sondern eben

 

auch Qualifizierungspower. Erst durch intelligente Suchmaschinen

 

und menschliche Broker, die diese Maschinen bedienen, wird Information

 

zur handelbaren Ware. Der interaktive Umgang mit Information fördert

 

nicht nur das Wissen, sondern auch das Verständnis. Und Verständnis

 

unterscheidet sich von Wissen durch das vernetzte Denken [5].

 

 

 

 

Seitenanfang

Fazit

 

 

Diese Ausführungen zeigen einmal mehr, dass Wissensmanagement

 

offenbar nur zu einem begrenzten Teil mit Software zu tun hat. Die

 

Organisation des Umgangs mit Information in den Unternehmen ist

 

der eigentliche kritische Erfolgsfaktor: Die Diskussion über

 

Zugriffsrechte im Unternehmen wird zur kontraproduktiven Machtfrage,

 

wenn untergeordneten Mitarbeitern die Entfaltung ihres semantischen

 

Netzwerks verwehrt wird.

 

 

 

Noch stehen Erfolgsgeschichten im Zusammenhang mit der Einführung

 

intelligenten Wissensmanagements in Unternehmen aus. Von der Einführung

 

des Buchdrucks durch Gutenberg bis zum autonomen Leser, der durch

 

offene Bibliotheken schreitet, sind Jahrhunderte vergangen. Wie

 

lange will sich eine Volkswirtschaft Zeit nehmen, den Produktivfaktor

 

Wissen zu optimieren? Zumal Technologien auf ihre Einführung

 

warten, vor denen kein Mensch Angst haben muss.

 

 

 

Das wirklich Neue wäre also eine Suchmaschine, in der wir

 

uns selbst wiederfinden...

 

Seitenanfang

Literatur

 

 

[1] Salton, G.: Recent Studies in Automatic Text Analysis and Document

 

Retrieval. In: Journal of the Association for Computing Machinery,

 

vol. 20, No. 2, Apr. 1973.

 

 

 

[2] Salton, G./McGill, M.J.: Introduction to Modern Information

 

Retrieval. New York 1983.

 

 

 

[3] Schmidt, S.J./Rusch, G./Breidbach, O. (Hrsg.): Interne Repräsentationen

 

– Neue Konzepte der Hirnforschung. Frankfurt/M. 1996.

 

 

[4] Breidbach, O: Deutungen. Velbrück, Weilerswist 2001.

 

[5] Vester, F.: Leitmotiv vernetztes Denken. München 1990.

Diese Artikel könnten Sie auch interessieren

Wissensnetze als Langzeitgedächtnis

Die Ansätze, um Wissen formal fassen zu können, reichen von Propositionen, wie sie im Rahmen der KI-Forschung vorgeschlagen wurden, über mathematische Regeln ausgedrückt als Prologregeln oder Begriffsverbände bis hin zu Wissensnetzen. Letztere haben den Vorteil, dass sie effizient handhabbar und mit geeigneten Werkzeugen pflegbar sind. Und dieser Vorteil ist wesentlich, denn wenn Wissen zum erfolgsents...

Weiterlesen

Finden heißt: Finden können, finden wollen und finden lernen

WISSENplus
Im Auftrag des Bundesministeriums für wirtschaftliche Zusammenarbeit und Entwicklung (BMZ) sowie anderer Geber führt die GTZ Entwicklungsmaßnahmen in der ganzen Welt durch, oft an entlegenen Standorten. Die Berater vor Ort sind bei ihrer Arbeit ständig auf hochwertiges Wissen angewiesen und brauchen flankierend zu ihrer Wissensarbeit eine zuverlässige und nutzerfreundliche IT-Lösung für die unterneh...

Weiterlesen

Die Informationslawine droht zahlreiche Mittelständler zu überrollen

WISSENplus
„Die E-Mail ist im Postfach meines Kollegen gelandet, können Sie sie mir bitte nochmals schicken?" oder: „Ich kann die letzte Version der Datei gerade nicht finden, werde aber jetzt unseren Netzwerkadministrator um Hilfe bitten", sind Sätze, die Kunden und Mitarbeiter vieler mittelständischer Unternehmen nur zu gut kennen. Auch wenn das papierfreie Büro wohl nie Realität werden wird, so f...

Weiterlesen

Innovativer Wissenszugriff als Erfolgsfaktor

Faktoren für das Scheitern von Wissensmanagement-Projekten gibt es viele: Machtdenken, abteilungsübergreifende Kommunikationsprobleme, zu hohe Erwartungen an das technisch Machbare, ungenaue Zieldefinitionen oder eine geringe Akzeptanz der Mitarbeiter. Die Nutzung des Wissenspotenzials eines Unternehmens für seine Fortentwicklung bleibt dennoch auf der Tagesordnung; es gilt weiterhin, das Unternehmens-Kn...

Weiterlesen

Data Dicovery: Schritt für Schritt zur optimierten Informationsstruktur

Intranet, relationale Datenbanken, File-Systeme, alte und neue Anwendungen, Content-Management-Systeme, Unternehmensportale – überall gilt es, Informationen abzulegen und später wieder zu nutzen. In den Frühphasen von Wissensmanagement-Projekten stellen heterogene Informationsstrukturen in unterschiedlichen Systemen und Datenbanken eine besondere Herausforderung dar. Aus den Erfahrungen im Rahmen eines...

Weiterlesen

Innovativer Wissenszugriff als Erfolgsfaktor

Faktoren für das Scheitern von Wissensmanagement-Projekten gibt es viele: Machtdenken, abteilungsübergreifende Kommunikationsprobleme, zu hohe Erwartungen an das technisch Machbare, ungenaue Zieldefinitionen oder eine geringe Akzeptanz der Mitarbeiter. Die Nutzung des Wissenspotenzials eines Unternehmens für seine Fortentwicklung bleibt dennoch auf der Tagesordnung; es gilt weiterhin, das Unternehmens-Kn...

Weiterlesen

"Esp@cenet – Schweizer Patente online"

Das Eidgenössische Institut für Geistiges Eigentum (IGE) fördert das geschäftliche Potenzial, das in Patenten liegen kann. Damit die Öffentlichkeit – im Besonderen die kleinen und mittleren Unternehmen – für die Informationen in den Patentschriften sensibilisiert wird, haben die Schweiz und andere Mitglieder der Europäischen Patentorganisation ihre Datenbanken im Internet zugänglich gemacht. In ...

Weiterlesen