logo picture

PRINT Magazin


ONLINE


Know-how


Suche

  
  

 

Start : Online Magazin : Archiv : 2002 : Ausgabe August/September : Alter Wein in modernen Schläuchen

Druckansicht Weiterempfehlen

Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?

Von Klaus Holthausen

Inhaltsübersicht:

Neue – scheinbar intelligente – Internet-Suchmaschinen wie etwa wisenut oder vivisimo verblüffen durch ihre innovativen Funktionen: Jedem Suchwort werden inhaltliche Kategorien zugeordnet, die die Suche wesentlich überschaubarer machen. Parallel dazu wird zunehmend auch Datenbank- und Dokumentenmanagement-Software mit intelligenten Retrieval-Funktionalitäten ausgestattet. Wie unterscheiden sich nun die zahlreichen Produkte am Markt technologisch?


Patentschriften eröffnen den Blick hinter die Kulissen

Das Fachvokabular der Produkt-Flyer und Web-Demos ist für den Laien verwirrend – wie soll man etwa den Unterschied zwischen "Bayesian Networks" und "Clusterungs-Technologie" bewerten? Ein kleiner Blick hinter die Kulissen ist möglich, wenn man sich die Patentschriften im Bereich der Suchtechnologie näher anschaut. Allein in der Patentklasse G06F verbergen sich Hunderte Patente, die quasi die Kochrezepte für intelligente Wissensmanagement-Funktionalitäten enthalten. Als "Anleitungen zur technischen Lehre" müssen Patentschriften detailliert abgefasst werden. Software-Patente enthalten üblicherweise im Anhang Flussdiagramme, die die wesentlichen Merkmale des Verfahrens illustrieren. Demnach bieten die Patentschriften einen ausgezeichneten Einstieg in das Studium der verschiedenen Suchtechnologien.

Eine komfortable Patentrecherche ist etwa unter www.delphion.com möglich. Leider sind seit einigen Monaten ausführliche Recherchen kostenpflichtig, lediglich die Kurzzusammenfassungen sind ohne Anmeldung zugänglich. Für jeweils drei Dollar kann man sich komplette Patentschriften als PDF-Datei herunterladen.

Seitenanfang

Das Vektorraum-Modell

Die Mehrheit der untersuchten Patente für Suchtechnologien stützt sich auf das so genannte Vektorraum-Modell, zu dem Gerard Salton wesentliche Beiträge geleistet hat [1]. Was ist nun die grundlegende Idee hinter dem Ansatz von Salton? Zunächst geht er davon aus, dass zwei Dokumente dann eine inhaltliche Ähnlichkeit aufweisen, wenn sie möglichst viele Begriffe gemeinsam enthalten. Für jeden Begriff wird ermittelt, wie oft er insgesamt im Datenbestand auftritt und wie oft er in einem einzelnen Dokument enthalten ist. Die relative Häufigkeit eines Begriffes wird somit zur Gewichtungsgrundlage. Die Abbildung des Dokumentes auf eine Kette gewichteter Begriffe wird als Vektor bezeichnet. Diese Vektoren kann man sich als geometrische Objekte – etwa Pfeile – vorstellen. Wenn zwei Vektoren in dieselbe Richtung zeigen, sind die dazugehörigen Dokumente ähnlich. Der Winkel zwischen den beiden Vektoren definiert also das Ähnlichkeitsmaß. Die Mathematik hierzu ist seit Anfang der 70er Jahre publiziert, ein Standard-Werk ist das Buch "Introduction to Modern Information Retrieval" von 1983 [2]. Die Formeln als solche sind nicht patentierbar.

Wie kommt es dann dennoch zu der Vielzahl der Patente? Im Wesentlichen sind hier drei Möglichkeiten aufzuführen:

  1. Die Patente beschreiben in der Regel Verfahren oder Systeme. Die Umsetzung der Algorithmen in einem konkreten Datenbank-Umfeld, die Reihenfolge der Verarbeitung sowie die Verteilung der Information variieren. Hier steckt das Know-how quasi im Detail. Zum Beispiel erweisen sich manche Verfahren bei der Verarbeitung großer Datenmengen (> 1 GB) als schlicht zu langsam. Hier haben dann diejenigen Anbieter einen Vorteil, denen es gelingt, durch Vorberechnungen und Verschlankungen des Algorithmus die Performance zu optimieren. Diesen Vorsprung durch ein Patent zu sichern, ist legitim. Die Patentschrift US 6377945 gibt ein aktuelles Beispiel, wie sich die Datenhaltung durch ein spezielles Verfahren ("Sparse suffix trees") optimieren lässt.
  2. Die Formeln werden variiert. Ein Beispiel hierzu gibt die Patentschrift US 5692176 ("Associative text search and retrieval system"). Dort wird nicht unmittelbar mit relativen Häufigkeiten gearbeitet, sondern die Quadrate der Häufigkeiten bilden die Gewichtungsgrundlage. Solche Variationen bilden durchaus einen strategischen Vorteil: Die ad hoc gesetzte Hausformel ist meistens so spezifisch, dass sie in keinem Lehrbuch der Welt auftaucht. Ein naturwissenschaftliches Gesetz als Formel wäre ja auch nicht patentierbar. Meistens wird der Kern-Algorithmus noch um heuristische Regeln ergänzt.
  3. Jemand hat eine wirklich innovative Idee.

Eine hervorragend anschauliche Darstellung der Arbeitsweise des Vektorraum-Modells gibt die Patentschrift US 4839853 ("Computer information retrieval using latent semantic structure"). Eine interessante Variante dieses Verfahrens setzt explizit neuronale Netzwerke zur Erstellung von Kontext-Vektoren ein (US 5619709). Da die Vektorraum-Verfahren vom Ansatz her übereinstimmen, bestimmt meistens der heuristische Anteil über die Qualität der Suchergebnisse.

Seitenanfang

Statistische Thesauri

Eine Alternative zum Vektorraum-Modell stellen statistische Thesauri dar (Beispiel: US 5926811). Hier setzt man so an, dass im voraus Ähnlichkeiten zwischen Begriffen berechnet werden, die dann bei der Gewichtung von Dokumenten genutzt werden können. Solche automatisch generierten Thesauri können dann noch durch externe Daten (z.B. Wörterbücher) ergänzt werden. Diese Systeme ersparen es dem Anwender, etwaige Variationen seiner Suchanfrage einzugeben. Lautet das Suchwort beispielsweise "Computer", so assoziiert der statistische Thesaurus den Begriff "PC" und ein Wörterbuch könnte den Begriff "Rechner" hinzufügen. So wird insgesamt eine wesentlich größere Zahl von Dokumenten berücksichtigt, insbesondere auch diejenigen Dokumente, die das eigentliche Suchwort nicht enthalten.

Sehr interessant ist die Idee, einzelne Silben und Buchstabenfolgen als Mikro-Syntax zu betrachten und diesen Gewichtungsfaktoren zuzuordnen (siehe etwa US 4849898). Bestimmte Regelmäßigkeiten, die bei der Anwendung dieses Ansatzes auf die arabische Sprache gefunden wurden, inspirierten hier den Erfinder Dr. Tammam Adi.

Das intelligente Text-Retrieval alleine ermöglicht häufig noch keine hinreichenden Wissensmanagement-Funktionalitäten. Sinnvolle Ergänzungen sind die Berücksichtigung von Benutzer-Profilen (US 6098065) sowie die Implementierung von Knowledge Bases (US 6038560). Gerade in diesem Umfeld wird sich ein großer Teil der künftigen Erfindungen bewegen.

Seitenanfang

Neurobiologisch motivierte Netzwerke

Wo sind nun aber künftig wesentliche Innovationen zu erwarten? Neurowissenschaftler wie etwa Ralph Linsker von der IBM-Forschungsabteilung in New York haben Ende der 90er Jahre mathematische Verfahren entwickelt, die die Art und Weise, wie natürliche Nervenzellen Informationen austauschen, nachbilden. Auf der Basis dieser Technologie lassen sich leistungsstarke Suchmaschinen herstellen. Als Verfahren zur Mustererkennung mittels eines "Artificial Neural Device" wird diese Technologie bereits heute vom US-amerikanischen Militär genutzt. Mit der Verfügbarkeit leistungsstarker PCs öffnet sich nun ein breites Anwendungsfeld im Bereich des Wissensmanagements.

Gegenüber klassischen neuronalen Netzwerken bieten die neurobiologisch motivierten Netzwerke einen ganz wesentlichen Vorteil: Die Netzwerke müssen nicht trainiert werden, sie legen völlig autonom die Bedeutung von Information fest.

Das Konzept der so genannten internen Repräsentation beschreibt, wie neuronale Systeme selbstorganisiert eine Repräsentation ihrer Welt konstruieren [3]. Dieser Ansatz hat auch philosophische Konsequenzen: Hat Hegel einst in seiner "Wissenschaft der Logik" eine selbstreferenzielle Mechanik des Denkens postuliert, die sich nunmehr auf Computer abzubilden beginnt? In der Tat lassen sich verblüffende Analogien zwischen Hegels Logik und der Arbeitsweise selbstorganisierter neuronaler Netzwerke feststellen [4].

Seitenanfang

Wissen bleibt subjektiv

Bemerkenswert ist, dass Wissen auch künftig subjektiv bleibt. Ein assoziativer Rechner, der etwa ein Zeitungsarchiv abbildet (ein Beispiel ist unter www.waz.de zu erproben), wird letzten Endes lediglich die Themen und den Wortlaut der Redakteure abbilden. Das gleiche System – angewandt auf ein anderes Zeitungsarchiv – führt zu völlig anderen Wissensrepräsentationen: Eine Finanzzeitung hat eine andere Repräsentation von "Bill Clinton" als etwa ein Boulevard-Blatt. Aber es geht noch weiter: Der Steuerexperte des Finanzblatts verwendet explizit ein anderes semantisches Netz als sein Kollege, der über Börsenkurse berichtet. Die Idee eines weltweiten Semantic Web übersieht diesen per se subjektiven Charakter von Information. Jeder Aussagesatz ist eingebettet in eine individuelle Matrix von Hypothesen und Erfahrungen.

Selbstreferenzielle neuronale Netzwerke sind in der Lage, Brücken zu bauen zwischen verschiedenen Communities. Die Suche nach Information hat zur Voraussetzung, dass wir uns über das zu Findende orientieren. Diese enge Verzahnung zwischen suchen und lernen wird häufig übersehen. Ein Suchender, dessen Suchanfrage "Mannesmann" unter anderem auch mit Artikeln über Vodafone beantwortet wird, wird frustriert sein, wenn er nichts von der Mega-Fusion weiß. Jede Antwort des Systems bedeutet einen Iterationsschritt für eine Korrektur der Hypothesen, die der nächsten Frage zugrunde liegen werden.

Der Mensch, der in der Maschinerie des Wissensmanagements steckt, wird also unverzichtbar bleiben. Insofern bringen intelligente Suchmaschinen nicht in erster Linie einen Rationalisierungseffekt, sondern eben auch Qualifizierungspower. Erst durch intelligente Suchmaschinen und menschliche Broker, die diese Maschinen bedienen, wird Information zur handelbaren Ware. Der interaktive Umgang mit Information fördert nicht nur das Wissen, sondern auch das Verständnis. Und Verständnis unterscheidet sich von Wissen durch das vernetzte Denken [5].

Seitenanfang

Fazit

Diese Ausführungen zeigen einmal mehr, dass Wissensmanagement offenbar nur zu einem begrenzten Teil mit Software zu tun hat. Die Organisation des Umgangs mit Information in den Unternehmen ist der eigentliche kritische Erfolgsfaktor: Die Diskussion über Zugriffsrechte im Unternehmen wird zur kontraproduktiven Machtfrage, wenn untergeordneten Mitarbeitern die Entfaltung ihres semantischen Netzwerks verwehrt wird.

Noch stehen Erfolgsgeschichten im Zusammenhang mit der Einführung intelligenten Wissensmanagements in Unternehmen aus. Von der Einführung des Buchdrucks durch Gutenberg bis zum autonomen Leser, der durch offene Bibliotheken schreitet, sind Jahrhunderte vergangen. Wie lange will sich eine Volkswirtschaft Zeit nehmen, den Produktivfaktor Wissen zu optimieren? Zumal Technologien auf ihre Einführung warten, vor denen kein Mensch Angst haben muss.

Das wirklich Neue wäre also eine Suchmaschine, in der wir uns selbst wiederfinden...

Seitenanfang

Literatur

[1] Salton, G.: Recent Studies in Automatic Text Analysis and Document Retrieval. In: Journal of the Association for Computing Machinery, vol. 20, No. 2, Apr. 1973.

[2] Salton, G./McGill, M.J.: Introduction to Modern Information Retrieval. New York 1983.

[3] Schmidt, S.J./Rusch, G./Breidbach, O. (Hrsg.): Interne Repräsentationen – Neue Konzepte der Hirnforschung. Frankfurt/M. 1996.

[4] Breidbach, O: Deutungen. Velbrück, Weilerswist 2001.

[5] Vester, F.: Leitmotiv vernetztes Denken. München 1990.

< < < zurück zur Übersicht


Seitenanfang


r_aktuell picture

titel picture

Test-Angebot anfordern!

linie picture

r_anzeige picture

linie picture

r_newsletter picture



Bestellen
Abbestellen

linie picture

Letzte Änderung: 24.07.2006 | Impressum | Kontakt

blanko picture