2002/8 | Fachbeitrag | Retrieval

Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?

von Klaus Holthausen

Von Klaus Holthausen

Inhaltsübersicht:

Patentschriften eröffnen den Blick hinter die Kulissen
Das Vektorraum-Modell
Statistische Thesauri
Neurobiologisch motivierte Netzwerke
Wissen bleibt subjektiv
Fazit

Neue – scheinbar intelligente –

Internet-Suchmaschinen wie etwa wisenut

oder vivisimo

verblüffen durch ihre innovativen Funktionen: Jedem Suchwort

werden inhaltliche Kategorien zugeordnet, die die Suche wesentlich

überschaubarer machen. Parallel dazu wird zunehmend auch Datenbank-

und Dokumentenmanagement-Software mit intelligenten Retrieval-Funktionalitäten

ausgestattet. Wie unterscheiden sich nun die zahlreichen Produkte

am Markt technologisch?

Patentschriften eröffnen den Blick hinter die Kulissen

Das Fachvokabular der Produkt-Flyer und Web-Demos ist für

den Laien verwirrend – wie soll man etwa den Unterschied zwischen

"Bayesian Networks" und "Clusterungs-Technologie"

bewerten? Ein kleiner Blick hinter die Kulissen ist möglich,

wenn man sich die Patentschriften im Bereich der Suchtechnologie

näher anschaut. Allein in der Patentklasse G06F verbergen sich

Hunderte Patente, die quasi die Kochrezepte für intelligente

Wissensmanagement-Funktionalitäten enthalten. Als "Anleitungen

zur technischen Lehre" müssen Patentschriften detailliert

abgefasst werden. Software-Patente enthalten üblicherweise

im Anhang Flussdiagramme, die die wesentlichen Merkmale des Verfahrens

illustrieren. Demnach bieten die Patentschriften einen ausgezeichneten

Einstieg in das Studium der verschiedenen Suchtechnologien.

Eine komfortable Patentrecherche ist etwa unter www.delphion.com

möglich. Leider sind seit einigen Monaten ausführliche

Recherchen kostenpflichtig, lediglich die Kurzzusammenfassungen

sind ohne Anmeldung zugänglich. Für jeweils drei Dollar

kann man sich komplette Patentschriften als PDF-Datei herunterladen.

Seitenanfang

Das Vektorraum-Modell

Die Mehrheit der untersuchten Patente für Suchtechnologien

stützt sich auf das so genannte Vektorraum-Modell, zu dem Gerard

Salton wesentliche Beiträge geleistet hat [1].

Was ist nun die grundlegende Idee hinter dem Ansatz von Salton?

Zunächst geht er davon aus, dass zwei Dokumente dann eine inhaltliche

Ähnlichkeit aufweisen, wenn sie möglichst viele Begriffe

gemeinsam enthalten. Für jeden Begriff wird ermittelt, wie

oft er insgesamt im Datenbestand auftritt und wie oft er in einem

einzelnen Dokument enthalten ist. Die relative Häufigkeit eines

Begriffes wird somit zur Gewichtungsgrundlage. Die Abbildung des

Dokumentes auf eine Kette gewichteter Begriffe wird als Vektor bezeichnet.

Diese Vektoren kann man sich als geometrische Objekte – etwa

Pfeile – vorstellen. Wenn zwei Vektoren in dieselbe Richtung

zeigen, sind die dazugehörigen Dokumente ähnlich. Der

Winkel zwischen den beiden Vektoren definiert also das Ähnlichkeitsmaß.

Die Mathematik hierzu ist seit Anfang der 70er Jahre publiziert,

ein Standard-Werk ist das Buch "Introduction to Modern Information

Retrieval" von 1983 [2]. Die Formeln

als solche sind nicht patentierbar.

Wie kommt es dann dennoch zu der Vielzahl der Patente? Im Wesentlichen

sind hier drei Möglichkeiten aufzuführen:

Die Patente beschreiben in der Regel Verfahren oder Systeme. Die Umsetzung der Algorithmen in einem konkreten Datenbank-Umfeld, die Reihenfolge der Verarbeitung sowie die Verteilung der Information variieren. Hier steckt das Know-how quasi im Detail. Zum Beispiel erweisen sich manche Verfahren bei der Verarbeitung großer Datenmengen (> 1 GB) als schlicht zu langsam. Hier haben dann diejenigen Anbieter einen Vorteil, denen es gelingt, durch Vorberechnungen und Verschlankungen des Algorithmus die Performance zu optimieren. Diesen Vorsprung durch ein Patent zu sichern, ist legitim. Die Patentschrift US 6377945 gibt ein aktuelles Beispiel, wie sich die Datenhaltung durch ein spezielles Verfahren ("Sparse suffix trees") optimieren lässt.
Die Formeln werden variiert. Ein Beispiel hierzu gibt die Patentschrift US 5692176 ("Associative text search and retrieval system"). Dort wird nicht unmittelbar mit relativen Häufigkeiten gearbeitet, sondern die Quadrate der Häufigkeiten bilden die Gewichtungsgrundlage. Solche Variationen bilden durchaus einen strategischen Vorteil: Die ad hoc gesetzte Hausformel ist meistens so spezifisch, dass sie in keinem Lehrbuch der Welt auftaucht. Ein naturwissenschaftliches Gesetz als Formel wäre ja auch nicht patentierbar. Meistens wird der Kern-Algorithmus noch um heuristische Regeln ergänzt.
Jemand hat eine wirklich innovative Idee.

Eine hervorragend anschauliche Darstellung der Arbeitsweise des

Vektorraum-Modells gibt die Patentschrift US 4839853 ("Computer

information retrieval using latent semantic structure"). Eine

interessante Variante dieses Verfahrens setzt explizit neuronale

Netzwerke zur Erstellung von Kontext-Vektoren ein (US 5619709).

Da die Vektorraum-Verfahren vom Ansatz her übereinstimmen,

bestimmt meistens der heuristische Anteil über die Qualität

der Suchergebnisse.

Seitenanfang

Statistische Thesauri

Eine Alternative zum Vektorraum-Modell stellen statistische Thesauri

dar (Beispiel: US 5926811). Hier setzt man so an, dass im voraus

Ähnlichkeiten zwischen Begriffen berechnet werden, die dann

bei der Gewichtung von Dokumenten genutzt werden können. Solche

automatisch generierten Thesauri können dann noch durch externe

Daten (z.B. Wörterbücher) ergänzt werden. Diese Systeme

ersparen es dem Anwender, etwaige Variationen seiner Suchanfrage

einzugeben. Lautet das Suchwort beispielsweise "Computer",

so assoziiert der statistische Thesaurus den Begriff "PC"

und ein Wörterbuch könnte den Begriff "Rechner"

hinzufügen. So wird insgesamt eine wesentlich größere

Zahl von Dokumenten berücksichtigt, insbesondere auch diejenigen

Dokumente, die das eigentliche Suchwort nicht enthalten.

Sehr interessant ist die Idee, einzelne Silben und Buchstabenfolgen

als Mikro-Syntax zu betrachten und diesen Gewichtungsfaktoren zuzuordnen

(siehe etwa US 4849898). Bestimmte Regelmäßigkeiten,

die bei der Anwendung dieses Ansatzes auf die arabische Sprache

gefunden wurden, inspirierten hier den Erfinder Dr. Tammam Adi.

Das intelligente Text-Retrieval alleine ermöglicht häufig

noch keine hinreichenden Wissensmanagement-Funktionalitäten.

Sinnvolle Ergänzungen sind die Berücksichtigung von Benutzer-Profilen

(US 6098065) sowie die Implementierung von Knowledge Bases (US 6038560).

Gerade in diesem Umfeld wird sich ein großer Teil der künftigen

Erfindungen bewegen.

Seitenanfang

Neurobiologisch motivierte Netzwerke

Wo sind nun aber künftig wesentliche Innovationen zu erwarten?

Neurowissenschaftler wie etwa Ralph Linsker von der IBM-Forschungsabteilung

in New York haben Ende der 90er Jahre mathematische Verfahren entwickelt,

die die Art und Weise, wie natürliche Nervenzellen Informationen

austauschen, nachbilden. Auf der Basis dieser Technologie lassen

sich leistungsstarke Suchmaschinen herstellen. Als Verfahren zur

Mustererkennung mittels eines "Artificial Neural Device"

wird diese Technologie bereits heute vom US-amerikanischen Militär

genutzt. Mit der Verfügbarkeit leistungsstarker PCs öffnet

sich nun ein breites Anwendungsfeld im Bereich des Wissensmanagements.

Gegenüber klassischen neuronalen Netzwerken bieten die neurobiologisch

motivierten Netzwerke einen ganz wesentlichen Vorteil: Die Netzwerke

müssen nicht trainiert werden, sie legen völlig autonom

die Bedeutung von Information fest.

Das Konzept der so genannten internen Repräsentation beschreibt,

wie neuronale Systeme selbstorganisiert eine Repräsentation

ihrer Welt konstruieren [3]. Dieser Ansatz

hat auch philosophische Konsequenzen: Hat Hegel einst in seiner

"Wissenschaft der Logik" eine selbstreferenzielle Mechanik

des Denkens postuliert, die sich nunmehr auf Computer abzubilden

beginnt? In der Tat lassen sich verblüffende Analogien zwischen

Hegels Logik und der Arbeitsweise selbstorganisierter neuronaler

Netzwerke feststellen [4].

Seitenanfang

Wissen bleibt subjektiv

Bemerkenswert ist, dass Wissen auch künftig subjektiv bleibt.

Ein assoziativer Rechner, der etwa ein Zeitungsarchiv abbildet (ein

Beispiel ist unter www.waz.de

zu erproben), wird letzten Endes lediglich die Themen und den Wortlaut

der Redakteure abbilden. Das gleiche System – angewandt auf

ein anderes Zeitungsarchiv – führt zu völlig anderen

Wissensrepräsentationen: Eine Finanzzeitung hat eine andere

Repräsentation von "Bill Clinton" als etwa ein Boulevard-Blatt.

Aber es geht noch weiter: Der Steuerexperte des Finanzblatts verwendet

explizit ein anderes semantisches Netz als sein Kollege, der über

Börsenkurse berichtet. Die Idee eines weltweiten Semantic Web

übersieht diesen per se subjektiven Charakter von Information.

Jeder Aussagesatz ist eingebettet in eine individuelle Matrix von

Hypothesen und Erfahrungen.

Selbstreferenzielle neuronale Netzwerke sind in der Lage, Brücken

zu bauen zwischen verschiedenen Communities. Die Suche nach Information

hat zur Voraussetzung, dass wir uns über das zu Findende orientieren.

Diese enge Verzahnung zwischen suchen und lernen wird häufig

übersehen. Ein Suchender, dessen Suchanfrage "Mannesmann"

unter anderem auch mit Artikeln über Vodafone beantwortet wird,

wird frustriert sein, wenn er nichts von der Mega-Fusion weiß.

Jede Antwort des Systems bedeutet einen Iterationsschritt für

eine Korrektur der Hypothesen, die der nächsten Frage zugrunde

liegen werden.

Der Mensch, der in der Maschinerie des Wissensmanagements steckt,

wird also unverzichtbar bleiben. Insofern bringen intelligente Suchmaschinen

nicht in erster Linie einen Rationalisierungseffekt, sondern eben

auch Qualifizierungspower. Erst durch intelligente Suchmaschinen

und menschliche Broker, die diese Maschinen bedienen, wird Information

zur handelbaren Ware. Der interaktive Umgang mit Information fördert

nicht nur das Wissen, sondern auch das Verständnis. Und Verständnis

unterscheidet sich von Wissen durch das vernetzte Denken [5].

Seitenanfang

Fazit

Diese Ausführungen zeigen einmal mehr, dass Wissensmanagement

offenbar nur zu einem begrenzten Teil mit Software zu tun hat. Die

Organisation des Umgangs mit Information in den Unternehmen ist

der eigentliche kritische Erfolgsfaktor: Die Diskussion über

Zugriffsrechte im Unternehmen wird zur kontraproduktiven Machtfrage,

wenn untergeordneten Mitarbeitern die Entfaltung ihres semantischen

Netzwerks verwehrt wird.

Noch stehen Erfolgsgeschichten im Zusammenhang mit der Einführung

intelligenten Wissensmanagements in Unternehmen aus. Von der Einführung

des Buchdrucks durch Gutenberg bis zum autonomen Leser, der durch

offene Bibliotheken schreitet, sind Jahrhunderte vergangen. Wie

lange will sich eine Volkswirtschaft Zeit nehmen, den Produktivfaktor

Wissen zu optimieren? Zumal Technologien auf ihre Einführung

warten, vor denen kein Mensch Angst haben muss.

Das wirklich Neue wäre also eine Suchmaschine, in der wir

uns selbst wiederfinden...

Seitenanfang

Literatur

[1] Salton, G.: Recent Studies in Automatic Text Analysis and Document

Retrieval. In: Journal of the Association for Computing Machinery,

vol. 20, No. 2, Apr. 1973.

[2] Salton, G./McGill, M.J.: Introduction to Modern Information

Retrieval. New York 1983.

[3] Schmidt, S.J./Rusch, G./Breidbach, O. (Hrsg.): Interne Repräsentationen

– Neue Konzepte der Hirnforschung. Frankfurt/M. 1996.

[4] Breidbach, O: Deutungen. Velbrück, Weilerswist 2001.

[5] Vester, F.: Leitmotiv vernetztes Denken. München 1990.

Unsere Empfehlungen

Event

Webconference | Prozessdigitalisierung und -automatisierung

18.09.2025

Strukturierte Abläufe, effiziente Prozesse und einheitliche Standards: Ein verlässliches Prozessmanagement ist essentiell, um die Zusammenarbeit von Kollegen zu organisieren. Neben Transparenz braucht es ein Verständnis über vor- und nachgelagerte Prozesse sowie ineinandergreifende Workflows ohne Mehraufwand für den einzelnen Anwender. Mittels Digitalisierung und Automatisierung der admini...

Mehr Infos & Anmeldung

Beitrag

Innovativer Wissenszugriff als Erfolgsfaktor

Faktoren für das Scheitern von Wissensmanagement-Projekten gibt es viele: Machtdenken, abteilungsübergreifende Kommunikationsprobleme, zu hohe Erwartungen an das technisch Machbare, ungenaue Zieldefinitionen oder eine geringe Akzeptanz der Mitarbeiter. Die Nutzung des Wissenspotenzials eines Unternehmens für seine Fortentwicklung bleibt dennoch auf der Tagesordnung; es gilt weiterhin, das Unternehmens-Kn...

Beitrag

Data Dicovery: Schritt für Schritt zur optimierten Informationsstruktur

Intranet, relationale Datenbanken, File-Systeme, alte und neue Anwendungen, Content-Management-Systeme, Unternehmensportale – überall gilt es, Informationen abzulegen und später wieder zu nutzen. In den Frühphasen von Wissensmanagement-Projekten stellen heterogene Informationsstrukturen in unterschiedlichen Systemen und Datenbanken eine besondere Herausforderung dar. Aus den Erfahrungen im Rahmen eines...

Beitrag

Wissensnetze als Langzeitgedächtnis

Die Ansätze, um Wissen formal fassen zu können, reichen von Propositionen, wie sie im Rahmen der KI-Forschung vorgeschlagen wurden, über mathematische Regeln ausgedrückt als Prologregeln oder Begriffsverbände bis hin zu Wissensnetzen. Letztere haben den Vorteil, dass sie effizient handhabbar und mit geeigneten Werkzeugen pflegbar sind. Und dieser Vorteil ist wesentlich, denn wenn Wissen zum erfolgsents...

Event

21. Stuttgarter Wissensmanagement-Tage

25.11.2025

Wissen nutzen. Wissen teilen. Wissen sichern....

Mehr Infos & Anmeldung

Event

Webconference | KI-gestützte Lösungen im Unternehmenseinsatz

15.10.2025

Metaverse, GPT-Technologie & Chatbots: Virtuelle Welten & KI-Tools sind auf dem Vormarsch. Leben, Lernen und Arbeiten verlagern sich mehr und mehr in den virtuellen Raum und werden von intelligenten Assistenten unterstützt. Wie sieht die Arbeit der Zukunft aus? Und mit welchen KI-Tools lässt sich die Effizienz erhöhen und die Produktivität verbessern?...

Mehr Infos & Anmeldung

Event

Webconference | Lösungen für Wissensmanagement: Wissen sammeln, nutzen, entwickeln, teilen, bewerten und erhalten

15.07.2025

Wissen teilen per E-Mail? Daten auswerten in Excel? Und Informationssammlungen in Word? Unternehmen wissen längst, dass Ihr Erfolg maßgeblich von ihren Wissensmanagement-Aktivitäten abhängt. Doch noch viel zu oft werden reibungslose Wissensflüsse durch teaminterne Insellösungen oder tradierte Vorgehensweisen verhindert. Mit der passenden Wissensmanagement-Lösung kanalisieren Sie Ihre Wissensma...

Mehr Infos & Anmeldung

Beitrag

"Esp@cenet – Schweizer Patente online"

Das Eidgenössische Institut für Geistiges Eigentum (IGE) fördert das geschäftliche Potenzial, das in Patenten liegen kann. Damit die Öffentlichkeit – im Besonderen die kleinen und mittleren Unternehmen – für die Informationen in den Patentschriften sensibilisiert wird, haben die Schweiz und andere Mitglieder der Europäischen Patentorganisation ihre Datenbanken im Internet zugänglich gemacht. In ...

Diese Artikel könnten Sie auch interessieren

Finden heißt: Finden können, finden wollen und finden lernen

WISSENplus

Im Auftrag des Bundesministeriums für wirtschaftliche Zusammenarbeit und Entwicklung (BMZ) sowie anderer Geber führt die GTZ Entwicklungsmaßnahmen in der ganzen Welt durch, oft an entlegenen Standorten. Die Berater vor Ort sind bei ihrer Arbeit ständig auf hochwertiges Wissen angewiesen und brauchen flankierend zu ihrer Wissensarbeit eine zuverlässige und nutzerfreundliche IT-Lösung für die unterneh...

Die Informationslawine droht zahlreiche Mittelständler zu überrollen

WISSENplus

„Die E-Mail ist im Postfach meines Kollegen gelandet, können Sie sie mir bitte nochmals schicken?" oder: „Ich kann die letzte Version der Datei gerade nicht finden, werde aber jetzt unseren Netzwerkadministrator um Hilfe bitten", sind Sätze, die Kunden und Mitarbeiter vieler mittelständischer Unternehmen nur zu gut kennen. Auch wenn das papierfreie Büro wohl nie Realität werden wird, so f...

Das Magazin für Digitalisierung, Vernetzung & Collaboration

2002/8 | Fachbeitrag | Retrieval

Alter Wein in modernen Schläuchen – wie innovativ sind intelligente Suchmaschinen wirklich?

Inhaltsübersicht:

Patentschriften eröffnen den Blick hinter die Kulissen

Das Vektorraum-Modell

Statistische Thesauri

Neurobiologisch motivierte Netzwerke

Wissen bleibt subjektiv

Fazit

Literatur

Diese Artikel könnten Sie auch interessieren

Finden heißt: Finden können, finden wollen und finden lernen

Die Informationslawine droht zahlreiche Mittelständler zu überrollen

Innovativer Wissenszugriff als Erfolgsfaktor

"Esp@cenet – Schweizer Patente online"

Wissensnetze als Langzeitgedächtnis

Data Dicovery: Schritt für Schritt zur optimierten Informationsstruktur

Innovativer Wissenszugriff als Erfolgsfaktor

Das Magazin für Digitalisierung, Vernetzung & Collaboration