2006/4 | Fachbeitrag | Suchmaschine

Suchen: gewusst wie

von Benno Nieswand

Von Benno Nieswand

Inhaltsübersicht:

Dass die Internetrecherche in den letzten Jahren einfacher geworden ist, verdanken wir den Suchmaschinen. Sie durchforsten Datenbanken, zeigen dem Nutzer jedoch nicht immer die gewünschten Treffer an. Denn meist muss er wissen, wie die Daten und Dokumente in der Datenbank eingetragen wurden. Sind beispielsweise die Umlaute in oe, ae und ue aufgelöst oder blieben sie erhalten? Ob Tippfehler, neue Rechtschreibung, Wortverdreher, Wortgruppierungen - es gibt viele Ursachen für solche "Fehleingaben". Wenn das Suchsystem diese Fälle nicht sinngemäß tolerieren kann, werden keine oder falsche Ergebnisse geliefert. Eine erfolglose Suche ist frustrierend. In der Regel beschwert sich kein Anwender darüber, dass er alles korrekt eingeben muss. Er kennt es von einem Computer nicht anders und ärgert sich im Stillen. Die Konsequenzen einer nicht auffindbaren Information sind allerdings nicht unerheblich. Mancher Kunde eines Online-Shops wird nach wiederholter fehlgeschlagener Suche künftig seinen Warenkorb in einem anderen Laden bestücken. Aber auch unternehmensintern gilt: Können IT-Anwendungen nicht voll ausgeschöpft werden, nehmen die Nutzer sie nicht an. Und das bedeutet erhebliche Kosten.

 

 

 

 

 

 

 

 

 

<script language="javascript" type="text/javascript">

 

 

 

 

 

 

Fehlertolerante Datenbanken unterstützen den Anwender bei seiner Recherche

 

Populäre Internetsuchmaschinen machen den Anwender durch den Hinweis "Meinten Sie:" auf mögliche Irrtümer aufmerksam (zum Beispiel Google). Wird zu einem Suchbegriff keine überzeugende Zahl an Webseiten gefunden, erhält der Nutzer einen alternativen Vorschlag. Ein Programm im Hintergrund sucht hierfür Ausdrücke, die zwar anders geschrieben, aber doch gleich oder ähnlich ausgesprochen werden. Oftmals wird dabei eine ausschließlich „phonetische Suche“ eingesetzt. Man kann von einem Programm dieser Art also erwarten, dass es bei einer Suche nach "Ritmus" als Alternative "Rhythmus" anbietet oder von sich aus den Ausdruck "Rhythmus" in die Suche einschließt. Bei einer Recherche nach "Meyer" sollte auch "Mayer" mit einbezogen werden und bei einer Suche nach "Operhausen“ auch "Oberhausen".

 

 

  • Doch auch dieser Lösungsansatz verzeiht die Eingabefehler der Anwender nur begrenzt. Er basiert auf vorher festgelegten Regeln, die beispielsweise definieren, dass „ey“ und „ay“ gleichwertig zu behandeln sind. Dieses Vorgehen ist in dreierlei Hinsicht problematisch:
  • Regeln erfassen immer nur die vorhersehbaren Fehler. Die meisten Fehler sind jedoch unerwartet und statistisch nicht relevant.
  • Regeln beschreiben einen Sachverhalt nur durch die Klassifizierung von schwarz/weiß. Das heißt, sie treffen zu oder nicht. Folglich könnte ein kleiner Fehler einen Treffer unmöglich machen. Beispiel: Wenn „ey“ versehentlich als „ye“ eingegeben wird, funktioniert eine solche Regel schon nicht mehr.
  • Regeln können zu sehr langen Abfragezeiten führen. Da sie begrenzt sind, hegte man die Hoffnung, dass Systeme selber lernen und weitere Regeln hinzufügen könnten. Stichwort: Künstliche Intelligenz. Dieser Ansatz führt zwar in Einzelfällen zu verblüffenden Ergebnissen, aber das Regelwerk wird schnell zu rechenintensiv, ist nicht mehr transparent und damit nicht mehr handhabbar und optimierbar.

Der dritte Ansatz zur Fehlertoleranz, der algorithmische Ansatz, hat nicht die Probleme der regelbasierten und statistischen Verfahren. Beim algorithmischen Ansatz wird die Ähnlichkeit einer Anfrage mit allen Datenbankeinträgen mittels eines definierten Algorithmus verglichen. Dabei gibt es verschiedene Vorgehensweisen: die Feature-basierten Techniken, auch Assoziative Speicher genannt, und die Ganzwort-Algorithmen wie die Edit-Distanz-Berechnung. Erstere sind aus verschiedenen Gründen für den Einsatz in der Optischen Zeichenerkennung (OCR) nicht geeignet. Bei den Ganzwort-Algorithmen ist die Edit-Distanz anerkannterweise die sinnvollste. Dabei wird die Ähnlichkeit von Begriffen auf der Basis der einzelnen Buchstaben der Anfrage und der Reihenfolge dieser Buchstaben einerseits sowie einem Datenbankeintrag andererseits berechnet. Dieser Ansatz wird daher von Wissenschaftlern als die optimale Lösung angesehen. Problematisch war bisher, dass der Algorithmus nicht effizient und schnell implementiert werden konnte und somit völlig ungeeignet für Datenbanken mit 100.000 oder mehr Einträgen war.

 

 

Inzwischen ist es einigen Unternehmen gelungen, die Edit-Distanz effizient zu implementieren und diese darüber hinaus auch mit anderen Algorithmen zu kombinieren. Derartige Lösungen können auf viele spezielle Situationen angepasst werden. Es ist daher möglich, dass bei einer Datenbank mit 38 Millionen Adressdaten die Antwortzeit bei 150 Millisekunden liegt, auch wenn alle Datenbankfelder gleichzeitig mit OCR-Fehlern gespickt abgefragt werden. Wertvoll wird der algorithmische Ansatz insbesondere durch den Mehrfeld-Querabgleich, mit dem sich fehlerhafte Ergebnisse aus mehreren Feldern miteinander korrelieren und bewerten lassen. Der Kontext bleibt erhalten. Wenn ein Leseergebnis wie „?lebvrg?r Slr – ?re?kfart“ ? --> automatisch in „Dieburger Str. – Frankfurt“ korrigiert werden kann, bedeutet das die Einsparung enormer Kosten in der manuellen Nachbearbeitung.

 

 

Erfassen neuer Daten und Dokumente

 

Im Bereich OCR/Datenerfassung werden die Kosten mit approximativen Datenbankzugriffen gesenkt, weil sie die Automatisierungsrate steigern. Datenbanken, die bereits bei der Eingabe automatisch gegen bestehende Inhalte abgleichen, minimieren von Anfang an die Fehlerquote bei neuen Daten und Dokumenten. Ein Beispiel hierfür ist das Anlegen und die Pflege von Adressdatenbanken. Der Suchende erhält als Ergebnis eine nach Übereinstimmungsgrad geordnete Trefferliste. Zusätzlich bietet die Datenbank auch eine Liste alternativer, ähnlich geschriebener Termini, in der der Nutzer die Schreibweise des gemeinten Suchbegriffs ermitteln und eine weitere Recherche anstoßen kann. Die eingesetzte Software legt dazu einen eigenen Index über den Datenbestand an und erzielt dadurch performante Ergebnisse. Fehlerhafte Eingaben gehören somit künftig der Vergangenheit an und die Qualität der Einträge wird um ein Vielfaches gesteigert. Zugleich entfällt der Arbeitsaufwand, per Hand fehlerhafte Adressen oder Artikelbezeichnungen korrigieren zu müssen.

 

Integration in vorhandene Datenbanken

In der Regel laufen die performanten Systeme unabhängig von einer Datenbank. Die Suche wird der Datenbank vorgeschaltet, findet im RAM-Speicher statt und verweist dann auf die Datenbank. Die Datenbank-Architektur muss daher nicht geändert werden. Dadurch lässt sich der Integrationsaufwand gering halten. Die Anbindung einer OCR-Validierung dauert zirka einen Tag. Bei einer Suchlösung, beispielsweise für ein Archiv, sollte man mit zwei Tagen rechnen.

Diese Artikel könnten Sie auch interessieren

Highspeed Internet – Highspeed Kundensupport

Mehr und mehr sind für Endkunden die früher getrennten Kommunikationsdienstleistungen heute aus einer Hand verfügbar: Telefonie, Internetzugang und TV-Versorgung gibt es vom selben Anbieter. Experten kennen das unter dem Schlagwort Triple Play. Dieser Entwicklung ist auch die Belgacom Group in Brüssel gefolgt. Das führende Telekommunikationsunternehmen Belgiens vergrößert sein Dienstleistungsportfoli...

Weiterlesen

Semantische Suchtechnologie trifft ins Schwarze

WISSENplus
Online-Kommunikation ist für Ministerien und öffentliche Stellen mittlerweile ein unerlässliches Mittel, um Bürger über die eigene Arbeit, neue Programme und Regelungen aufzuklären. Institutionen in Bund und Ländern müssen viel Zeit und Geld aufwenden, um die oft umfangreichen und komplexen Informationen verständlich zusammenzufassen und den Bürger effektiv beraten zu können. Das Beispiel des Bun...

Weiterlesen

Recherche-Tools: Masse mit Klasse

Online-Bibliothekskataloge verwalten heutzutage Millionen von Dokumenten und Einträgen. Viel zu häufig entwickelte sich die Suche in solchen Wissensschätzen bisher jedoch zu einer zeitaufwändigen Arbeit. Das soll künftig anders werden: Neue Recherche-Technologien revolutionieren derzeit das Bibliothekswesen. Das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) setzt diese Entwicklungen ...

Weiterlesen

Datenchaos: Suche als größte Effizienzbremse im Arbeitsalltag

WISSENplus
Haben unsere Mitarbeiter überhaupt noch Zeit fürs Wesentliche? Diese Frage stellen sich Firmenchefs großer wie kleiner Unternehmen immer häufiger. Denn in Zeiten eines rasanten Datenwachstums verbringen Angestellte rund ein Viertel ihrer Arbeitszeit allein damit, Dateien, Dokumente und Informationen aufzufinden, die an den unterschiedlichsten Stellen im Unternehmen abgelegt wurden – Tendenz steigend. ...

Weiterlesen

Internetsuche - nichts für den Unternehmensalltag?

WISSENplus
Die Navigation durch die unternehmensweiten Informationen und der gezielte Zugriff auf benötigtes Wissen sind aus Effizienzgründen, aber auch aus regulatorischer Sicht unerlässlich. So stecken heute hinter der Suchfunktionalität von Produkten für das Informationsmanagement in der Regel mehrere Suchmethoden, meist eine Kombination aus Schlüsselfeld- und Volltextsuche mit verschiedenen ausgefeilten Alg...

Weiterlesen

Unternehmen müssen jetzt das Fundament für Big Data legen

WISSENplus
Die größten Herausforderungen im Umgang mit großen Datenmengen sehen IT-Verantwortliche im Management der steigenden Datenflut, der schnellen Verfügbarkeit relevanter Daten sowie der daraus resultierenden Optimierung von Prozessabläufen im Unternehmen. Das geht aus einer aktuellen CIO-Studie hervor. Dr. Wolfram Jost, Chief Technology Officer und Mitglied im Vorstand der Software AG, gibt im Interview m...

Weiterlesen

Unternehmen entdecken die Vorteile von Enterprise Search

WISSENplus
Eine Suche im Internet liefert in Sekundenbruchteilen Ergebnisse. Einfach, schnell und unkompliziert. Im Unternehmen genauso komfortabel nach Informationen zu suchen wie im Internet – das erwarten Mitarbeiter von einer organisationsinternen Suche. Obwohl es auf dem Markt mittlerweile eine Reihe von Enterprise-Search-Lösungen gibt, zögern viele Firmen noch mit der Einführung. Die Mitarbeiter fordern hi...

Weiterlesen

Informationen digitalisieren – Unternehmenswissen verfügbar machen

WISSENplus
Die Welt des Scannens verändert sich. Der Scanner wird zur Schnittstelle zwischen physischer und digitaler Welt – und zwar lange bevor die Informationen ins Archiv wandern. Im Fokus stehen ein reibungsloser Informationsfluss und informationsgetriebene Prozesse. Aus diesem Grund versuchen die Verantwortlichen, Papierdokumente möglichst früh und vollständig in die digitalen Prozessketten einzugliedern, ...

Weiterlesen