2014/3 | Praxis Wissensmanagement | Taxonomie

Von Taxonomien über Text Mining zu Linked Data

von Andreas Blumauer

Taxonomien werden in vielen Fällen dazu verwendet, um Inhalte konsistent zu klassifizieren. In Kombination mit Text Mining und Linked Data Technologien gelingt der Schritt hin zur Graph-basierten Repräsentation ausdrucksstarker Wissensmodelle, um Zusammenhänge in großen Informationsspeichern besser erschließen zu können. Wie dies gelingt und welchen Nutzen dies stiften kann, erläutert dieser Beitrag.

Taxonomien als Ausgangspunkt

Taxonomien entsprechen einfachen Wissensmodellen (Ontologien) und werden üblicherweise zur Annotation und Klassifikation von Dokumenten verwendet. Der SKOS-Standard (Simple Knowledge Organization System) zur Beschreibung von kontrollierten Vokabularen erweitert die Möglichkeiten einfacher Taxonomien: Hier werden Entitäten unterschiedlichster Kategorien (Personen, Organisationen, Produkte, Orte, ...) nicht nur hierarchisch, sondern als vernetzter Wissensgraph organisiert. Jeder Entität können pro Sprache auch mehrere Bezeichnungen (z.?B. Synonyme) zugeordnet werden.

Verfahren des automatischen Text Minings helfen u.a., Inhalte besser zu erschließen. Seit vielen Jahren wird auch von der vollautomatischen Erstellung semantischer Netze gesprochen, die mittels computer-linguistischer und statistischer Verfahren aus Texten abgeleitet werden sollen, letztendlich aber nur relativ flache Wortnetze darstellen, die Korrelationen, aber keine semantischen Zusammenhänge repräsentieren. Höher entwickelte Verfahren des Text Minings setzen diese Verfahren schon kombiniert mit Wort- bzw. Synonymlisten (z.?B. Gazetteers) ein.

Wissensgraphen dynamisch generieren

Mit dem Aufkeimen von Linked Data wurden in den letzten Jahren umfassende Wissensgraphen in unterschiedlichsten Fachbereichen verfügbar gemacht (z.?B. Geonames, MeSH, Eurovoc, DBpedia, etc.). Einerseits werden diese nun zunehmend als Grundstock für unternehmensspezifische Wissensgraphen herangezogen, andererseits auch als Basis zur automatischen Extraktion von Entitäten aus großen Dokumentbeständen.

Damit gelingt es, nicht einfach nur Terme und ihre Korrelationen aus Texten automatisch zu extrahieren, sondern Wissensgraphen dynamisch generieren und laufend erweitern zu können. Dies bildet die Grundlage hochwertiger semantischer Services entlang eines typischen Content Life Cycles.

Konsistente, vernetzte Metadaten

Im Rahmen der Content-Verwertung dienen graph-basierte Linked Data-Standards der Anreicherung von Informationsbeständen um wertvolle, da konsistente und vernetzte Metadaten. Diese ermöglichen es erst, ähnliche oder verwandte Objekte zueinander mit hoher Präzision in Beziehung zu setzen. Im Zentrum der aktuellen Entwicklung stehen zwar immer noch Such- und Empfehlungsdienste, die das Dokument im Zentrum ihrer Informationsarchitektur haben, jedoch findet allmählich auch innerhalb von Unternehmensgrenzen eine Transformation hin zur graph-basierten Verarbeitung von strukturierten und unstrukturierten Informationen und ihren Metadaten statt.

Diese Artikel könnten Sie auch interessieren

Enterprise Search: Vom Suchen zum Finden

Es gibt nicht das eine Wissensmanagement-Werkzeug. Wissensmanagement ist ein komplexes Thema und die zu seiner Unterstützung dienenden IT-Lösungen sind oft ebenso vielschichtig. Betrachtet man die Kundenanforderungen näher, ergibt sich folgendes Bild: Mehr als 50 Prozent der gewünschten Funktionalität entfallen auf die Suche. Ein hoher Anteil der Anforderungen zielt zudem auf eine geordnete Ablage von ...

Weiterlesen

Technische Hürden meistern

WISSENplus
Gerade in Branchen, in denen es auf das anwesende und anwendbare Wissen ankommt, greifen Firmen gerne auf Wissensmanagement zurück, um eben jene Anwesenheit und Anwendbarkeit effektiv nutzen zu können: Wissens-Management- Systeme (WMS) sammeln, bewahren auf und machen das im Unternehmen vorhandene Know-how so zugänglich, dass es auch bei scheidendem Personal erhalten bleibt. Wissen wird den potenziellen ...

Weiterlesen

Verständliche Wissenskommunikation – ein Stiefkind der Wissensgesellschaft?

WISSENplus
Verstehen Sie immer nur Bahnhof im Umgang mit Gebrauchsanleitungen, Juristen oder Installateuren? Scheitern Sie regelmäßig bei der Lektüre des Prozesshandbuchs Ihrer Firma oder beim Ausfüllen von Formularen? Dann sind Sie in guter Gesellschaft mit vielen anderen, denn die Wissensgesellschaft überfordert ihre Mitglieder immer mehr mit unverständlicher Information. Ein neues Modell für Wissenskommunika...

Weiterlesen

Audi PartnerNet – das personalisierte Händlerinformationsportal der Audi AG

Das Audi PartnerNet (APN), das mehrere 10.000 Dokumente umfasst, ist das personalisierte Händlerinformationsportal der Audi AG und dient dem Dialog zwischen dem Hersteller Audi und den Audi Händlern in Deutschland. Um die Qualität der Suchergebnisse zu optimieren, wollte das Unternehmen die existierende Suche durch eine neue, einfach zu bedienende Suchlösung ersetzen. Eines der wichtigsten Ziele dabei: ...

Weiterlesen

Das wertschöpfende Potenzial von Big Data nutzen

Es ist eine unumstößliche Wahrheit unserer Zeit, dass in der Geschäftswelt ohne IT nichts mehr läuft. Das Gleiche gilt übrigens für das Gesundheitswesen, die Stromversorger und den gesamten Flugverkehr. Unbestritten ist auch, dass die Daten, die in einem Unternehmen auf Basis der eigesetzten IT produziert werden, immer stärker ins Zentrum der Aufmerksamkeit rücken. Denn der wirtschaftliche Erfolg wi...

Weiterlesen

Wenn es in der Presse steht, ist es zu spät

Negative Berichterstattung kann ein Unternehmen viel Geld kosten. Im schlimmsten Fall reicht schon eine einzige Negativschlagzeile und die in teuren Werbekampagnen aufgebaute Reputation ist binnen kürzester Zeit zunichte gemacht. Daher gilt es, bereits im Vorfeld aktiv zu werden und medial brisante Themen schon frühzeitig in allen verfügbaren Informationsquellen zu verfolgen – angefangen von Agenturmel...

Weiterlesen

Big Data: Informationen im Unternehmen finden & effizient nutzen

Auf rund 40 Zettabyte soll laut IDC-Studie das digitale Universum bis zum Jahr 2020 anwachsen. Doch auch schon heute sind Unmengen an Daten in Unternehmen im Umlauf – und es werden täglich mehr. Bedenkt man die Vielzahl an E-Mails, die täglich auf Wissensarbeiter einprasseln, kombiniert mit Projektenablagen auf Fileservern, in ECM-Systemen oder in der Cloud sowie die neuen Kommunikationskanäle über So...

Weiterlesen

Elektronisch gespeichertes Wissen strukturieren und auffindbar machen

Mit dem Trend zu Unternehmensportalen steigt die Menge an Informationen, auf die der einzelne Mitarbeiter zugreifen kann, weiter an. Als Folge der Informationsflut verbringen Mitarbeiter in Unternehmen einen beträchtlichen Teil ihrer Arbeitszeit mit der Suche nach Informationen und finden dabei oftmals die aktuell benötigten Inhalte nicht. Die Konsequenz: Der Mitarbeiter erstellt diese notgedrungen selbst...

Weiterlesen