2017/10 | Fachbeitrag | Technische Dokumentation
Künstliche Intelligenz revolutioniert die Übersetzungsbranche
Inhaltsübersicht:
- Was ist NMT?
- NMT braucht Big Data
- NMT beruht auf Lernprozessen
- NMT-Systeme brauchen Training
- Automatisierter Workflow macht alle Übersetzungen effizienter
Der Einsatz von Big Data –und damit auch die ständig wachsende Datenmenge in Unternehmen – nimmt stetig zu. Laut einer Studie von IDC werden im Jahr 2025 weltweit rund 163 Zettabyte generiert – das entspricht der zehnfachen Datenmenge des Jahres 2016. Durch die ansteigende Menge von Daten werden auch die Inhalte, die übersetzt werden müssen, immer umfangreicher. Gleichzeitig kann das Aufkommen von vorhandenen Daten aber auch beim Übersetzen helfen: Big Data ist die Basis des Trainingsmaterials für künstliche Intelligenz. Die Technologie des neuralen maschinellen Übersetzens (Neural Machine Translation, NMT) macht Übersetzen effizienter denn je. Diese Technologie revolutioniert die Übersetzungsbranche. Allerdings reicht es für die Zukunft nicht, allein auf NMT zu setzen.
Was ist NMT?
NMT ist maschinelle Übersetzung auf der Basis vielschichtiger neuronaler Netze. Diese werden mit Deep Learning darauf trainiert, die Zusammenhänge zwischen Ausgangs- und Zielsprache zu erfassen. Damit werden maschinelle Übersetzungen treffsicherer und nuancierter.
NMT gehört zu den sehr jungen Technologien und steht noch am Anfang seiner Verbreitung. Seit Beginn der 2000er Jahre bis 2014 beruhte maschinelle Übersetzung überwiegend auf statistischen Modellen. Diese Methode wird nach wie vor breit eingesetzt. Es ist aber absehbar, dass NMT die statistische Methode letztlich ablösen wird.
NMT braucht Big Data
Die komplexen Prozesse von NMT-Systemen sind auf riesige Datenmengen angewiesen – ohne Big Data kein NMT. Die neurale maschinelle Übersetzung stellt damit ein weiteres Anwendungsfeld für Big Data im Wissensmanagement dar.
Um die enormen Datenmengen zu verarbeiten, brauchen NMT-Systeme mehr Rechenleistung als statistische maschinelle Übersetzungssysteme. Darum laufen NMT-Systeme auf den leistungsstarken Grafikprozessoren (Graphical Processing Units, GPUs) und nicht, wie die statistischen Systeme, auf CPUs (den Central Processing Units, die in normalen Bürorechnern stecken).
Ein NMT-System braucht länger für die Übersetzung eines Satzes als ein statistisches Übersetzungssystem (eben wegen der enormen Datenmengen). Doch ist das Ergebnis wesentlich besser – und dadurch sollten die Übersetzungen am Ende schneller beim Kunden sein. Die Nachbearbeitung durch menschliche Übersetzer kostet nicht mehr so viel Zeit.
NMT beruht auf Lernprozessen
Im Gegensatz zu NMT erkennt die Maschine bei statistischen Übersetzungen die Korrelation zwischen dem Text in der Ausgangssprache und dem in der Zielsprache, indem sie Gruppen aus sechs Wörtern in einem Satz vergleicht. Im Grunde funktioniert die statistische maschinelle Übersetzung wie ein herkömmliches Schachprogramm: Es kennt eine feste Anzahl von Spielzügen und sucht den jeweils besten heraus.
NMT dagegen lässt sich mit einem menschlichen Klavierspieler vergleichen: Wenn der Pianist ein neues Stück einübt und einen Fehler macht, geht er einen Schritt zurück und versucht es erneut. Immer wieder – so lange, bis alles stimmt. Wie der Klavierspieler durch eine unbekannte Partitur, so versuchen die NMT-Systeme, den richtigen Weg durch ein neuronales Netz zu finden. Das System muss die Zusammenhänge zwischen Ausgangs- und Zielsprache selbst erkennen – zum Beispiel durch den Kontext eines Satzes in der Ausgangssprache.
NMT-Systeme brauchen Training
Darum lässt sich auch vom Training eines neuronalen Systems sprechen: Es probiert verschiedene Lösungswege aus. Die neuronalen Verbindungen, die zu korrekten Ergebnissen führen, erhalten eine höhere Bedeutung: Das neuronale System legt starke Verknüpfungen an. Diese sind vergleichbar mit denen, die im menschlichen Hirn durch unser gewohnheitsmäßiges Denken und Fühlen entstehen. Wie das neuronale System seine Entscheidungen genau fällt, bleibt weitgehend im Verborgenen – auch das ist eine Parallele zu unserem Gehirn.
Um die Ergebnisse zu verbessern, braucht das System vor allem optimales Trainingsmaterial. Auch das ist ähnlich wie bei unseren menschlichen Lernprozessen: Lehrer können auch nicht direkt ins Gehirn ihrer Schüler eingreifen. Aber sie können ihnen hochwertige Lehrmaterialien und -methoden bieten. Damit beeinflussen sie die Entwicklung der Schülergehirne – indirekt, aber in den meisten Fällen wirkungsvoll.
Ein NMT-System ist nie besser als das Material, das bei seinem Training eingesetzt wird. Was macht gutes Trainingsmaterial aus? Zum einen die Quantität: Es müssen genügend Daten vorhanden sein, damit das System die Muster erkennen kann. Zum anderen kommt es auf die Qualität der Daten an: Das Trainingsmaterial muss linguistisch gepflegt werden. Und das System braucht Rückmeldung von menschlichen Sprachexperten, um sich immer weiter zu verbessern.
Für Übersetzungsdienstleister existieren grundsätzlich zwei Möglichkeiten, NMT zu nutzen: Durch den Aufbau eines eigenen neuronalen Netzes – oder durch den Zugriff auf ein externes neuronales Netz, beispielsweise über eine flexible API-gesteuerte Infrastruktur. Wie auch immer die Dienstleister an neurale maschinelle Übersetzung herangehen – zwei Dinge sind klar: Erstens führt kein Weg an NMT vorbei. Und zweitens ist NMT aber nicht alles.
Es gibt noch eine Reihe weiterer Faktoren, von denen Qualität und Effizienz einer Übersetzung abhängen. Wer für sein Unternehmen Übersetzungen und Lokalisierungen einkauft, sollte daher darauf achten, dass der Dienstleister nicht nur eine NMT-Strategie hat. Sondern auch andere wichtige Stellschrauben für Qualität und Effizienz regelmäßig nachzieht.
Zu diesen Stellschrauben gehören:
- intelligente Translation Memory Systeme,
- ein intuitiveres Zusammenspiel von menschlichen Übersetzern und Sprachtechnologien,
- der Einsatz von Big Data Analytics im internationalen Content Management
- sowie – sehr wichtig! – die ausgeklügelte Automatisierung der Workflows.
Automatisierter Workflow macht alle Übersetzungen effizienter
Obwohl jedes Jahr immer mehr übersetzt wird, hat sich in den vergangenen fünf bis sieben Jahren die Größe von Dateien drastisch reduziert, da sich die Art der Inhalte verändert hat. Die gewichtete Wortzahl in den Dateien pro Datenübergabe ist von mehreren Tausend auf durchschnittlich unter Hundert gesunken. Daraus folgt, dass die Transaktionskosten häufig höher liegen als die eigentlichen Übersetzungskosten. Es sei denn, der Dienstleister steuert dagegen – beispielsweise mit einem effizienten Lifecycle-Management der Inhalte, die zur Übersetzung anstehen. Je komplexer die Anforderungen der Kunden werden – etwa durch mehrsprachige Kommunikation –, desto wichtiger wird dieses intelligente, automatische Management.
Dafür eignen sich beispielsweise cloud-basierte Technologie-Plattform, die Übersetzungen und Lokalisierungen in Echtzeit verwalten. Durch das Management-System läuft der Prozess vom Abruf des Inhalts beim Kunden über die Übersetzungen und die Qualitätskontrolle bis zur Ablieferung automatisch ab – nach konfigurierbaren Vorgaben. Die Infrastruktur schnürt Inhaltspakete und übergibt diese zum richtigen Zeitpunkt an den richtigen Übersetzer (ob Mensch oder Maschine).
Die Automatisierung der einzelnen Prozesse reduziert die Zeitspanne von der Auftragserteilung bis zur Ablieferung der Übersetzung. Zudem senkt sie die Arbeitskosten an den einzelnen Touchpoints. Kurz: Die Plattform macht Übersetzen effizienter. Dies sind ideale Voraussetzungen, um das volle Potential von NMT auszuschöpfen.