Was ist maschinelle Übersetzung?

Maschinenübersetzung (M.Ü.) ist ein automatisiertes Übersetzungsverfahren. Eine Computersoftware übersetzt einen Text von der Ausgangssprache (zum Beispiel Englisch) in eine andere (zum Beispiel Spanisch).

Bei jeder Übersetzung, ob von Mensch oder Maschine erstellt, muss der Sinn des Ausgangstexts (Original) im Zieltext derselbe sein. Auf den ersten Blick erscheint dies recht unkompliziert, in Wahrheit ist dies aber weit komplexer. Übersetzen bedeutet alles andere als eine bloße Wort-für-Wort-Ersetzung. Ein Übersetzer muss alle Textelemente interpretieren und bewerten und wissen, wie ein Wort ein anderes beeinflusst. Dies erfordert viel Erfahrung auf Gebieten wie Grammatik, Syntax (Satzstruktur), Semantik (Bedeutung) etc. sowohl in der Ausgangs- als auch der Zielsprache sowie Wissen über die jeweilige Kultur.

Die Humanübersetzung sowie die maschinelle Übersetzung weisen jeweils ihre eigene Problematik auf. Beispielsweise können zwei voneinander unabhängige Übersetzer in keinem Fall identische Übersetzungen desselben Ausgangstexts im selben Sprachpaar erstellen und es kann mehrere Korrekturdurchläufe erfordern, um die Kundenerwartungen zu erfüllen. Die größere Herausforderung besteht jedoch darin, mittels maschineller Übersetzung veröffentlichungsfähige Qualitätsübersetzungen zu erstellen.

Die Technologie der regelbasierten Maschinenübersetzung

Die regelbasierte maschinelle Übersetzung basiert auf unzähligen integrierten linguistischen Regeln und zweisprachigen Wörterbüchern für jedes Sprachpaar.

Die Software gliedert den Text und erstellt eine vorübergehende Darstellung, über die der zielsprachliche Text generiert wird. Dieser Prozess erfordert umfangreiche Lexika mit Informationen zu Morphologie, Syntax und Semantik sowie ein umfassende Anzahl von Regeln. Die Software greift auf diese komplexen Regeleinstellungen zurück und überträgt dann die grammatikalische Struktur der Ausgangs- in die Zielsprache.

Die Übersetzungen werden unter Anwendung von Wörterbüchern gewaltigen Umfangs und weitreichenden linguistischen Regeln erstellt. Benutzer können die Qualität der Standardübersetzung verbessern, indem sie ihre Terminologie in den Übersetzungsprozess integrieren. Gleichzeitig können sie benutzerdefinierte Wörterbücher erstellen, gegenüber den Standardeinstellungen des Systems vorrangig genutzt werden.

In den meisten Fällen gibt es zwei Etappen: eine Anfangsinvestition, die die Qualität zu geringen Kosten deutlich erhöht und fortlaufende Investitionen zur zunehmenden Qualitätsverbesserung. Obwohl die regelbasierte MÜ die Mindestqualitätsanforderungen von Unternehmen erfüllt und übertrifft, kann der Qualitätsverbesserungsprozess zeit- und kostenintensiv sein.

Die Technologie der statistisch gestützten Maschinenübersetzung

Statistische Maschinenübersetzung verwendet statistische Übersetzungsmodelle, deren Parameter sich aus der Analyse einsprachiger und mehrsprachiger Corpora herleiten. Die Erstellung von statistischen Übersetzungsmodellen nimmt nicht viel Zeit in Anspruch, die Technologie basiert jedoch in hohem Maße auf vorhandenen mehrsprachigen Corpora. Dazu ist eine Mindestanzahl an 2 Millionen Wörtern für ein Fachgebiet und eine noch größere Anzahl für die Gemeinsprache erforderlich. Theoretisch ist es möglich, die Mindestqualitätsanforderungen zu erfüllen, jedoch verfügen die meisten Unternehmen nicht über eine ausreichende Menge an mehrsprachigen Corpora, um die notwendigen Übersetzungsmodelle zu erstellen. Zudem ist die statistische maschinelle Übersetzung CPU-intensiv und erfordert eine anspruchsvolle Hardware-Konfiguration, um Übersetzungsprogramme bei mittelmäßiger Leistung zu betreiben.

Regelbasierte MÜ versus Statistische MÜ

Die regelbasierte MÜ liefert gute Ergebnisse für die Gemeinsprache und ist grundsätzlich vorhersehbar. Wörterbuchbasierte Anpassung gewährleistet verbesserte Qualität und Einhaltung der Unternehmensterminologie. Die Übersetzungsergebnisse werden den Erwartungen an die Lesbarkeit nicht immer gerecht. Im Hinblick auf die Investition kann der zur Erfüllung der Qualitätsanforderungen erforderliche Anpassungsprozess langwierig und kostenintensiv sein. Die Leistung ist hoch, sogar auf Standard-Hardware.

Die statistische MÜ liefert gute Qualität, wenn auf große und geeignete Corpora zurückgegriffen wird. Die Übersetzung ist gemäß den Benutzererwartungen flüssig und gut lesbar. Jedoch ist die Übersetzung weder vorhersehbar noch konsistent. Die Arbeit mit hochwertigen Corpora ist automatisiert und kostengünstiger. Allerdings ist das Training mit allgemeinsprachlichen Corpora, also Text aus anderen als dem spezifischen Fachgebiet, unergiebig. Darüber hinaus erfordert die statistische MÜ eine hochwertige Hardware, um große Übersetzungsmodelle zu erstellen und zu verwalten.

Regelbasierte MÜ Statistische MÜ
+ Konsistenz und vorhersehbare Qualität – Unpredictable translation quality
+ Übersetzungsqualität über das Fachgebiet hinaus – Poor out-of-domain quality
+ Kennt grammatische Regeln – Does not know grammar
   
+ Gute Leistung und Stabilität – High CPU and disk space requirements
+ Konsistenz zwischen Versionen – Inconsistency between versions
   
– Lack of fluency + Guter Lesefluss
– Hard to handle exceptions to rules + Unbeeindruckt von Regelausnahmen
   
– High development and customization costs + Schnelle und kostengünstige Entwicklung, wenn der erforderliche Corpus existiert

Angesichts der umfassenden Anforderungen besteht ein deutlicher Bedarf für einen dritten Ansatz, über den die Nutzer eine verbesserte Übersetzungsqualität und hohe Leistung erzielen können (ähnlich wie bei der regelbasierten MÜ), gleichzeitig jedoch über geringere Investitionen (ähnlich wie bei der statistischen MÜ).

Füllen Sie bitte das untere Informationsfeld aus, um das Dokument herunterzuladen.

* obligatorische Felder

Einige Informationen sind unvollständig. Bitte hervorgehobene Felder prüfen

Unternehmensinformationen
Kontaktinformationen
Sicherheitscode

Bitte geben Sie die Zeichen aus der Grafik in das Textfeld ein (Groß-/Kleinschreibung muss nicht beachtet werden). Wenn Sie die Zeichen nicht gut lesen können, klicken Sie bitte auf das Bild.