Vor allem, wenn Sie schon seit einiger Zeit einen von Menschen gesteuerten Übersetzungsprozess haben, fragen Sie sich vielleicht, ob maschinelle Übersetzung (MÜ) in Bezug auf die Qualität vergleichbare Ergebnisse liefern kann. Lassen Sie uns über die Gesamtgenauigkeit von MÜ sprechen, wie die Qualität der maschinellen Übersetzung bewertet wird und wohin sich die MÜ und die MÜ-Qualitätsschätzung entwickeln.

Wie genau ist die maschinelle Übersetzung?

Die maschinelle Übersetzung ist dank des Aufkommens neuronaler Netze– einer Methode der künstlichen Intelligenz – ziemlich genau. Anstatt fast wortwörtlich zu übersetzen, berücksichtigen diese Netzwerke den Kontext, um genauere Übersetzungen zu erstellen. Aber kommen sie dem menschlichen Äquivalent nahe? Die Antwort hängt oft von mehreren Faktoren ab:

  • Ihre Software für maschinelle Übersetzung. Einige MÜ-Engines sind in Bezug auf die Übersetzungsqualität zuverlässiger als andere, daher ist es wichtig, für welche Sie sich entscheiden.
  • Domäne. Einige maschinelle Übersetzungssysteme sind für den allgemeinen Gebrauch bestimmt, andere sind für bestimmte Branchen ausgebildet. Bei der Übersetzung komplexer Terminologie, z. B. für wissenschaftliche oder juristische Inhalte, kann eine MT-Engine, die auf Ihrem Fachgebiet trainiert ist, den Unterschied ausmachen.
  • Inhaltstyp. Bei Dingen wie Marketingkampagnen, Slogans oder Schlagworten ist die maschinelle Übersetzung möglicherweise nicht so genau. Dabei geht es oft eher darum, die Persönlichkeit oder Emotion einer Marke einzufangen, als eine exakte Übersetzung zu liefern.
  • Sprachpaar. Selbst die Qualitätsbewertungen der besten MÜ-Anbieter variieren je nach Sprachpaar. Eine Vielzahl von Faktoren kann dies verursachen, darunter das Fehlen gleichwertiger Wörter oder Phrasen in der Ziel- und Ausgangssprache.

Alles in allem kann die maschinelle Übersetzung Ihnen oft den größten Teil des Weges zu einer Übersetzung bringen. Menschliche Übersetzer können dann ein maschinelles Übersetzungs-Post-Editing (MTPE) durchführen, um die Genauigkeit zu gewährleisten und die Inhalte in einen veröffentlichungsfähigen Zustand zu bringen.

Was ist die Bewertung der Qualität maschineller Übersetzungen?

Die Qualitätsbewertung von maschineller Übersetzung ist die traditionelle Methode, um zu beurteilen, ob maschinell übersetzter Text mit der Übersetzung von Ausgangstexten durch einen Menschen vergleichbar ist. Es gibt eine Vielzahl von Bewertungsmetriken, darunter BLEU, NIST und TER. Diese werden verwendet, um maschinell übersetzte Segmente auf der Grundlage ihrer Ähnlichkeit mit Referenzübersetzungen zu bewerten.

Referenzübersetzungen sind qualitativ hochwertige Übersetzungen des Ausgangstextes, die von menschlichen Übersetzern erstellt werden. Diese Hinweise sind natürlich hilfreich. Sie sind jedoch nicht immer verfügbar – es ist nicht ideal, sich bei Übersetzungsprojekten auf sie zu verlassen. Was ist also der effektivste Weg, um Qualität zu bewerten? Bei Smartling verwenden wir eine Kombination aus zwei Methoden.

Die erste besteht aus monatlichen Bewertungen multidimensionaler Qualitätsmetriken (MQM) von Drittanbietern für acht lokale Unternehmen. Diese Bewertungen sind der Goldstandard in der Branche für die Bewertung von HT, MT und MTPE. Um geeignete Qualitätsfaktoren zu vergeben, prüft MQM die Art und den Schweregrad der Fehler, die im übersetzten Text gefunden werden.

Zweitens nutzen wir kontinuierliche, automatisierte Qualitätsbewertungen in Echtzeit. Diese messen die Enddistanz oder die Übersetzungsfehlerrate über HT, MT und MTPE. Diese beiden Evaluierungsarten ermöglichen es uns letztendlich, eine garantierte Übersetzungsqualität anzubieten.

Welche Bedeutung hat die Evaluierung maschineller Übersetzungen?

Ziel der Bewertung ist es, festzustellen, ob eine Übersetzung die folgenden Kriterien erfüllt:

  1. Genau. Der Inhalt sollte die Botschaft und Stimmung des Originaltextes getreu in der Zielsprache wiedergeben.
  2. Klar. Die Nachricht muss leicht verständlich sein und alle Anweisungen sollten umsetzbar und leicht zu befolgen sein.
  3. Angemessen. Bestimmte Zielgruppen erfordern zum Beispiel ein gewisses Maß an Formalität. Es ist von entscheidender Bedeutung, dass die übersetzten Segmente dem Publikum den gebührenden Respekt entgegenbringen und es nicht entfremden oder beleidigen.

Ein übersetztes Segment, das in einem dieser Bereiche zu kurz kommt, erfordert ein Post-Editing durch einen menschlichen Übersetzer.

Was die Vorteile der MT-Evaluierung betrifft, so gibt es mehrere. Sie können es verwenden, um Übersetzungskosten und -einsparungen abzuschätzen und eine angemessene Vergütung für Linguisten zu ermitteln. Übersetzer können auch auf einen Blick sehen, wie viel Post-Editing-Aufwand ein Inhalt erfordert.

Zwei Methoden zur Bewertung der Qualität maschineller Übersetzungen

Für die Bewertung maschineller Übersetzungen gibt es zwei Möglichkeiten:

  1. Manuelle Auswertung: Menschliche Übersetzer berücksichtigen Faktoren wie Sprachgewandtheit, Angemessenheit und Übersetzungsfehler, wie z. B. fehlende Wörter und falsche Wortstellung. Der Nachteil dieser Methode ist, dass jeder Linguist "Qualität" subjektiv definieren kann.
  2. Automatische Auswertung: Bei dieser Methode erfolgt eine Punktevergabe über Algorithmen. Die Algorithmen verwenden menschliche Referenzübersetzungen und automatische Metriken wie BLEU und METEOR, um die Qualität zu beurteilen. Während die menschliche Auswertung auf Satzebene genauer ist, bietet diese Methode eine Vogelperspektive und ist skalierbarer und kostengünstiger.

Die Unterschiede: Qualitätsschätzung der maschinellen Übersetzung vs. Evaluierung

Im Gegensatz zur Qualitätsbewertung stützt sich die maschinelle Qualitätsschätzung (MTQE) nicht auf menschliche Referenzübersetzungen. Es nutzt Methoden des maschinellen Lernens (ML), um aus Korrelationen zwischen Quell- und Zielsegmenten zu lernen. Diese Korrelationen bilden die Grundlage für die Schätzungen, die auf Wort-, Phrasen-, Satz- oder Dokumentebene erstellt werden können.

Wofür die MT-Qualitätsschätzung verwendet werden soll

In unserer Reality-Series-Folge über die Qualitätsschätzung von maschinellen Übersetzungen gab Mei Zheng, Senior Data Scientist bei Smartling, diesen Rat:

„Wenn Sie über die Ressourcen verfügen, alle Ihre Inhalte automatisch zu bewerten, tun Sie das auf jeden Fall. Nehmen Sie dann eine Stichprobe von einigen dieser Zeichenfolgen, damit sie von Menschen ausgewertet werden können. Auf diese Weise erhalten Sie eine Grundlage dafür, was diese automatische Bewertung bedeutet, wenn ein Linguist sie sieht.“

Welchen Wert hat die Festlegung dieser Grundlinien auf der Grundlage von Qualitätsschätzungen für ein breites Spektrum von Inhalten? Wenn Sie außerdem Muster in falsch übersetzten Zeichenfolgen erkennen, können Sie schnell und zuverlässig beurteilen, ob maschinenübersetzte Inhalte so, wie sie sind, veröffentlicht werden können.

Faktoren, die sich auf die MT-Qualitätsbewertung auswirken

Die automatische Qualitätsschätzung ist schnell und kostengünstig. Alex Yanishevsky, Director of MT and AI Solutions bei Smartling, sagt jedoch: "Es wird Ihnen nicht die gleichen Einblicke geben wie ein Mensch." Wie im MTQE-Webinar erläutert, gibt es dafür mehrere Gründe.

Die Quelle und ihre Qualität

Es gibt verschiedene Algorithmen zur Qualitätsschätzung, aber die meisten berücksichtigen nicht den umgebenden Kontext, wie z. B. das Geschlecht. Betrachten Sie zum Beispiel den folgenden Text: "Dr. Smith wurde vom Atherton Magistrates Court für schuldig befunden, ein geschütztes Tier gehalten zu haben, nachdem er angeklagt worden war, eine Buschpython vom Grundstück eines Anwohners entfernt zu haben. Sie ging dann durch das Gerichtsverfahren, um gegen das Gerichtsurteil Berufung einzulegen."

Der Genauigkeit halber müsste „Doktor“ in einer Sprache wie Spanisch in die weibliche Form (also „Doctora“) übersetzt werden. Die meisten MÜ-Engines sind jedoch nicht darauf trainiert, diese Art von geschlechtsspezifischer Verzerrung zu erkennen. Ohne eine zeitnahe Überarbeitung der Ausgangssprache könnte die Ausgabe fehlerhaft sein und sich auf die Qualitätsbewertung auswirken.

Reality Series - MT Qualität
Bildbeschreibung: Quellenüberlegungen zur MT-Qualitätsschätzung

Ein weiterer Faktor, der sich auf die Qualitätsschätzung auswirken kann, ist ein Mangel an Klarheit oder Potenzial für mehrere Interpretationen des Ausgangstextes. Mei drückte es einfach aus: "Wenn die Quelle mehrdeutig ist und wir als Menschen nicht wissen, wie wir sie interpretieren sollen, können wir nicht erwarten, dass die maschinelle Übersetzung einen besseren Job macht als wir."

Da MTQE-Modelle mit sauberen Datensätzen trainiert werden, können sie außerdem nicht immer gut mit unübersichtlicheren Daten umgehen. Obszönitäten sind ein gutes Beispiel. Mei erklärte: "Wenn man Schimpfwörter verwendet, verhängen [Qualitätsschätzungs-] Modelle eine sehr hohe Strafe. Sie sagen dir: 'Hey, das ist eine schlechte Übersetzung; Du solltest das nicht veröffentlichen.' Wenn es Anwendungsfälle für [Obszönitäten] gibt, kann man diese automatischen Bewertungsmechanismen dafür nicht verwenden."

Ihr Bereich oder Ihre Branche

Unterschiedliche Bewertungsalgorithmen können je nach Vertrautheit mit der Terminologie einer Branche unterschiedliche Schätzungen liefern. Alex betonte daher, dass "es keinen einzigen Bewertungsalgorithmus gibt, der allumfassend ist". Er fuhr fort: "Damit ein Algorithmus effektiv ist, bräuchten wir spezifische Daten für diesen Bereich oder diese Branche." So wie MÜ-Systeme an eine bestimmte Branche angepasst werden können, um genauere Übersetzungen zu erzielen, können Scoring-Algorithmen auch in bestimmten Bereichen trainiert werden.

Diese domänenspezifischen Daten können oft kritisch sein. Alex erklärt: "Wenn Sie eine regulierte Branche wie Life Science, Medizin oder Pharmazie haben, sind 90 % [Genauigkeit] in den meisten Fällen wahrscheinlich nicht gut genug. Wenn zum Beispiel das Komma an der falschen Stelle steht und wir über die Verwendung eines chirurgischen Messers sprechen, kann das buchstäblich den Unterschied zwischen Leben und Tod ausmachen." Auch in anderen Branchen wie Finanzen und Recht steht viel auf dem Spiel.

Die Zielgruppe

Die Schätzungen können auch variieren, je nachdem, wie ein Algorithmus die Qualitätsschwellenwerte für eine bestimmte Sprache versteht. Mei sagte: "Formalität – die Wortwahl und die Stimme Ihres Inhalts – fällt unter Ihre stilistischen Vorlieben. Aber manchmal ist es mehr als nur eine Vorliebe. Es ist wie: 'Ich muss das formell vermitteln; sonst verliere ich meinen Klienten.'" Daher kann die manuelle Auswertung für die Qualitätssicherung so vorteilhaft sein.

Mei fuhr fort: "Im Falle des Spanischen, wo es nicht nur formell oder informell ist, hängt die Wortwahl wirklich davon ab, wie viel Respekt man der Person entgegenbringt, mit der man spricht. Und das hängt von der Beziehung ab, die du zu der Person hast – ob diese Person einen höheren Rang hat als du oder jünger ist als du."

Die Zukunft der maschinellen Übersetzungsqualität und MTQE

Die Qualität der maschinellen Übersetzung wird sich weiter verbessern, zumal immer mehr Menschen große Sprachmodelle (LLMs) wie GPT-4 verwenden, um sie zu ergänzen. Mei machte die Beobachtung, dass "diese LLMs sehr leistungsfähig sind, wenn es darum geht, Korrekturen an MTs vorzunehmen, wie z. B. die Richtigkeit von Geschlecht, Formalität, Styleguides usw." Sie haben jedoch Mängel, die von Linguisten verlangt werden, die Lücke zu schließen. LLM-Halluzinationen – bei denen Modelle ungenaue Informationen als Tatsachen darstellen – sind ein gutes Beispiel dafür.

Letztendlich werden MT und LLMs es ermöglichen, Übersetzungsprojekte schneller und präziser abzuschließen. Aber die Linguisten werden weiterhin auf dem Fahrersitz sitzen und bei Bedarf Anpassungen vornehmen, um die Übersetzungen zu verbessern. Alex teilte eine ähnliche Meinung und prognostizierte, dass Übersetzer irgendwann mehr von den Aufgaben eines Prompt Engineers übernehmen werden. "Sie werden anfangen zu lernen, wie man Eingabeaufforderungen tatsächlich so schreibt, dass der LLM in der Lage sein wird, die Ausgabe zu korrigieren und sie auf einen bestimmten Stil auszurichten, den sie benötigen – sei es das Geschlecht, sei es die Formalität."

Und wie sieht die Zukunft der maschinellen Qualitätseinschätzung bei Übersetzungen aus? Ein großer Fortschritt wäre die Entwicklung von Algorithmen, die Quelle und Ziel berücksichtigen. Im Idealfall können sie die Bewertungen so gewichten, dass Faktoren wie Mehrdeutigkeit und thematische Komplexität berücksichtigt werden. Oder verbessern Sie zumindest den Prozess zum Markieren von Problemen, die sich negativ auf das Ziel auswirken könnten.

In der Zwischenzeit haben Sie jedoch bereits Zugriff auf hochmoderne maschinelle Übersetzungsmaschinen über den Neural Machine Translation Hub von Smartling. Es gibt sogar integrierte Funktionen zur Qualitätsbewertung, wie z. B. Smartling Auto-Select. (Bei der automatischen Auswahl werden die letzten Änderungen berücksichtigt, die an den einzelnen verfügbaren maschinellen Übersetzungsmodulen vorgenommen wurden, und es wird der derzeit beste Anbieter für ein bestimmtes Gebietsschemapaar ermittelt.)

Aktualisierte MT-Grafik
Bildbeschreibung: MT-Engines im Smartling NMT Hub integriert

Was sind die Ergebnisse dieses auf Qualitätsschätzung basierenden Multi-MT-Engine-Ansatzes? Bis zu 350 % höhere Qualität maschineller Übersetzungen und ein geringerer Bedarf an Post-Editing, was niedrigere Kosten und eine schnellere Markteinführung bedeutet.

Weitere Informationen darüber, wie Smartling Ihnen helfen kann, diese Ergebnisse zu erzielen, finden Sie in unserer Demo zum Neural Machine Translation Hub. Gerne beantworten wir im Nachhinein alle Ihre Fragen!

Warum warten, um intelligenter zu übersetzen?

Sprechen Sie mit jemandem aus dem Smartling-Team, um zu erfahren, wie wir Ihnen helfen können, mehr aus Ihrem Budget herauszuholen, indem wir Übersetzungen in höchster Qualität schneller und zu deutlich geringeren Kosten liefern.
Cta-Card-Side-Image