Der (berechtigte) Hype um ChatGPT, Generative AI und Massive Language Fashions (LLMs) geht weiter. Hier, in unserem kleinen Übersetzungsteam bei Mollie, können wir sehen, wie sich der Hype in einer Flut von Fragen zur Verwendung von GPT in (Software program-)Übersetzungen und einer zunehmenden Anzahl von Anfragen zur Überprüfung der GPT-Ausgabe manifestiert.
Aber lassen Sie uns einen Second innehalten und uns fragen: Was denken Übersetzer selbst eigentlich über die jüngsten, rasanten Entwicklungen bei KI- und LLM-Übersetzungen? Und steigert ChatGPT tatsächlich ihre Produktivität oder erhöht es sogar den Druck, der auf ihnen lastet?
Der allgemeine Konsens in der Übersetzungsbranche besteht darin, dass KI die Branche zweifellos stark verändern wird, ebenso wie die neuronale maschinelle Übersetzung (NMT) Motoren taten dies vor etwa 10–15 Jahren. Einige Experten (von denen viele leider nie selbst an Übersetzungen gearbeitet haben) gehen sogar so weit, das Ende menschlicher Übersetzungen zu verkünden. Allerdings gelten wir Übersetzer seit über 60 Jahren als aussterbende Gattung. Dennoch sieht sich die Übersetzungsbranche mit einem ständig wachsenden Bedarf an neuen Mitarbeitern konfrontiert, wie es in heißt RWSs Übersetzungstechnologie-Einblicke 2023 Und prognostiziert vom US Bureau of Labor Statistics. Aber warum um alles in der Welt weigert sich unser Beruf zu sterben, obwohl wir Menschen diese lästigen Nachteile wie „begrenzte Kapazitäten“, „Gehälter“, „Wochenenden“ und „verspätete Lieferungen“ haben – Dinge, die KI und maschinelle Übersetzungen nicht haben? Weil wir etwas anbieten, hat selbst ChatGPT große Schwierigkeiten, Folgendes zu erreichen:
Bessere Qualität und mehr Kontextbewusstsein
Ja, die Ausgabequalität, die sowohl von „klassischen“ Engines für neuronale maschinelle Übersetzung wie DeepL als auch vom Thema dieses Artikels, ChatGPT, bereitgestellt wird, verbessert sich ständig. Vor allem Letzteres holt schnell auf. Und natürlich waren diese Fortschritte prädestiniert dafür, eine Menge dramatischer Schlagzeilen auszulösen, wie „ChatGPT schlägt NMT-Engines“, „KI kommt dem Ersatz menschlicher Übersetzer immer näher“ usw. Aber wie diese Studie von Lionbridge zeigt, dass diese Schlagzeilen nur die halbe Wahrheit sind. Ja, GPT hat eine Engine für neuronale maschinelle Übersetzung geschlagen, aber:
- es struggle GPT-4, nicht ChatGPT
- GPT-4 schnitt nur besser ab als das am schlechtesten getestete NMT: Yandex
- Die einzige Sprachkombination, bei der GPT-4 gewann, struggle Englisch-Chinesisch (und Yandex schnitt im Allgemeinen im Vergleich zu anderen Sprachkombinationen am schlechtesten ab).
Darüber hinaus werden in der Studie einige weitere große Defizite von GPT bei Übersetzungen hervorgehoben: Variabilität (oder mangelnde Konsistenz), API-Instabilität und sprachliche Fehler. Während die API-Instabilität, die höchstwahrscheinlich durch das frühe Stadium der GPT-Entwicklung und einen plötzlichen Anstieg der API-Aufrufe verursacht wird, ziemlich bald behoben sein wird, sollten Variabilität und Sprachfehler bei jedem, der GPT in Übersetzungen verwendet, Alarmglocken schrillen lassen.
GPT (oder jede andere generative KI) ist hauptsächlich darauf ausgelegt, etwas Neues zu erstellen, sei es eine Kopie oder ein Bild. Somit ist ein kreativer Aspekt bereits eingebaut. Dieser kreative Aspekt schlägt jedoch schnell ins Destructive um, wenn Sie eine konsistente Verwendung spezifischer Terminologie benötigen, was bei 99 % der Übersetzungen der Fall ist, von Marketingmaterialien bis hin zu UI, technischer Dokumentation und Supportmaterialien. Dieses Variabilitätsproblem kann jedoch immer noch durch die Verwendung spezifischer, umfangreicher Eingabeaufforderungen gelöst werden, die die gesamte Zielterminologie für eine bestimmte Übersetzungsaufgabe enthalten.
Die Behebung sprachlicher Fehler hingegen erfordert viel Arbeit von den KI-Entwicklern. Diese Fehler reichen von Halluzinationen (Wörter erfinden, Satzteile hinzufügen oder entfernen usw.) bis hin zu subtileren Fehlern wie falschen Endungen von Adjektiven/Substantiven und falschen Kontextbezügen.
Wie sowohl Lionbridge als auch der Bundesverband der Dolmetscher und Übersetzer (BDÜ) in dargelegt haben ihre aktuelle Pressemitteilung (Englische Zusammenfassung von Slator Hier), werden Teile dieser sprachlichen Probleme dadurch verursacht, dass die KI alle Sätze/Teile eines Textes als unabhängig betrachtet und daher satzübergreifende Bezüge nicht erfasst. Leider handelt es sich dabei um Fehler dieser Artwork, die den Ruf eines Unternehmens massiv schädigen, das Vertrauen der Kunden untergraben und in manchen Branchen sogar zu schweren Schäden an Personen und Sachwerten führen können.
Sicherlich können Sprachfehler durch die Einführung von Human-in-the-Loop-Workflows beseitigt oder zumindest reduziert werden. Allerdings schätzt der BDÜ, dass die relative Fließfähigkeit und Lesbarkeit der GPT-Ausgabe die Nachbearbeitung von KI-generierten Übersetzungen im Vergleich zur NMT-Ausgabe sogar für erfahrene Postbearbeitungsexperten deutlich erschweren wird. Übersetzer müssen jedem einzelnen Wort und Buchstaben viel mehr Aufmerksamkeit schenken, um alle Fehler zu erkennen, die in einer scheinbar flüssigen Übersetzung verborgen sind – während der Druck seitens ihrer Kunden und internen Auftraggeber hinsichtlich Kosten, Bearbeitungszeiten und überschaubarer Volumina noch weiter zunehmen wird.
Nun, angesichts der obigen relativen Bewertung der GPT-Leistung im Vergleich zu klassischen NMTs und der aktuellen Menge und Schwere der Übersetzungsfehler, die GPT macht, glaube ich, dass KI-generierte Übersetzungen von kundenorientierten Inhalten mit einer gesunden Portion Skepsis betrachtet werden sollten.
Insbesondere bei produkt- oder softwarebezogenen Übersetzungen kann der Variabilitätsaspekt zu einem erheblichen Qualitätsverlust führen und sich schnell auf andere Bereiche des Unternehmens ausweiten. Denken Sie beispielsweise an eine erhöhte Arbeitsbelastung für Ihre Assist-Groups, da die Übersetzungen identischer UI-Elemente nicht nur innerhalb Ihrer Software program/Ihres Produkts selbst, sondern auch zwischen dem Produkt und den Schritt-für-Schritt-Anleitungen in Ihren Assist- und technischen Dokumentationen stark variieren .
Die Auswirkungen solcher Inkonsistenzen können enorm sein:
- Übersetzungsspeicher sind mit Übersetzungseinheiten geringer Qualität verunreinigt
- Stark eingeschränkte Benutzerfreundlichkeit aller mit ChatGPT übersetzten Inhalte
- Stark eingeschränkte Benutzerfreundlichkeit aller Inhalte verweist zurück zu Inhalten, die mit ChatGPT übersetzt wurden
- Erosion der Kundenzufriedenheit und des Vertrauens
- Zusätzliche Kosten für die Suche und Neuübersetzung aller betroffenen Inhalte (und diese Kosten können viel schneller sechsstellige Beträge erreichen, als Sie denken!)
Nun könnten all diese Nachrichten und Schätzungen für einige unserer Leser ein echter Stimmungskiller sein. Aber keine Angst, es gibt immer noch Alternativen, die Sie nutzen können (oder sogar bereits aktiv nutzen):
- Angesichts des obigen Vergleichs zwischen NMTs und LLMs ist es ziemlich klar, dass Google Translate, DeepL und dergleichen vorerst eine bessere Choice für Groups ohne dedizierte interne oder externe Übersetzungsressourcen sind
- Wenn Sie über engagierte Übersetzer oder einen externen Übersetzungsanbieter verfügen, erkundigen Sie sich bei diesen nach Möglichkeiten, einen solchen einzurichten gesunde Mischung von menschlichen und maschinellen Übersetzungen für verschiedene Bereiche Ihres Unternehmens und lassen Sie stets sowohl NMT- als auch LLM-generierte Übersetzungen überprüfen
All das hört sich vielleicht so an, als ob ich KI-Übersetzungen ganz und gar ablehne, egal unter welchen Umständen. Und das bin ich irgendwie auch. Im Augenblick.
Dennoch glaube ich, dass die rasanten Fortschritte bei LLMs diese in naher Zukunft tatsächlich zu einer guten (oder sogar besseren) Different zum klassischen NMT machen werden. Wird KI jedoch menschliche Übersetzer vollständig ersetzen? Schwierige Frage, aber wahrscheinlich nicht ganz.
Was mir realistischer erscheint, ist, dass KI und LLMs bald ein integraler Bestandteil aller Übersetzungssoftware werden werden, so wie es NMTs nach und nach taten. Ein mögliches Zukunftsszenario bei der Dateivorübersetzung in einem CAT-Instrument oder einem Translations-Administration-System kann additionally sein:
- Klassische Vorübersetzung im Vergleich zu Translation Reminiscences, die alles Mögliche nutzt
- Rohübersetzung durch (individuell trainierte) NMTs mit ihrer deterministischen und damit konsistenteren Natur für alle Textsegmente unterhalb der TM-Übereinstimmungsschwelle
- LLMs durchlaufen teilweise TM-Übereinstimmungen, um sie automatisch an die aktualisierte Quelle anzupassen („Fuzzy-Match-Auto-Reparatur“), und optimieren gleichzeitig den Stil der NMT-Ausgabe basierend auf dem Tone of Voice, der in Translation Reminiscence-Einträgen und öffentlich zugänglichen Quellen wie dem Unternehmen identifiziert wird Webseite.
Sobald alle diese Schritte abgeschlossen sind, ist es immer noch sehr wahrscheinlich, dass ein menschlicher Prüfer versuchen wird, diese TM-, NMT- und LLM-Ausgabe zu überprüfen und zu verbessern.
Der Hype um ChatGPT, Generative AI und LLMs wird uns voraussichtlich noch eine ganze Weile begleiten, bis diese Technologien Teil unseres täglichen Lebens werden. Es ist verständlich, dass viele Menschen bei der Entwicklung und Adaption einer solch disruptiven Technologie eine Rolle spielen wollen. Aber da ich selbst Übersetzer und Übersetzungsmanager bin, glaube ich nicht, dass LLMs bereits weit genug fortgeschritten sind, um die Übersetzungsbranche zu revolutionieren. Daran besteht kein Zweifel, und wir alle müssen die neuesten Entwicklungen im Auge behalten. Mein Rat wäre natürlich: Gehen Sie im Interesse Ihrer Kunden auf Nummer sicher, aber lassen Sie Ihre Übersetzer ab und zu das LLM-Gewässer testen.