Aufgrund unserer zentralen Rolle in der Lokalisierungsinfrastruktur ist Smartling gut aufgestellt, um Analysen auf Makroebene zu Nutzungsmustern und allgemeinen Trends in der Welt der Webinhalte durchzuführen.

Und vor kurzem haben wir etwas Interessantes in diesen Daten gefunden.

Wir haben festgestellt, dass LLM-Bots lokalisierte Websites scannen. Vermutlich geht es dabei darum, Inhalte auszuwerten, mit denen sich die eigenen grundlegenden Modelle weiter verbessern lassen.

Es ist ein allgemeiner Trend, von dem jede Art und Größe von Unternehmen betroffen ist. Ohne auf die Rechtmäßigkeit, Ethik oder das Eigentum an diesen Inhalten einzugehen, sind wir sofort beeindruckt von dem Potenzial, aufgrund dieser Crawls eine Internet-Echokammer zu schaffen.

Kontamination von Trainingsdaten und Folgen

Mit der Zunahme von Unternehmen, die einen MT-First- oder MT-Fallback-Ansatz für ihre Webinhalte verwenden, sowie der jüngsten Verfügbarkeit von LLMs als Übersetzungsdienstleister könnten LLMs bald in der Lage sein, unwissentlich "ihr eigenes Hundefutter zu essen".

Welche Auswirkungen hat es auf die Qualität und Effektivität von LLMs, wenn ihre Trainingsdatensätze mit übersetzten Inhalten verwoben sind, die aus LLMs stammen?

LLMs stützen sich auf die große Auswahl an frei verfügbaren digitalen Inhalten im Internet, sei es in einem Zeitungsartikel, einer wissenschaftlichen Zeitschrift, einem Blogbeitrag oder gescannten Büchern, um genügend Inhalte zu sammeln, um die Größe und Komplexität eines vortrainierten Modells zu erhöhen und so menschenähnliche generative Fähigkeiten bereitzustellen. Wenn jedoch ein erheblicher Teil der aufgenommenen Inhalte ausschließlich von LLMs erstellt wurde, ohne dass durch menschliches Feedback verstärkt gelernt wurde, werden sie dann in Bezug auf die Qualität und Genauigkeit ihrer Ausgabe ins Driften geraten? Wird die Rückkopplungsschleife eine Art KI-Ismus hervorbringen, der schließlich die Struktur und den Ton der Sprache im Allgemeinen verbreitet und verändert?

Es ist schwierig, die Auswirkungen abzuschätzen, aber da wir am Anfang dieser generativen KI-Revolution stehen, sehen wir die potenziellen Fallstricke im Datenerfassungsprozess, der von LLM-Anbietern verwendet wird.

Fragen des geistigen Eigentums und des Wertes

Es ist unmöglich, den gesamten eingehenden Datenverkehr von Bots zu identifizieren, da wir auf die korrekte Verwendung von User-Agent-Headern angewiesen sind, die ihren Ursprung und Zweck angeben. Viele skrupellose Scraping-Bots verbergen nicht nur ihren Zweck; Sie werden aktiv versuchen, sich zu tarnen und sich in den allgemeinen Verkehrsstrom einzufügen, den jede öffentliche Website sieht.

Ein möglicher zukünftiger Ansatz zum Filtern dieses „Echokammer“-Effekts besteht darin, dass LLMs mit Inhaltsanbietern zusammenarbeiten, um eine Art Wasserzeichen zu entwickeln, das von einem LLM generierte Inhalte identifiziert, sodass sie entsprechend kategorisiert und behandelt werden können. Diese Art der Wasserzeichen wird wahrscheinlich gefragt sein, um die Auswirkungen von Desinformation, Diebstahl geistigen Eigentums und anderen asozialen Verhaltensweisen böswilliger Akteure abzumildern.

Darüber hinaus könnten sich Unternehmen, die nichts dagegen haben oder daran interessiert sind, dass LLMs ihre Daten crawlen, eines Tages dafür entscheiden, ihre Inhalte zu monetarisieren, indem sie den Zugang zu LLM-Crawlern verkaufen. Dies könnte sich als lukratives Nebengeschäft erweisen, das einen ausgehandelten Wert für von Menschen generierte Inhalte zahlt. Inhaltsproduzenten haben bereits laufende Klagen gegen LLMs eingereicht, um die Kontrolle über ihr urheberrechtlich geschütztes Material wiederzuerlangen.

Was können wir dagegen tun?

LLM-Scraping von Websites nach Inhalten ist kein Geheimnis. Dennoch sind viele Unternehmen überrascht, wenn sie erfahren, dass ihnen das passiert, und sie nehmen möglicherweise unwissentlich an Aktivitäten teil, die ihnen wenig Nutzen bringen, aber einen endlosen Wert für LLMs schaffen.

In der Welt der maschinellen Übersetzung ist die Idee, "KI zu nutzen, um KI zu unterstützen" keine neue Idee. Wenn clientspezifische, Domain- oder Long-Tail-Sprachdaten knapp sind, ist es nicht ungewöhnlich, auf Datenerweiterungstechniken wie Web-Crawling ähnlicher Websites, Rückübersetzung oder Datenherstellung zurückzugreifen, indem leicht unterschiedliche Ausgangs- und Zielsprachvarianten erstellt werden.

Dennoch ist es wichtig, dass jeder, der sich auf die Ergebnisse des Modells verlässt, die Vor- und Nachteile solcher Ansätze versteht. In den meisten Fällen können solche Techniken die Modellqualität nur schrittweise verbessern. Letztlich ersetzen sie nicht das zugrundeliegende Motto des maschinellen Lernens – das Bedürfnis nach gut gekennzeichneten und relevanten Daten.

Warum warten, um intelligenter zu übersetzen?

Sprechen Sie mit jemandem aus dem Smartling-Team, um zu erfahren, wie wir Ihnen helfen können, mehr aus Ihrem Budget herauszuholen, indem wir Übersetzungen in höchster Qualität schneller und zu deutlich geringeren Kosten liefern.
Cta-Card-Side-Image