Digitale Inhalte sehen nicht immer gleich aus, wenn sie in verschiedenen Sprachen angezeigt werden. Ohne ordnungsgemäße Kodierung können Zeichen verstümmelt erscheinen, was zu Verwirrung, Datenbeschädigung oder sogar zum Ausfall von Websites auf globalen Märkten führen kann.

Unabhängig davon, ob Sie eine mehrsprachige App erstellen oder Ihre Website lokalisieren, ist die Zeichenkodierung einer der Prozesse, der Ihnen dabei hilft, präzisen Text und ein nahtloses Benutzererlebnis bereitzustellen. Wenn Sie die Bedeutung und die verschiedenen Formate – wie ASCII- und Unicode-Kodierung – verstehen, können Sie Ihre Nachrichten problemlos übersetzen und für mehrsprachige Zielgruppen anzeigen.

In diesem Handbuch erklären wir, was Zeichenkodierung ist, welche wichtigen Standards heute verwendet werden und warum die Kodierung für die Internationalisierung von entscheidender Bedeutung ist.

 

Was ist Zeichenkodierung und welchen Einfluss hat sie auf die erfolgreiche Lokalisierung von Websites?

Bei der Zeichenkodierung wird Text in Zahlen oder Symbole umgewandelt, damit Maschinen Text auf Websites, in Apps und auf Betriebssystemen verarbeiten und anzeigen können. Da Computer mit Binärziffern (Nullen und Einsen) arbeiten, bietet die Zeichenkodierung eine Möglichkeit, Text aus verschiedenen Sprachen in ein digitales Format zu übersetzen , das von Maschinen leicht interpretiert werden kann.

Hier ist ein einfaches Kodierungsbeispiel: In einem Kodierungsstandard könnte „A“ durch die Binärsequenz „01000001“ dargestellt werden. Der Computer liest diese Binärdaten und der Kodierungsstandard übersetzt sie zurück in das entsprechende, für Menschen lesbare Zeichen: „A“. 

Die Zeichenkodierung spielt bei der Lokalisierung für globale Unternehmen eine entscheidende Rolle, da sie ihnen die genaue Anzeige einer großen Bandbreite an Zeichen aus verschiedenen Schriftsystemen, darunter Chinesisch, Arabisch und Kyrillisch, ermöglicht. Dies führt zu einer genaueren und schnelleren Übersetzung. 

Unternehmen können außerdem das Global Delivery Network (GDN) von Smartling, einen Webproxy für Übersetzungen, nutzen, um schnell Übersetzungen für Websites und Apps zu starten. Nach der Einrichtung können Inhalte von Ihrer Website reibungslos zur Übersetzung in Smartling fließen. Smartling bietet sogar ein Menü mit Sonderzeichen für verschiedene Sprachen und Formatierungsoptionen, die Sie einfach in Ihre Übersetzungen einfügen können.

 

Was sind die wichtigsten Arten der Zeichenkodierung?

Jedes Zeichenkodierungsformat unterstützt unterschiedliche Sprachen und technische Anforderungen für die Inhaltslokalisierung.

 

Kodierungstyp

Hauptmerkmale

Unterstützte Sprachen

Anwendungsfälle

ASCII

7-Bit, stellt 128 Zeichen dar, einschließlich englischer Buchstaben, Ziffern und Grundsymbole

Englisch

Frühe Computertechnik, einfache Textdateien, Altsysteme

ISO-8859-1

8-Bit, stellt verschiedene west-/osteuropäische Zeichen dar

Westeuropäische Sprachen wie Deutsch, Französisch und Spanisch

Ältere Webinhalte, internationale Dokumente

UTF-8

Variable Länge (1-4 Bytes), abwärtskompatibel mit ASCII, verarbeitet alle Unicode-Zeichen, kein BOM erforderlich

Fast alle Sprachen

Webinhalte, moderne Anwendungen, plattformübergreifender Datenaustausch

UTF-16

Eine oder zwei 16-Bit-Codeeinheiten

Fast alle Sprachen, plus Sonderzeichen wie Emojis

Web- und internationale Inhalte, moderne Textdateien mit Sonderzeichen 

Windows-1252 

8-Bit, umfasst westeuropäische Zeichen; Obermenge von ASCII

Osteuropäische Sprachen wie Polnisch und Tschechisch

Ältere Windows-basierte Anwendungen

 

Hier finden Sie einen genaueren Blick auf die gängigsten Arten der Zeichenkodierung, einschließlich ihrer Funktionsweise und Beispiele für ihre Verwendung in lokalisierten Apps und Websites.

 

ASCII

Der American Standard Code for Information Interchange (ASCII) ist eines der ältesten und einfachsten Zeichenkodierungssysteme. ASCII verwendet 7 Bits zum Kodieren von 128 Zeichen und deckt grundlegende englische Buchstaben, Ziffern und Satzzeichen ab. 

Bei ASCII wird jedem Zeichen ein eindeutiger numerischer Code zugeordnet. Beispielsweise wird der Großbuchstabe „A“ als 65 dargestellt und das Ausrufezeichen „!“ als 33. Im Binärsystem wird „A“ zu „01000001“. ASCII ist die Grundlage moderner Kodierungsschemata, ist jedoch auf Englisch beschränkt und unterstützt keine akzentuierten oder nicht-lateinischen Zeichen.

 

ISO-8859-1

ISO-8859-1 ist ein 8-Bit-Einzelbyte-Zeichenkodierungsformat, das von der Internationalen Organisation für Normung (ISO) entwickelt wurde, um die Fähigkeiten von ASCII auf westeuropäische Sprachen auszuweiten. 

ISO-8859-1 kodiert 256 Zeichen, darunter zusätzliche Buchstaben mit Akzenten wie „é“ und „ö“ sowie eine Vielzahl spezieller Satzzeichen und Symbole. Beispielsweise wird das Zeichen „é“ durch den Code 233 dargestellt und „ñ“ durch 241. Allerdings kann ISO-8859-1 keine Zeichen außerhalb des westeuropäischen Satzes kodieren, was seine Verwendung für internationale Anwendungen einschränkt.

 

UTF-8

Unicode Transformation Format – 8 Bit (UTF-8) ist ein Zeichenkodierungsformat mit variabler Länge, das für effiziente, globale Sprachkompatibilität entwickelt wurde. Mit UTF-8 werden alle ASCII-Zeichen mit einem Byte kodiert und behalten dieselben Binärwerte bei. Nicht-ASCII-Zeichen wie „€“ verwenden Mehrbyte-Sequenzen, wie „11100010 10000010 10101100“ für „€“ im Binärsystem. 

UTF-8 kann jedes Zeichen im Unicode-Standard kodieren und so eine nahtlose mehrsprachige Unterstützung gewährleisten. Aufgrund seiner Fähigkeit, große Sprachmengen zu verarbeiten, hat es sich zum dominierenden Kodierungsformat für das Web und moderne Anwendungen entwickelt.

 

UTF-16

UTF-16 stellt jedes Zeichen im Unicode-Standard mithilfe einer oder zwei 16-Bit-Codeeinheiten dar. Zeichen in regulären Schriften werden als einzelne 16-Bit-Einheit gespeichert, und andere Zeichen (wie Emojis und seltene historische Schriften) erscheinen als Ersatzpaare, die aus zwei kombinierten 16-Bit-Codeeinheiten bestehen. 

Beispielsweise ist „A“ (U+0041) in UTF-16 0x0041, während das Emoji mit dem lächelnden Gesicht „😊“ (U+1F60A) als Ersatzpaar 0xD83D 0xDE0A gespeichert wird. Dadurch kann UTF-16 über eine Million verschiedene Zeichen kodieren, benötigt jedoch für manche Texte mehr Platz als UTF-8.

 

Windows-1252

Windows-1252 ist ein von Microsoft für westeuropäische Sprachen entwickelter 8-Bit-Zeichenkodierungstyp, der in Windows-Umgebungen allgemein als „ANSI“-Kodierung bezeichnet wird. Es ähnelt ISO-8859-1, enthält jedoch zusätzliche Zeichen wie Anführungszeichen („ “) und das Eurozeichen (€).

Windows-1252 wurde in älteren Windows-Dokumenten und -Anwendungen häufig verwendet, wurde jedoch größtenteils durch UTF-8 ersetzt, insbesondere aus Gründen der internationalen Kompatibilität.

 

Lösen von Problemen mit der Zeichenkodierung in einer mehrsprachigen Welt: 5 Herausforderungen und Best Practices

Die Zeichenkodierung ist technisch und differenziert und stellt Unternehmen, die ein mehrsprachiges Publikum erreichen möchten, vor gewisse Herausforderungen. Achten Sie bei der umfangreichen Lokalisierung von Inhalten auf die folgenden häufigen Kodierungsprobleme und die Best Practices zu deren Behebung:

 

1. Verstümmelter Text

Wenn Software Text mit der falschen Zeichenkodierung interpretiert, kann dies zu verstümmelten, unleserlichen Zeichen wie Fragezeichen oder zufälligen Symbolen führen. Dies geschieht normalerweise, wenn in einem Format (wie UTF-8) codierter Text mit einer anderen Codierung (wie ISO-8859-1) geöffnet oder gerendert wird, was zu nicht übereinstimmenden Byteinterpretationen führt. Unverständlicher Text verwirrt die Benutzer und kann die Glaubwürdigkeit einer Site mindern.

Best Practice: Versuchen Sie, für alle Inhalte eine konsistente Kodierung zu verwenden. Sie können dies tun, indem Sie HTML-Tags wie <meta charset="UTF-8"> verwenden, um sicherzustellen, dass Browser Text wie vorgesehen verarbeiten.

 

2. Datenverlust während der Konvertierung

Beim Konvertieren von Inhalten zwischen verschiedenen Kodierungen – beispielsweise von Windows-1252 zu UTF-8 – können einige Zeichen verloren gehen oder falsch ersetzt werden. Dies kann die Lesbarkeit mehrsprachiger und lokalisierter Inhalte erheblich beeinträchtigen und, wenn Sie es nicht frühzeitig erkennen, zu einer Beschädigung der Daten führen. 

Best Practice: Verwenden Sie Unicode-kompatible Übersetzungstools, die die Konvertierung zwischen Codierungsformaten optimieren. Sichern Sie außerdem immer Ihre Daten, bevor Sie Änderungen an der Kodierung vornehmen, und testen Sie die Ergebnisse auf Genauigkeit.

 

3. Fehlende Unterstützung mehrsprachiger Schriftarten oder Glyphen

Selbst bei korrekter Zeichenkodierung kann der Text als leere Quadrate angezeigt werden, wenn die erforderlichen Schriftarten oder Glyphen auf dem Gerät des Benutzers nicht verfügbar sind. Dieses Problem tritt besonders häufig bei der Verwendung von Buchstaben mit Akzent oder Emojis auf, die von älteren oder einfachen Schriftarten möglicherweise nicht unterstützt werden.

Best Practice: Verwenden Sie websichere Schriftarten, die eine große Bandbreite an Zeichen in verschiedenen Sprachen unterstützen. Erstellen Sie einen Schriftartstapel mit Fallback-Zeichen, die das System bei Bedarf automatisch in den Text einfügen kann.

 

4. Bidirektionaler Text

Sprachen wie Arabisch und Hebräisch verwenden ein Rechts-nach-links-Schriftsystem (RTL), was zu Layout- und Ausrichtungsproblemen führen kann – insbesondere in Kombination mit Links-nach-rechts-Schriftsystemen (LTR) wie Englisch. Wenn diese Sprachen nicht richtig kodiert sind, können sie den Lesefluss stören oder die Formatierung vollständig zerstören.

Best Practice: Verwenden Sie die richtige Sprache und richtungsspezifische Markups, wie etwa dir="rtl" und lang="ar" in HTML, damit Browser den Text korrekt anzeigen können. Wählen Sie Frameworks, die RTL-Layouts unterstützen, und testen Sie Inhalte, um sicherzustellen, dass sie für alle Zielgruppen korrekt angezeigt werden.

 

5. Probleme mit der Byte-Reihenfolgemarkierung

Eine Byte Order Mark (BOM) ist eine spezielle Markierung am Anfang einer Textdatei, die die Bytereihenfolge und Kodierung angibt. Stücklisten können beispielsweise folgende Probleme verursachen:

  • Unerwartete unsichtbare Zeichen am Anfang von Dateien (z. B. „“)
  • Inkompatibilität mit einigen Systemen, wie z. B. älteren Webbrowsern
  • Interoperabilität zwischen Anwendungen

Best Practice: Verwenden Sie beim Verarbeiten von Textdateien Tools, die Stücklisten automatisch erkennen und entsprechend verarbeiten können. Lassen Sie bei Webinhalten die BOM in UTF-8 weg, um Anzeigeprobleme zu vermeiden.

 

Vereinfachen Sie die Kodierung mit den Lokalisierungstools von Smartling

Die Zeichenkodierung ist für Benutzer oft unsichtbar, aber sie ist entscheidend dafür, wie sie Inhalte auf verschiedenen Geräten und in verschiedenen Sprachen erleben – von lokalisierten Apps bis hin zu mehrsprachigen Websites. Durch das Verständnis der Grundlagen der Kodierung können Übersetzungs- und Entwicklungsteams kostspielige Fehler vermeiden und einem weltweiten Publikum ein reibungsloseres Erlebnis bieten.

Smartling wurde entwickelt, um Unternehmen beim globalen Wachstum zu unterstützen und gleichzeitig die Übersetzung für Entwickler mit einem leistungsstarken Webproxy und einer robusten API zu vereinfachen. Smartling lässt sich direkt in Ihre vorhandenen Technologie-Stacks integrieren, wodurch manuelle Aufgaben entfallen und der Übersetzungsprozess optimiert wird. Tatsächlich können Sie mit Smartling bei jedem Code-Push neue Sprachen hinzufügen und Übersetzungs-Workflows auslösen, sodass Sie ohne Unterbrechung international expandieren können.

British Airways beispielsweise nutzte den Web-Übersetzungsproxy von Smartling, um seine Website für koreanische Kunden zu lokalisieren. Mit der zentralisierten Plattform von Smartling konnte British Airways mehr als 500.000 Wörter übersetzen und doppelt so schnell wie üblich starten. Lesen Sie die Fallstudie, um zu erfahren, wie sie dies geschafft haben.

Warum warten, um intelligenter zu übersetzen?

Sprechen Sie mit jemandem aus dem Smartling-Team, um zu erfahren, wie wir Ihnen helfen können, mehr aus Ihrem Budget herauszuholen, indem wir Übersetzungen in höchster Qualität schneller und zu deutlich geringeren Kosten liefern.
Cta-Card-Side-Image