Zur Verfügung gestellt von The African Languages Lab

Afrikanische Sprachen machen fast ein Drittel aller Sprachen weltweit aus. Von den mehr als 2.000 Sprachen, die auf dem Kontinent gesprochen werden, sind jedoch nur 49 auf Übersetzungsplattformen wie Google Translate verfügbar. Schlimmer noch, erstaunliche 88 % der afrikanischen Sprachen sind in der Computerlinguistik "stark unterrepräsentiert" oder "völlig ignoriert" (Joshi et al., 2020).

Künstliche Intelligenz (KI) bietet die Möglichkeit, unterrepräsentierte Sprachen zu schützen, aber Leitlinien und Schutzmaßnahmen sind von entscheidender Bedeutung. Ohne sie besteht die Gefahr, dass große Sprachmodelle (LLMs) institutionelle Sprachen stärken und den Niedergang anderer beschleunigen. Die Folgen sind verheerend: 40 % der Sprachen weltweit sind vom Aussterben bedroht, Hunderte davon werden in Afrika gesprochen. (UNESCO, 2022).

Das African Languages Lab (All Lab) ist eine von Jugendlichen geführte Kollaboration, die sich für den Erhalt afrikanischer Sprachen einsetzt, indem sie durch fortschrittliche KI- und NLP-Systeme (Natural Language Processing) dokumentiert, digitalisiert, übersetzt und gestärkt wird. Gemeinsam mit Partnern wie Smartling machen wir erhebliche Fortschritte, um die digitale Kluft für afrikanische Sprachen zu überwinden. So geht's.

 

Der Bedarf an Sprachdokumentation in Afrika

Die sprachliche Vielfalt ist einer der größten Schätze des afrikanischen Kontinents, bringt aber auch monumentale Herausforderungen mit sich. Viele, vor allem kleinere Gemeinschaften, sprechen einzigartige Sprachen, die nicht gut dokumentiert sind. Diesen "ressourcenarmen" Sprachen fehlen die notwendigen Datensätze, die für die rechnergestützte Nutzung benötigt werden, was maschinelle Übersetzung (MT), Sprachverarbeitung, automatisierte Transkription und andere NLP-Anwendungen schwierig, wenn nicht gar unmöglich macht.

Die Herausforderung ist allgegenwärtig – weniger als 5 % der afrikanischen Sprachen verfügen über signifikante digitale Ressourcen. (Gesellschaft für Computerlinguistik, 2019) Es ist klar, dass wir diese Sprachen besser dokumentieren müssen, aber der Prozess ist keine leichte Aufgabe. Statistiken des Afrikanischen Sprachenlabors

 

Die Herausforderung der Dokumentation ressourcenarmer afrikanischer Sprachen (Issaka et la., 2024)

  • Datenknappheit: Die meisten afrikanischen Kulturen haben historisch gesehen einen starken Schwerpunkt auf mündliche Traditionen gelegt. Das hat zur Folge, dass viele vor allem in mündlicher Form vorliegen und schriftliche Unterlagen oft spärlich oder gar nicht vorhanden sind. Ohne geschriebene Sprache wird die Zusammenstellung von Korpusdaten – einer Sammlung von geschriebener und gesprochener Sprache, die zum Trainieren von Modellen für maschinelles Lernen benötigt wird – kompliziert.
  • Staatliche Politik und begrenzte Forschungsmittel: Die meisten afrikanischen Regierungen haben Amtssprachen wie Englisch und Französisch – oft Überbleibsel der Kolonialherrschaft – Vorrang eingeräumt und wenig institutionelle Unterstützung für die Dokumentation, Erhaltung und Entwicklung indigener Sprachen bereitgestellt. Die unzureichende akademische Finanzierung aufgrund des geringen Interesses schränkt auch die Forschung und Entwicklung indigener Sprachtechnologien ein.
  • Frühkindliche Bildung: Einige afrikanische Länder haben sich zum Ziel gesetzt, indigene Sprachen in der Bildung zu erhalten, aber die Bemühungen greifen oft zu kurz. In Ghana zum Beispiel schreibt eine Richtlinie vor, dass ein Kind vom Kindergarten bis zur 3. Klasse in der Erstsprache unterrichtet werden muss, bevor es auf Englisch umsteigt. Es beschränkt den Unterricht jedoch auf 11 staatlich geförderte Sprachen, was zu noch weniger Ressourcen, Aufmerksamkeit und Sprechern für die übrigen Sprachen führt. Trotz dieser Richtlinien verlassen sich Pädagogen aufgrund begrenzter Ressourcen und Schulungen häufig auf Englisch als primäres Unterrichtsmedium.
  • Fehlen einer standardisierten Orthographie: Die Datenerfassung für viele ressourcenarme afrikanische Sprachen wie Hausa und Fulani ist aufgrund ihrer weiten geografischen Verbreitung und ihrer erheblichen dialektalen Unterschiede eine große Herausforderung. Daher erfordert die Erstellung einheitlicher digitaler Ressourcen für diese Sprachen eine sorgfältige und umfassende Koordination und Standardisierung.
  • Barrieren bei der Datenerfassung: In manchen Regionen wirken sich aktive Konflikte oder die Marginalisierung bestimmter Sprachgruppen negativ auf die Datenerfassung und Initiativen zur Sprachentwicklung aus. Darüber hinaus leben viele Sprecher ressourcenarmer Sprachen in ländlichen oder abgelegenen Gemeinden mit eingeschränktem Zugang zum Internet und zu digitalen Technologien, was die Erfassung linguistischer Daten zusätzlich erschwert.

 

Innovation für sprachliche Gerechtigkeit

Im African Languages Lab nutzen wir KI- und NLP-Systeme, um afrikanische Sprachen zu digitalisieren, zu übersetzen und zu bewahren, um positive Ergebnisse für die Menschen auf dem gesamten Kontinent zu erzielen. Unser Vier-Säulen-Ansatz unterstützt derzeit 40 Sprachen, vom gesprochenen Bantu bis zum weniger bekannten Khoisan, die verschiedene Kulturen, Regionen und Sprachfamilien auf dem gesamten Kontinent repräsentieren.

 

Wie das African Languages Lab ressourcenarme Sprachen unterstützt

  1. Datenerfassung, -extraktion, -bereinigung und -speicherung: Wir sammeln linguistische Daten aus verschiedenen Quellen, kuratieren und standardisieren sie, indem wir Inkonsistenzen beseitigen, und speichern sie sicher für die Verwendung von KI-Modellen.
  2. Forschung und Modellentwicklung: Wir forschen an der Entwicklung von KI-Modellen, die das Verständnis und die Anwendung afrikanischer Sprachen verbessern.
  3. Community-Engagement und Crowdsourcing: Wir arbeiten mit Institutionen, Communities und Muttersprachlern zusammen, um Daten zu erfassen und zu übersetzen. Mithilfe unserer innovativen, KI-basierten Technologien gewährleisten wir eine authentische Darstellung und langfristige Nachhaltigkeit.
  4. Einsatz der Technologie: In Zusammenarbeit mit Branchenführern und akademischen Einrichtungen verwenden wir KI- und NLP-Systeme, um unsere Daten in nutzbare Sprachausgaben zu übersetzen, die Plattformen wie unsere All Voices-App und einen mehrsprachigen Chatbot antreiben, der in die mobile Base-Anwendung integriert ist.

Länder, die lokale Sprachen in Bildung und digitale Inhalte integrieren, weisen tendenziell höhere Alphabetisierungsraten und eine stärkere kulturelle Beibehaltung auf.

Die Technologie, die unsere Arbeit möglich macht

Um unsere vier Säulen umzusetzen, braucht es die richtige Technologie und die richtigen Kooperationspartner. Aus diesem Grund haben wir eine strategische Partnerschaft mit Smartling geschlossen, einem führenden Anbieter von Übersetzungs- und Lokalisierungstechnologie. Diese Partnerschaft ermöglicht es uns, die hochmodernen Tools von Smartling für Sprachübersetzung, -verwaltung und -kontextgenauigkeit zu nutzen und die Art und Weise zu verändern, wie ressourcenarme Sprachen dokumentiert und digital geteilt werden.

So treibt die Technologie unseren Fortschritt bei der Digitalisierung und Übersetzung afrikanischer Sprachen voran.

 

Zusammenstellung vorhandener Daten: Korpusaggregation

Für viele afrikanische Sprachen fehlen zentralisierte Sprachdaten. Wir sammeln und standardisieren Daten aus verschiedenen Quellen und nutzen Python-Skripte, um die Daten zu bereinigen, zu standardisieren und in ein gemeinsames Format zu konvertieren, mit dem Ziel, einen zentralisierten Korpus für die breite Nutzung zu schaffen. Die Konsolidierung und Verfeinerung von Sprachdaten sorgt für Konsistenz und Zugänglichkeit und ermöglicht es den Communitys, Bildungsressourcen, Übersetzungstools und digitale Inhalte zu erstellen.

Das African Languages Lab hat über 400 GB an Sprach- und Textdaten für 40 afrikanische Sprachen mit geringen Ressourcen gesammelt und deren Dokumentation und digitale Verfügbarkeit verbessert.

Crowdsourcing neu gedacht: Alle Stimmen

Wie bereits erwähnt stellen unvollständige Daten eine kritische Lücke für den Erhalt der Sprache dar, die in einigen afrikanischen Gemeinschaften nur schwer zu schließen sein kann. Unsere innovative Datenerfassungs-App All Voices ermöglicht Institutionen, Gemeinden und Muttersprachlern, ihre lokale Sprache zu dokumentieren und zu digitalisieren. Mitwirkende können Gesprochenes für 40 afrikanische Sprachen aufzeichnen und so unseren gemeinsamen Bedarf decken, Daten für ressourcenarme Sprachen zu erfassen.

In Zukunft wird All Voices Kommunikationslücken in Gemeinschaften überbrücken und lokale Sprachen für alle zugänglich machen. Es wird auch zwischen afrikanischen Sprachen und populären Sprachen wie Englisch und Französisch übersetzt. Mit nahtlosen und präzisen Übersetzungen in eine Vielzahl von Sprachen zielt All Voices darauf ab, einen tieferen kulturellen Austausch zu fördern und gleichzeitig zu einem wachsenden Datensatz an ressourcenarmen Sprachdaten beizutragen.

 

Datenmanagement: Von der Speicherung bis zur Übersetzung

Die Aggregation und Organisation linguistischer Daten – neben der Verfügbarkeit der Community – sind für unsere Arbeit bei The All Lab von entscheidender Bedeutung. Smartling spielt eine wichtige Rolle in unserem gesamten Datenmanagementprozess, von der Datenerfassung über die Speicherung bis hin zur Übersetzung. Mit Smartling können wir Daten aus mehreren Projekten in einem sicheren, zentralisierten System hochladen, organisieren und speichern.

Die API von Smartling ermöglicht es uns nicht nur, unsere Daten auf breiter Basis über mehrere Plattformen hinweg zu teilen, sondern auch Aktualisierungen in Echtzeit vorzunehmen – um sicherzustellen, dass jedes Mitglied unserer Community Zugriff auf den genauesten und vollständigsten digitalen Korpus hat.

Wir verlassen uns auf das Translation Memory, die KI-gestützten Übersetzungen und die erfahrenen Übersetzer von Smartling, um konsistente und genaue Inhalte in verschiedenen afrikanischen Sprachen zu unterstützen. Unser daraus resultierendes strukturiertes und zugängliches Sprachenarchiv ist von entscheidender Bedeutung für die Ausweitung der digitalen Zugänglichkeit und der Erhaltungsbemühungen in der gesamten sprachlichen Vielfalt Afrikas.

 

Wir nutzen unsere Daten sinnvoll

Unsere Arbeit im All Lab – unterstützt durch die oben genannten Technologien – generiert strukturierte afrikanische linguistische Datensätze, die eine entscheidende Rolle bei der Digitalisierung ressourcenarmer Sprachen spielen. Diese Datensätze sind maßgeblich an der Entwicklung neuer Tools für maschinelle Übersetzung, Spracherkennung und Spracherhaltung beteiligt. Letztendlich tragen unsere Daten dazu bei, die afrikanische linguistische Forschung voranzutreiben und die Entwicklung genauerer und kulturell relevanter Sprachmodelle zu unterstützen.

Wir stellen unsere Datensätze auch über Open-Access-Plattformen wie Huggingface zur Verfügung. Unsere Arbeit fördert die gemeinschaftsbasierte KI-Entwicklung und ermutigt zu mehr Investitionen in afrikanische Sprachtechnologien.

 

Fortschritte machen – und in die Zukunft blicken

Im African Languages Lab haben wir erhebliche Fortschritte bei der Überwindung der digitalen Kluft für afrikanische Sprachen durch Datenerfassung, Aggregation, Standardisierung, Crowdsourcing sowie Modellentwicklung und -bereitstellung gemacht. Wir sind stolz auf unseren wachsenden, robusten Korpus an linguistischen Daten – der etwa ein halbes Terabyte groß ist –, fortschrittliche Übersetzungstools und die erfolgreiche Erweiterung des Zugriffs auf Sprachressourcen.

Bis heute haben wir über 400 GB an Sprach- und Textdatensätzen für 40 afrikanische Sprachen mit geringen Ressourcen gesammelt, um deren Dokumentation und technologischen Fortschritt zu unterstützen. Durch Partnerschaften mit akademischen Einrichtungen wie dem UCLA MARS Lab und Branchenführern wie Smartling nutzen wir Spitzenforschung und -technologie, um unsere Mission voranzutreiben. Wir sensibilisieren auch aktiv für die afrikanische Sprachlandschaft durch Seminare, Konferenzen und Fachbeiträge.

Mit Blick auf die Zukunft werden wir daran arbeiten, mehr ressourcenarme afrikanische Sprachen zu erhalten, die über unsere derzeitigen 40 hinausgehen. Wir wollen auch die Verfügbarkeit unserer Datensätze und Tools erweitern. Und wir setzen uns dafür ein, weitere Innovationen in den Bereichen maschinelle Übersetzung, Spracherhaltung und KI-gesteuerte linguistische Forschung in ganz Afrika voranzutreiben. Gemeinsam werden wir dafür sorgen, dass das sprachliche Erbe Afrikas im digitalen Zeitalter nicht nur überlebt, sondern auch gedeiht.

Warum warten, um intelligenter zu übersetzen?

Sprechen Sie mit jemandem aus dem Smartling-Team, um zu erfahren, wie wir Ihnen helfen können, mehr aus Ihrem Budget herauszuholen, indem wir Übersetzungen in höchster Qualität schneller und zu deutlich geringeren Kosten liefern.
Cta-Card-Side-Image