Mehr als 30 Sprachen bietet DeepL aktuell als Ausgangs- oder Zielsprache für eine Übersetzung an. Dazu gehören viele europäische Sprachen, aber auch große internationale Sprachen wie Chinesisch und Arabisch. Der Google Translator hat sogar mehr als 130 Sprachen im Programm. Bei mehr als 7.000 Muttersprachen weltweit ist das nur ein Bruchteil – doch gerade kleine Sprachen könnten von einer Digitalisierung profitieren. Warum das so ist und welche Möglichkeiten es dabei – auch für Unternehmen – gibt, zeigen wir Ihnen in diesem Artikel.
Digitale Gleichberechtigung
Menschen, die eine große und bekannte Sprache sprechen, haben Zugang zu zahlreichen Informationen im Internet, können problemlos Onlineshoppen oder mit Chatbots kommunizieren, beispielsweise auch, um ihre Rechte zu vertreten.
Zahlreiche Menschen auf der Welt sprechen aber eine weniger bekannte Sprache, unter anderem das kamerunische Ghomálá’, das zwar von 260.000 Menschen gesprochen wird, aber im Internet wenig vertreten ist. Zu den Sprecherinnen gehört auch die Kamerun-Kanadierin Chantal Kamgne, die im November 2024 bei der „AI in Translation Summit“ von ihren persönlichen Erfahrungen und von den Chancen, die eine Digitalisierung von bislang wenig repräsentierten Sprachen bietet, berichtete. Darunter fällt auch das wirtschaftliche Wachstum in Sprachräumen mit den sogenannten „low-resourced languages“.
Herausforderungen für digital unterrepräsentierte Sprachen
Seltene Sprachen können aktuell nicht mit den großen KI-Tools übersetzt werden, weil es einfach zu wenige verlässliche Daten gibt. Übersetzer können aber ihre eigenen Datenbanken anlegen und nutzen, sodass Übersetzungen schneller und besser werden. So können auch Sprachenpaare mit weniger Ressourcen besser übersetzt werden.
Die Problematik betrifft aber nicht nur professionelle Übersetzungen durch Humanübersetzer, die meist weniger Kapazitäten als Aufträge haben, sondern vor allem die Inklusion und Teilhabe im digitalen Raum: Durch Übersetzungs-APIs könnten Webseiten oder Onlineshops auch automatisiert in seltene Sprachen übertragen werden oder Chatbots mit Personen aus diesen Sprachräumen kommunizieren. Das sorgt für mehr Teilhabe – gerade dann, wenn Personen keine digital präsentere Sprache als Zweitsprache sprechen. Sie laufen aktuell Gefahr, digital und gesellschaftlich abgehängt zu werden.
Das Problem gilt besonders für Sprachen, die wenig Präsenz im digitalen Raum haben, also beispielsweise eher als Familiensprache gesprochen oder vor allem im mündlichen Bereich genutzt werden. Das fördert übrigens auch das Risiko zum Aussterben von Sprachen.
KI für Sprachmodelle nutzen
Kamgne engagiert sich seit einigen Jahren für die Digitalisierung solcher Sprachen. Für das Projekt „Engage Africa NLP“ in Kollaboration mit dem African Language Lab, werden unterrepräsentierte afrikanische Sprachen digital mithilfe lokaler Sprecher erfasst. Daten werden in der App gesammelt, um so verarbeitet und für das Training von Sprachmodellen genutzt werden zu können. Ein Anreiz für die Nutzer ist die Gamification, wie sie auch bei Sprachlern-Tools gerne genutzt wird. Die erfassten Daten werden anschließend von professionellen Linguisten gesichtet und verarbeitet, um eine hohe Qualität sicherzustellen.
Die Ziele von Sprachmodellen sind dabei:
- Wortfolgen vorhersagen
- Eingegebenen Text verarbeiten können
- Generierung von Text
- Sprachverarbeitung
Als Herausforderung ist neben der schlechten Verfügbarkeit von Daten hauptsächlich zu betrachten, dass diese Sprachen teils weniger formalisiert sind. Hier benötigen AI-Modelle also mehr Flexibilität – und vor allem Trainingsdaten. Das Crowdsourcing ist eine wichtige Ressource für diese Daten.
Vorteile der Digitalisierung
Das Ganze ist übrigens auch wirtschaftlich interessant. Viele Millionen Menschen in Afrika nutzen das Internet – und nicht alle von ihnen sprechen Englisch, Französisch oder Arabisch. Dabei ist das Potenzial enorm: Das BIP in vielen afrikanischen Staaten steigt und gerade Apps und Onlineshops können auch von den zukünftig zu erwartenden Kunden profitieren. Bei Sprachen, für die sich eine komplette Lokalisierung nicht zu lohnen scheint, könnte aber eine Sprach-API für seltene Sprachen Vertrauen bei den Nutzern fördern und somit den Absatz steigern.
Damit das möglich wird, arbeiten Projekte wie das von Kamgne daran, gute Sprachmodelle zu erstellen.
Erforderlich für erfolgreiche Sprachmodelle:
- Umfangreiche Abbildung der Sprachen, inklusive Grammatik, Syntax und Idiomen
- Daten aus verschiedenen Anwendungszwecken: Formelle Sprache, aber auch aus mündlicher Anwendung
- Hochwertige Übersetzungen in die Sprache und aus der Sprache einbinden
- Kulturelle, soziale und kontextuelle Aspekte der Sprache einbeziehen
Zu wenige Daten können zu einer Überanpassung und unzureichenden Ergebnissen führen. Je mehr Daten vorhanden sind, umso besser können die Modelle werden und performen. Dafür gilt auch, dass die Daten breit gefächert sein müssen.
Auch Meta arbeitet im Rahmen von NLLB-200 (NLLB=„No Language Left Behind“) daran, Modelle für seltenere Sprachen oder Dialekte bereitzustellen, und bislang wenig vertretene Sprachen ins digitale Zeitalter zu bringen.
In der Zwischenzeit stehen wir Ihnen gerne für Ihre Übersetzung zur Verfügung. Bei LEGINDA finden Sie neben großen und bekannten Sprachen auch die Möglichkeit, weniger bekannte Sprachen wie Dari, Tigrinya oder Gujarati als Ausgangs- oder Zielsprache auszuwählen. Wir freuen uns auf Ihre Kontaktaufnahme!
Quellen:
- Chantal Kamgne: „Low-Resourced Languages with AI: Challenges and Requirements in Building Datasets“, Vortrag bei der AI in Translation Summit 2024, abgerufen am 21.11.2024.
- Pascal Kiss, 06.06.2024: „Neues KI-Modell übersetzt auch seltene Sprachen“, in SWR Wissen, unter https://www.swr.de/wissen/neues-ki-modell-uebersetzt-seltene-sprachen-100.html, zuletzt am 22.11.2024.
- Meta: „200 Sprachen in einem einzigen KI-Modell: Ein Durchbruch bei der qualitativ hochwertigen maschinellen Übersetzung“, unter https://ai.meta.com/blog/nllb-200-high-quality-machine-translation/de/, zuletzt am 22.11.2024.