KI ModellForschende bringen Künstlicher Intelligenz seltene Sprachen bei
Die Vereinten Nationen sagen: Internet ist ein Menschenrecht. Doch was, wenn es nur wenige oder keine Informationen in der eigenen Sprache gibt? KI könnte helfen, das Problem zu lösen. Deshalb schicken Forschende sie jetzt in die Sprachschule.
Bisherige KI-Sprachmodelle unterstützen nur 30 bis maximal 80 Sprachen. Weltweit gibt es aber rund 7000 Sprachen, erläutert Wissenschaftsjournalist Pascal Kiss. Deshalb forschen derzeit viele Wissenschaftlerinnen und Wissenschaftler an KI-Modellen, die mehr Sprachen beherrschen.
Einsatz bei Wikipedia
Ein internationales Forschungsteam im Auftrag des Instagram-Mutterkonzerns Meta hat jetzt schon ein Sprachmodell entwickelt, das immerhin 200 Sprachen beherrscht.
Pascal Kiss verdeutlicht, dass man auch mit Internetzugang nicht vom Internet profitieren kann, wenn man eine nicht weit verbreitete Sprache spricht. Dann kann man mit vielen Informationen und den Möglichkeiten des Netzes eigentlich gar nichts anfangen.
"Spreche und verstehe ich nur eine seltene Sprache, dann kann ich mit vielen Informationen und den Möglichkeiten des Netzes eigentlich gar nichts anfangen."
Bei Wikipedia kommt das Sprachmodell der Forschenden schon zum Einsatz und übersetzt jetzt englischsprachige Artikel in Lingála, eine Verkehrssprache in beiden Kongo-Staaten und im angrenzenden Angola. Diese Sprache sprechen rund 20 Millionen Menschen, bisher gab es aber nur einige tausend Artikel auf Wikipedia in dieser Sprache.
"Ich habe bisher noch nichts von Lingála gehört, dennoch sprechen 20 Millionen Menschen die Sprache, aber es gab nur wenige tausend Artikel in der Sprache."
So können jetzt die Menschen zum ersten Mal tatsächlich von den Möglichkeiten des Internets Gebrauch machen.
Fehlendes Trainingsmaterial oft ein Problem
Um eine Sprache der KI beizubringen, braucht es in der Regel viel Trainingsmaterial in guter Qualität, sprich ohne grammatikalische Fehler und in richtiger Rechtschreibung. Bei seltenen Sprachen ist das oft ein Problem.
Jetzt hat man es aber hinbekommen, dass es quasi eine Voranalyse gibt. Auch wenn die Sprache noch nicht richtig verstanden wird, können Fehler schon herausgefunden werden. So können die Trainingsdaten verbessert werden, obwohl es nur wenig Material gibt.
Zudem sagt Pascal Kiss, werden bei diesem Sprachmodell Synergien und Querverbindungen zu anderen Sprachen genutzt. So könne grundsätzlich auch verhindert werden, dass das Sprachmodell insgesamt schlechtere Ergebnisse liefere, wenn es eine neue Sprache lerne. Dies sei in der Vergangenheit bei anderen Sprachmodellen beobachtet worden.