Wie man deutsche Bandwurmwörter leicht lesbar macht – mit Hilfe von KI
Am 9. September 2025 fand in Hildesheim als Teil der NLP-Konferenz Konvens der wissenschaftliche Workshop „KlarText: Workshop on German Text Simplification & Readability Assessment“ statt. t2k war auf diesem Workshop mit einem Forschungsbeitrag über die KI-gestützte Trennung langer, zusammengesetzter Wörter vertreten. In unserem Beitrag erläutern wir, wie wir ein KI-Modell trainiert haben, das selbständig erkennen kann, welche Wörter in einem Text zu schwierig für die Leichte Sprache sind. In einem zweiten Schritt prüft das Modell, welcher Teil dieser Wörter mit einem mediopunkt oder einem Bindestrich getrennt werden muss. Klingt trivial, ist aber eine Aufgabe, die selbst große LLMs in der Regel nicht konsistent bewältigen können. Unser Beitrag erläutert, wie kleine, fokussierte Sprachmodelle für solche spezialisierten Aufgaben finegetunt werden können.
Warum ist das wichtig?
Die deutsche Sprache ist bekannt für ihre langen Komposita, also Wörter, die durch das Zusammenfügen kürzerer Wörter entstehen. Für Muttersprachler ist das selbstverständlich, für Menschen mit kognitiven Beeinträchtigungen, Leseschwierigkeiten oder geringer Sprachkompetenz können solche Wörter jedoch eine ernsthafte Hürde darstellen.
Die Leichte Sprache begegnet dieser und anderen Herausforderung des Deutschen, indem sie Texte durch die Anwendung von Sprachregeln leichter lesbar macht. Den deutschen Bandwurmwörtern begegnet sie zum Beispiel durch die visuelle Segmentierung mittels Bindestrich oder Mediopunkt, z. B.:
- Weihnachtsbaum → Weihnachts·Baum
- Internetseite → Internet·Seite
Diese visuelle Zerlegung soll die Aufnahme und das Verstehen komplexer, langer Wörter erleichtern.
Studien mit Eye-Tracking und Reaktionszeit-Experimenten (z. B. Deilen, 2021, oder Wellman, 2020) zeigen, dass eine solche Segmentierung die Lesebelastung reduziert und das Textverständnis verbessert. Allerdings ist die manuelle Segmentierung komplexer Wörter zeitaufwendig, zudem wird sie schnell inkonsistent. Das wiederum macht die Erstellung von Leichte-Sprache-Inhalten zeitaufwendig und teuer. Um hier Abhilfe zu schaffen, hat t2k ein Sprachmodell trainiert, das deutsche Bandwurmwörter automatisch erkennt und in ihre semantischen Bestandteile zerlegt.
Welchen KI-Ansatz haben wir bei dem Workshop präsentiert?
Wir haben eine automatische, KI-gestützte Pipeline zur Komposita-Segmentierung in Leichter Sprache entwickelt. Diese Pipeline besteht aus zwei Hauptkomponenten:
1. Erkennung komplexer Wörter: Nach den Regeln der Leichten Sprache sollen nicht alle Wörter getrennt werden, sondern nur die schwierigen Wörter. Aber welche Wörter sind überhaupt "schwierig"? Um diese nur auf den ersten Blick triviale Frage zu beantworten, nutzen wir ein selbsttrainiertes KI-Modell (Patil et al., 2025). Dieses Modell entscheidet, ob ein Wort für die Zielgruppe der Leichten Sprache schwierig ist oder nicht. Nur für die so identifizierten schwierigen Wörter prüfen wir dann, ob sie gesplittet werden müssen.
2. KI-gestützte Kompositatrennung Hier handelt es sich um ein ebenfalls selbsttrainiertes schlankes, zeichenbasiertes Bi-LSTM mit einer Klassifikationsschicht, die vorhersagt, wo die Trennstellen liegen. Das Modell erhält die Wörter aus Schritt 1 und gibt bei trennbaren Komposita die Trennstelle aus, ohne dafür auf lexikalische Ressourcen wie z. B. Wörterbücher zurückgreifen zu müssen.
Zusammen bilden diese Komponenten ein System, das nicht nur Komposita segmentiert, sondern auch entscheidet, welche überhaupt segmentiert werden müssen – eine entscheidende Voraussetzung für die korrekte Übertragung von Texten in Leichte Sprache.
Wie gut in unser Ansatz für die Kompositatrennung?
Wir haben unseren Ansatz auf einem neuen Datensatz von über 38.000 Sätzen in Leichter Sprache mit manuell segmentierten Komposita getestet. Unter Einsatz der Komplexitätsfilterung aus Schritt 1 erreichte unsere Pipeline eine Token-Genauigkeit von 96,5 % und produzierte in über 71 % der Sätze vollständig korrekte Segmentierungen. Das bedeutet zwar, dass die KI allein noch keine vollständig korrekte Leichte Sprache erzeugen kann. Unsere Ergebnisse zeigen aber sehr wohl, dass sie menschliche Experten beim korrekten Formulieren und zielgruppengerechten Schreiben unterstützen kann.
Welche anderen interessanten Beiträge gab es bei dem Workshop?
Der KlarText-Workshop war Aspekten der Textvereinfachung und sprachlichen Barrierefreiheit gewidmet. Bei der Veranstaltung wurden sowohl theoretische Einsichten als auch praktische NLP-Lösungen diskutiert und vorgestellt. Die folgenden Beiträge fanden wir besonders interessant:
- Developing A German Document-Level Parallel Dataset For Automatic Text Simplification To Generate Easy Language — Vivien Jiranek & Stefan Hillmann. Diese Arbeit stellt den EasyGerman-Datensatz vor, die größte Sammlung paralleler Dokumente in Standarddeutsch und professionell übersetztem Leichtem Deutsch im Nachrichtenbereich, und evaluiert neuronale Modelle wie mT5 und mBART für die automatische Generierung von Leichter Sprache.
- German Grammar Profile for Learners: Pedagogical Feature Definition and Automated Extraction — Denise Löfflad, Benedikt Beuttler & Detmar Meurers. Dieses Paper führt das German Grammar Profile (GGP) ein, ein System von 150 grammatischen Merkmalen, die den CEFR/GER-Niveaus (A1–B2) zugeordnet sind, sowie PALME, ein Extraktionssystem, das diese Merkmale automatisch in Texten identifiziert. Das Tool bietet visuelles Feedback zu den erkannten grammatischen Merkmalen des Deutschen und ebnet den Weg für eine Integration mit großen Sprachmodellen zur niveaugerechten Textvereinfachung.
Wir sind stolz darauf, zu dieser wachsenden Forschungsgemeinschaft beizutragen, die Sprache inklusiver machen möchte.
Zusammenfassend zeigt unser Beitrag:
- dass kleine, spezialisierte KI-Modelle wie unser Kompositatrennungsmodell bei der Bearbeitung konkreter, eng begrenzter Aufgabenstellungen Aufgaben größere, ressourcenintensive Modelle übertreffen können.
- dass KI dazu beitragen kann, Inhalte in Leichter Sprache kosten- und zeiteffizient, konsistent und in hoher Qualität zu erstellen. Dies ist die Voraussetzung für den breiten, produktiven Einsatz der Leichten Sprache.
Außerdem veröffentlichen wir mit unserem Artikel einen Datensatz segmentierter Sätze in Leichter Sprache, der die weitere Forschung und Entwicklung unterstützen soll.
Literatur
- Calvillo, Jesús, Patil, Umesh, Seltmann, Johann, Schumann, Anne-Kathrin, 2025. Automatic Compound Splitting for Leichte Sprache, Proceedings of the 21st Conference on Natural Language Processing (KONVENS), S. 191-201, https://aclanthology.org/2025.konvens-2.15.pdf.
- Deilen, Silvana, 2021: Segmenting compounds in German Easy Language: Does facilitated perception lead to reduced cognitive processing costs?, Proceedings of the 3rd Swiss Conference on Barrier-free Communication (BfC 2020), S. 135.
- Patil, Umesh, Calvillo, Jesus, Lago, Sol, Schumann, Anne-Kathrin, 2025: Quantifying word complexity for Leichte Sprache: A computational metric and its psycholinguistic validation, Proceedings of the 1st Workshop on Artificial Intelligence and Easy and Plain Language in Institutional Contexts (AI & EL/PL), S. 94–107, https://aclanthology.org/2025.aielpl-1.9/.
- Wellmann, Katharina, 2020: Medio∙punkt oder Binde-Strich? Eine Eyetracking-Studie, in: Leichte Sprache – Empirische und multimodale Perspektiven, S. 23–42. Berlin: Frank & Timme.