Kontextualisierte Informationsaufbereitung bildungsrelevanter Inhalte mittels maschineller Zusammenfassung

Im Rahmen einer Masterarbeit an der Technischen Universität Darmstadt wurden in Zusammenarbeit mit dem DIPF erste Ansätze für eine Methode entwickelt, mit der die manuelle Zusammefassung von Datensammlungen aus dem Bereich Bildungsforschung maschinell unterstützt werden soll.

Projektbeschreibung

Der Deutsche Bildungsserver bietet eine Vielzahl von manuell überprüften Links und Informationen aus dem Gebiet der Bildungsforschung an, die sowohl für Forschende in diesem Bereich als auch beispielsweise für Lehrkräfte interessant sind. Die Pflege dieser Datensammlung obliegt spezialisiertem Fachpersonal, das die Zusammenfassungen für die verlinkten Quellen wie Webseiten, Bücher oder Artikel erstellt und auch die Links selbst prüft. Dies ist eine aufwendige und zeitintensive Tätigkeit, die jedoch wichtig ist, um die Nutzenden des Bildungsservers zu den Inhalten zu führen, die für sie relevant sind. Auf Basis von Methoden der natürlichen Sprachverarbeitung (NLP) soll ein Werkzeug aufgebaut werden, das Vorschläge bezüglich der Zusammenfassungen erstellt, um die manuelle Arbeit zu unterstützen.

Erste Ergebnisse wurden im Rahmen einer Masterarbeit an der Technischen Universität Darmstadt in enger Zusammenarbeit mit dem DIPF erlangt. Diese deuten darauf hin, dass es tatsächlich möglich ist, die manuelle Arbeit der Texterstellung mit automatisch extrahierten Sätzen aus dem Quellmaterial zu unterstützen. Da dies nur erste Ergebnisse sind, soll darauf aufgebaut und die Qualität weiter verbessert, aber auch das verwendete System anhand von standardisierten Methoden evaluiert werden.

Hierbei hilft eine Tradition der NLP Community, in der schon seit Jahren sogenannte Wettbewerbe zu verschiedenen Aufgaben durchgeführt werden. Eine davon ist die Document Understanding Competition (DUC), die später in Text Analysis Competition (TAC) umbenannt wurde. Durch diese Wettbewerbe werden große Datenmengen zu verschiedenen Zusammenfassungsaufgaben (einzelne Dokumente, mehrere Dokumente, kurze und sehr kurze Zusammenfassungen, aber auch sogenannte „update“ Zusammenfassungen) zur Verfügung gestellt. Darüber hinaus gibt es auch Referenzzusammenfassungen, die einen Vergleich des eigenen Systems ermöglichen. Diese Wettbewerbe förderten auch die Entwicklung von standardisierten Evaluationsmetriken, die ebenfalls für die Evaluierung des Tools genutzt werden.

Finanzierung

Das Projekt wird aus hauseigenen Mitteln finanziert.

Kooperationen

UKP TU Darmstadt

Projektdaten

Status:
Abgeschlossenes Projekt
Abteilung: Informationszentrum Bildung
Laufzeit:
2012 – 2014
Finanzierung:
DIPF