Logo: Deutsches Institut für Internationale Pädagogische Forschung

Projekte

Kontextualisierte Informationsaufbereitung bildungsrelevanter Inhalte mittels maschineller Zusammenfassung

Im Rahmen einer Masterarbeit an der Technischen Universität Darmstadt wurden in Zusammenarbeit mit dem DIPF erste Ansätze für eine Methode entwickelt, mit der die manuelle Zusammefassung von Datensammlungen aus dem Bereich Bildungsforschung maschinell unterstützt werden soll.

Projektbeschreibung

Der Deutsche Bildungsserver bietet eine Vielzahl von manuell überprüften Links und Informationen aus dem Gebiet der Bildungsforschung an, die sowohl für Forscher in diesem Bereich als auch beispielsweise für Lehrer interessant sind. Die Pflege dieser Datensammlung obliegt Spezialisten, die die Zusammenfassungen für die verlinkten Quellen wie Webseiten, Bücher oder Artikel erstellen und auch die Links selbst prüfen. Dies ist eine aufwendige und zeitintensive Tätigkeit, die jedoch wichtig ist, um die Nutzer des Bildungsservers zu den Inhalten zu führen, die für sie relevant sind. Auf Basis von Methoden der natürlichen Sprachverarbeitung (NLP) soll ein Werkzeug aufgebaut werden, das Vorschläge bezüglich der Zusammenfassungen erstellt, um die manuelle Arbeit zu unterstützen.

Erste Ergebnisse wurden im Rahmen einer Masterarbeit an der Technischen Universität Darmstadt in enger Zusammenarbeit mit dem DIPF erlangt. Diese deuten darauf hin, dass es tatsächlich möglich ist, die manuelle Arbeit der Texterstellung mit automatisch extrahierten Sätzen aus dem Quellmaterial zu unterstützen. Da dies nur erste Ergebnisse sind, soll darauf aufgebaut und die Qualität weiter verbessert, aber auch das verwendete System anhand von standardisierten Methoden evaluiert werden.

Hierbei hilft eine Tradition der NLP Community, in der schon seit Jahren sogenannte Wettbewerbe zu verschiedenen Aufgaben durchgeführt werden. Eine davon ist die Document Understanding Competition (DUC), die später in Text Analysis Competition (TAC) umbenannt wurde. Durch diese Wettbewerbe werden große Datenmengen zu verschiedenen Zusammenfassungsaufgaben (einzelne Dokumente, mehrere Dokumente, kurze und sehr kurze Zusammenfassungen, aber auch sogenannte „update“ Zusammenfassungen) zur Verfügung gestellt. Darüber hinaus gibt es auch Referenzzusammenfassungen, die einen Vergleich des eigenen Systems ermöglichen. Diese Wettbewerbe förderten auch die Entwicklung von standardisierten Evaluationsmetriken, die ebenfalls für die Evaluierung des Tools genutzt werden.

Kooperationen

UKP TU Darmstadt

Finanzierung

Das Projekt wird aus hauseigenen Mitteln finanziert.

Projektleitung

Marc Rittberger

Projektdaten

Status:
Abgeschlossene Projekte
Projektart: Abteilungsübergreifende Projekte
Laufzeit:
2012-2014
Finanzierung:
DIPF
Forschungsthema: Text-Mining und Informationssuche
Abteilung: Informationszentrum Bildung
zuletzt verändert: 16.02.2015

Kooperationsprojekt mit dem Fachbereich Informatik der TU Darmstadt