Informationsextraktion aus gesprochenen und informellen Sprachdaten

In diesem Projekt werden verschiedene Aspekte der Extraktion und der Weiterverwendung von Daten, die gesprochene oder informelle Sprache beinhalten, beleuchtet.

Projektbeschreibung

Aspekte, die das Projekt beleuchtet, beinhalten beispielsweise die Klassifikation („Was macht eine gute Antwort aus?“), die Segmentierung und die Identifizierung von Schlagworten (im Kontext von transkribierten Schulvideoaufnahmen) und die Zusammenfassung von Dokumenten unterschiedlichster Herkunft im Rahmen des Bildungsservers. In jedem dieser Unterprojekte haben entweder die Quelldaten einen Bezug zur Bildungsforschung oder das Ziel ist es, Werkzeuge und/oder Informationen Forschenden zur Verfügung zu stellen.

Automatische Informationsextraktion aus transkribierten Videodaten

Der Pythagoras Datensatz beinhaltet transkribierten Text von über 100 Schulunterrichtsstunden, in denen der Satz des Pythagoras behandelt wird. Dieser Datensatz bietet die Möglichkeit, die bereits verfügbaren Methoden der automatischen Sprachverarbeitung (Natural Language Processing – NLP) anzuwenden und zu untersuchen, wie die Ergebnisse auf dieser Art Daten sind. Gesprochene Sprache ist für die automatische Weiterverarbeitung schwierig, da sie sich deutlich von geschriebener Sprache unterscheidet. Methoden der automatischen Sprachverarbeitung werden meistens auf geschriebener Sprache trainiert und angewandt. Die hauptsächlichen Unterschiede liegen darin, dass Sätze in gesprochener Sprache häufig ungrammatikalisch sind und das häufige Vorkommen von Pausen, Unterbrechungen und Häsitationen (disfluencies). Darüberhinaus kommt es häufig vor, dass Mehrere gleichzeitig reden, sich gegenseitig unterbrechen oder der Satz von jemand anderem beendet wird. All dies erschwert die automatische Verarbeitung. Trotzdem wollen wir untersuchen, wie gut die bereits vorhandenen Methoden mit dieser Art Daten umgehen können. Dabei liegt unser Fokus derzeit auf der Extraktion von Schlagworten. Sollte dies erfolgreich sein, würde uns dies ermöglichen, den Datensatz leichter durchsuchbar zu machen. Ein weiterer Aspekt ist die Segmentierung der Unterrichtsstunden in unterschiedliche Unterrichtssituationen und Interaktionsformen. Sollte dies erfolgreich sein, könnte die Klassifizierung der Situationen, wie sie in Klieme (2006) beschrieben wurde, durch solche Vorverarbeitungsschritte unterstützt werden.

Was macht eine gute Antwort aus?

Eine weitere Art von informeller Sprache sind Artikel in Foren. Die Sprache hier beinhaltet medientypische Abkürzungen oder Zeichenkombinationen, die in anderen Kontexten nicht verwendet werden. Auf Basis von Daten, die bei Stack Exchange veröffentlicht werden und deren Daten frei verfügbar sind, wollen wir herausfinden, inwiefern es möglich ist, gute Antworten automatisch zu klassifizieren. Stack Exchange ist eine sehr aktive Community, in der sowohl die Antworten, aber auch die Fragen bewertet werden. Diese Daten erlauben es uns, ein System aufzubauen, das lernt, welche Merkmale eine gute Antwort ausmacht. Und dies nicht nur, wie in anderen Foren, auf binäre Weise, sondern mit Abstufungen. Wir hoffen, dieses System im Bereich der Bildungsforschung anzuwenden, beispielsweise im Infoblog. Die Probleme liegen hier sowohl in der Domäne als auch in der Sprache. Stack Exchange bietet viele verschiedene Themen an, jedoch ist das mit Abstand größte Forum Stack Overflow, in dem Themen der Programmierung diskutiert werden. Entsprechend sind die Daten durchsetzt mit Code-Auszügen und einem sehr domänenspezifischen Vokabular. Unser System zielt darauf ab, Methoden zu finden, die in dieser Domäne zuverlässig gute Antworten vorhersagen kann. Hierfür werden wir eine Reihe an Merkmalen untersuchen, die möglicherweise nur in dieser Domäne hilfreich sind. In einem weiterführenden Schritt wollen wir diese Merkmale dahingehend untersuchen, ob sie auch für andere Domänen nutzbar sind. Auch hier bieten die Stack Exchange Daten eine gute Grundlage, da es Foren auch zu den Themen Reisen, Physik, aber auch für Probleme der englischen Sprach gibt.

Zusammenfassung von Daten für den Bildungsserver

Ein weiterer Aspekt ist die Zusammenfassung von Textdaten. Der Bildungsserver bietet eine Vielzahl von manuell überprüften Links und Informationen aus dem Gebiet der Bildungsforschung an, die sowohl für Forschende in diesem Bereich als auch beispielsweise Lehrkräfte interessant sind. Die Pflege dieser Datensammlung obliegt spezialisierten Fachkräften, die die Zusammenfassungen für die verlinkten Quellen wie beispielsweise Webseiten, Bücher oder Artikel erstellen und auch die Links selbst prüfen. Dies ist eine aufwendige und zeitintensive Tätigkeit, die jedoch wichtig ist, um die Nutzenden des Bildungsservers zu den Inhalten zu führen, die für sie relevant sind. Auch hier schwankt die Qualität des Quellenmaterials erheblich. Auf Basis von NLP Methoden wollen wir ein Werkzeug aufbauen, dass Vorschläge bezüglich der Zusammenfassungen erstellt, um diese manuelle Arbeit zu unterstützen. Erste Ergebnisse wurden im Rahmen einer Masterarbeit an der Technischen Universtität Darmstadt in enger Zusammenarbeit mit dem DIPF erstellt. Diese Ergebnisse deuten darauf hin, dass es tatsächlich möglich ist, die manuelle Arbeit der Erstellung der Zusammenfassungen mit automatisch extrahierten Sätzen aus dem Quellmaterial zu unterstützen. Da dies nur erste Ergebnisse sind, wollen wir auf den Ergebnissen der Masterarbeit aufbauen, die Qualität verbessern, aber auch unser System anhand von standardisierten Methoden evaluieren. Hier kommt uns eine Tradition der NLP Community entgegen, wo schon seit Jahren sogenannte Wettbewerbe zu verschiedenen Aufgaben durchgeführt wird. Eine davon ist die Document Undstanding Competition (DUC), die später in Text Analysis Competition (TAC) umbenannt wurde. Durch diese Wettbewerbe werden große Datenmengen zu verschiedenen Zusammenfassungsaufgaben (einzelne Dokumente, mehrere Dokumente, kurze und sehr kurze Zusammenfassungen, aber auch sogenannte „update“ Zusammenfassungen) zur Verfügung gestellt. Darüber hinaus gibt es auch Referenzusammenfassungen, die einen Vergleich des eigenen Systems ermöglichen. Diese Wettbewerbe förderten auch die Entwicklung von standardisierten Evaluationsmetriken, die wir ebenfalls für die Evaluierung unseres Tools nutzen werden.

Kooperationen

UKP TU Darmstadt

Finanzierung

Hauseigene Mittel

Projektdaten

Status:	Abgeschlossenes Projekt
Abteilung:	Informationszentrum Bildung
Laufzeit:	2013 – 2015
Finanzierung:	DIPF