Logo: Deutsches Institut für Internationale Pädagogische Forschung

Projekte

Länderübergreifende Vergleichbarkeit von Fremdsprachenkompetenzen

Das Projekt EBAFLS (European Bank of Anchor Items for Foreign Language Skills) war Teil des Lingua 2 Programms der Europäischen Kommission, welches darauf abzielte, möglichst vielfältige Instrumente zum Erlernen sowie zur Erfassung von Sprachkenntnissen zur Verfügung zu stellen. Ziel der Studie, die in acht europäischen Ländern durchgeführt wurde, war es, eine Vergleichbarkeit europäischer Sprachzertifikate zu ermöglichen. Der deutsche Teil der vom BMBF finanzierten Studie wurde am DIPF koordiniert und durchgeführt.

Projektbeschreibung

Ein im Aktionsplan der EU als förderungswürdig bezeichneter Punkt ist das Testen von Sprachkenntnissen (Europäische Kommission, 2003). In vielen europäischen Ländern existieren bereits nationale Fremdsprachenzertifikate und –diplome. Gleichzeitig erhält dadurch die Frage nach der europaweiten Vergleichbarkeit dieser Fremdsprachenkompetenzen und –zertifikate eine immer größere Relevanz. Das Projekt EBAFLS stellt einen Schritt hin zur Vergleichbarkeit solcher europäischer Sprachzertifikate dar. EBAFLS ist Teil des Lingua 2 Programms der Europäischen Kommission, welches darauf abzielt, möglichst vielfältige Instrumente zum Erlernen sowie zur Erfassung von Sprachkenntnissen zur Verfügung zu stellen.

EBAFLS wird in Kooperation von acht europäischen Ländern durchgeführt; teilnehmende Länder sind Deutschland, Frankreich, Luxemburg, die Niederlande, Schottland, Schweden, Spanien und Ungarn.

Der deutsche Teil der EBAFLS Studie wird vom Bundesministerium für Bildung und Forschung finanziert und am DIPF koordiniert und durchgeführt. Deutschland beteiligt sich hier mit der Testung von Lese- und Hörverständnisaufgaben in den Sprachen Englisch und Französisch. Im Rahmen des EBAFLS Projekts findet zudem eine deutsche Zusatzstudie statt, welche sich mit Sprachenkompetenzen von Schülern und Schülerinnen mit Türkisch als Herkunftssprache beschäftigt (vgl. Artikel von Dahl in dieser Ausgabe).

Ziele

Ziel des europäischen EBAFLS-Projekts ist es, eine Itemdatenbank mit Ankeritems zur Überprüfung von Fremdsprachenkompetenzen (Leseverständnis und Hörverständnis) in den drei europäischen Verkehrssprachen Deutsch, Englisch und Französisch zu erstellen. Die dort verwendeten Items sollen in ihren Messeigenschaften über Ländergrenzen hinweg vergleichbar sein und somit zu fairen und vergleichbaren Testergebnissen führen. Um innerhalb Europas bereits bestehende nationale Fremdsprachentests und –zertifikate vergleichbar zu machen, soll europäischen Ländern die Möglichkeit geboten werden, ihre nationalen Tests mit der Itembank zu verknüpfen. Dadurch soll ein Beitrag zu einem transparenteren, valideren Sprachentesten geleistet werden. Bei den in der Studie verwendeten Items handelt es sich um bereits überprüfte und für gut befundene Aufgaben aus den teilnehmenden Ländern. Die Items wurden ferner a priori durch Experten den Niveaus des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GER) zugeordnet, welcher gleichzeitig die theoretische Basis des Projekts darstellt. In der EBAFLS-Studie wird die GERS - Stufe B1 fokussiert und zusätzlich die Stufen A2 bis B2 analysiert. Eine erste Zuordnung der Items wurde mit Hilfe des Dutch Grid (Alderson et al., 2006), einem Kategorisierungssystem für Itemmerkmale, in den Herkunftsländern der Testaufgaben durchgeführt. Die Pilotierung der so verankerten Testaufgaben erfolgt in den acht europäischen Ländern an Schülern der 9.-11. Klasse.

Ziel ist es dabei herauszufinden, welche der in der Studie verwendeten Testaufgaben zur Einspeisung in die Itemdatenbank geeignet sind. Hauptkriterium dafür ist, dass sie es ermöglichen, Sprachkenntnisse auf eine Kultur-faire Art und Weise zu messen und damit auch vor dem Hintergrund verschiedener europäischer Bildungskulturen vergleichbar zu machen. Ein Item ist dann fair, wenn empirische Analysen ergeben, dass Schüler mit vergleichbaren Fremdsprachenkompetenzen unabhängig von ihrer Nationalität für dieses Item dieselbe Lösungswahrscheinlichkeit haben. Die grundlegende Annahme ist hier, dass die Items in verschiedenen europäischen Ländern das gleiche Konstrukt messen. Genauer: Ein Fremdsprachentest sollte unabhängig von Nationalität und kulturellem Hintergrund des/der Getesteten immer die gleiche Fähigkeit messen. Sollte sich bei einem Item also zeigen, dass die Lösungswahrscheinlichkeit für zwei oder mehr Länder bei Schülern mit ansonsten vergleichbaren Fähigkeiten deutlich unterschiedlich ausfällt, kann davon ausgegangen werden, dass dieser Unterschied nicht durch tatsächliche Fähigkeitsunterschiede, sondern durch andere Faktoren wie bildungskulturelle Unterschiede oder länderspezifische Inhalte zustande kommt, und dass in diesen beiden Ländern vermutlich nicht oder zumindest nicht nur das selbe Konstrukt gemessen wird. Ein solches Item weist dann sogenanntes „Differential Item Functioning“ (z.B. Holland & Wainer, 1993) auf, und kann unter Umständen nicht oder nur eingeschränkt zum fairen Vergleich von Sprachkompetenzen und somit für die EBAFLS-Itembank verwendet werden.

Hauptziele des EBAFLS-Projekts sind die Erstellung von sechs Itemdatenbanken für die sechs Kombinationen von Sprache und Teilkompetenz (Englisch, Französisch, Deutsch, jeweils für das fremdsprachliche Lese- und Hörverständnis), die Erstellung eines Manuals für Institutionen zur Nutzung der Itemdatenbank, ein Bericht über die Validität und Reliabilität der Items sowie ein Leitfaden zur Vergrößerung der Datenbank. Der finale Internationale Bericht wird im Herbst 2008 erwartet.

Pilotstudie

Im Vorfeld der Haupterhebung ergaben sich angesichts verschiedener Bildungskulturen der an der Studie teilnehmenden Länder verschiedene stark diskutierte und dringend zu klärende Aspekte. So war beispielsweise die nicht ganz banale Frage zu klären, in welcher Sprache die Tests vorgegeben werden sollten. Hintergrund ist hier, dass sich diesbezüglich zwei unterschiedliche Gepflogenheiten in Europa herauskristallisierten:

Ein Teil der Länder gibt Sprachtests in einer Mischung aus der jeweiligen Landessprache (L1) und der getesteten Fremdsprache (L2) vor. Dabei sind Instruktion, Fragen und Antworten meist in der Landessprache und lediglich der eigentliche Text in der Fremdsprache vorgegeben. Demgegenüber steht die Tradition, den kompletten Test in der jeweiligen Fremdsprache durchzuführen. Um eine Vergleichbarkeit der Ergebnisse besser gewährleisten zu können musste im Vorfeld eine Entscheidung für eine der beiden Varianten getroffen werden. Dazu wurden im Sommer 2005 in einer Pilotstudie in Schweden (Tradition L2) und Schottland (Tradition L1/L2) Französisch-Aufgaben jeweils einmal in der gemischten (L1/L2) und einmal in der L2- Variante vorgegeben.

Es stellte sich heraus, dass die in der L2-Variante, d.h. nur auf französisch vorgegebenen Items, etwas besser zum Vergleich zwischen diesen beiden Ländern geeignet zu sein schienen als die gemischte Variante (Maris, 2005). Basierend auf diesen Ergebnissen wurde der Entschluss gefällt, alle EBAFLS Tests komplett in der jeweils zu testenden Fremdsprache vorzugeben.

Haupterhebung

Der erste Teil der Haupterhebung, das heißt die Pilotierung der Items zur Messung des fremdsprachlichen  Leseverständnisses, fand im Juni 2006 an Gymnasien in Rheinland-Pfalz statt (n=1245 in Deutschland, insgesamt n=10841). Die Testung des Englischen fand in der 9. und die des Französischen in der 11. Jahrgangsstufe statt. Grund für die Auswahl dieser Jahrgangsstufen war die Annahme, dass diese Schüler sich in etwa auf dem Niveau B1 des GERS befinden.

Die Tests zum fremdsprachlichen Hörverständnis wurden im März 2007 gleichfalls an 9. und 11. Klassen rheinland-pfälzischer Gymnasien durchgeführt.

Standard Setting

Neben der empirischen Überprüfung der Items wurde zu ihrer weiteren Validierung hinsichtlich ihrer Zuordnung zu den Niveaus des GERS ein so genanntes ‚Standard Setting’ in den teilnehmenden Ländern durchgeführt. Dabei werden in jedem Land die in der Studie vorgegebenen Items nochmals von Personen mit guten oder sehr guten Kenntnissen in der jeweiligen Fremdsprache hinsichtlich ihres GERS-Niveaus eingeschätzt. Diese Juroren erhalten im Vorfeld eine spezielle Schulung zum Umgang mit den Skalen des GERS. Das Standard Setting wird in allen teilnehmenden Ländern durchgeführt.

Letztendlich wird dann verglichen, ob die den Items durch die Juroren zugesprochenen Schwierigkeiten (in diesem Fall das GERS-Niveau) der tatsächlich empirisch bei den Schülern gefundenen Rangreihe der Itemschwierigkeiten entspricht, und ob das in allen Ländern gleichermaßen der Fall ist. Sollte sich dies so darstellen ist das ein guter Hinweis darauf, dass ein Item tatsächlich zur Testung eines bestimmten GERS-Niveaus geeignet zu sein scheint. Das Standard Setting dient dazu, Items eines bestimmten Schwierigkeitsbereichs einem Niveau zuzuordnen. Wo der Schwierigkeitsbereich eines Items anfängt und endet wird durch den Abgleich der empirischen Schwierigkeiten mit den Einstufungen der Rater ermittelt.

Publikationen

  • Alderson, C. (Ed.) (2005). Language Assessment in Europe (Special Issue). Language Testing, 22 (3). 
  • Alderson, J.C., Figueras, N., Kuijper, H., Nold, G., Takala, S & Tardieu, C. (2006). Analysing Tests of Reading and Listening in Relation to the Common European Framework of Reference: The Experience of the Dutch CEFR Construct Project. Language Assessment Quarterly, 3 (1), 3-30.
  • Europäische Kommission (2003). Mitteilung der Kommission an den Rat, das Europäische Parlament, den Wirtschafts- und Sozialausschuss und den Ausschuss der Regionen vom 24. Juli 2003 – Förderung des Sprachenlernens und der Sprachenvielfalt: Aktionsplan 2004 – 2006. Komm(2003)449 endgültig. Zugriff am 20.03.07 unter http://europa.eu
  • Europäische Kommission (2005). Mitteilung der Kommission vom 1. August 2005 - Europäischer Indikator für Sprachenkompetenz [KOM(2005) 356 endg. - nicht im Amtsblatt veröffentlicht]. Zugriff am 20.03.07 unter http://eurlex.europa.eu
  • Europäischer Rat (2002).Tagung des Europäischen Rates von Barcelona, 15. und 16. März 2002, Schlussfolgerungen des Vorsitzes, Absatz 44. Zugriff am 20.03.07 unter http://www.bologna-berlin2003.de/pdf/Schluss_Rat_Barcelona.pdf.
  • Europarat (2001): Gemeinsamer Europäischer Referenzrahmen für Sprachen: lernen, lehren, beurteilen. Berlin: Langenscheidt.
  • Figueras, N., North, B., Takala, S., Verhelst, N., & Van Avermaet, P. (2005). Relating Examinations to the Common European Framework: a manual. Language Testing, 22 (3), 257-261.
  • Maris, Gunter (2005): EBAFLS: Results from the pilot study. Unveröffentlichtes Manuskript, CITO.
  • Nojons, J. & Kuijper, H. (2006). Report of a research project commissioned by the Dutch Ministry of Education, Culture and Science. Unveröffentlichtes Manuskript, CITO.
  • Special Eurobarometer 63.4. (2005.) Europeans and their languages. TNS opinion & social. Zugriff am 20.03.07 unter http://ec.europa.eu/public_opinion/archives/ebs/ebs_237.en.pdf.
  • Holland, P. & Wainer, H. (Eds.) (1993). Differential Items Functioning. Hillsdale, New Jersey: Lawrence Erlbaum.

Projektteam

Dominique Rauch

Projektdaten

Status:
Abgeschlossene Projekte
Laufzeit:
2004-2007
Finanzierung:
Drittmittelprojekt
Forschungsthema: Large Scale Assessment
Abteilung: Bildungsqualität und Evaluation