-
-
Autor*innen: Köhler, Carmen
Titel: Isn't something missing? Latent variable models accounting for item nonresponse
Erscheinungsvermerk: Berlin: Freie Universität, 2017
URN: urn:nbn:de:kobv:188-fudissthesis000000103203-8
URL: http://www.diss.fu-berlin.de/diss/receive/FUDISS_thesis_000000103203
Dokumenttyp: 1. Monographien (Autorenschaft); Monographie
Sprache: Englisch
Schlagwörter: Empirische Forschung; Evaluation; Fehlende Daten; Item-Response-Theory; Kompetenz; Leistungsmessung; Modell; Schülerleistung; Schülerleistungstest; Statistische Methode; Testauswertung
Abstract: Item nonresponse in competence tests pose a threat to a valid and reliable competence measurement, especially if the missing values occur systematically and relate to the unobserved response. This is often the case in the context of large-scale assessments, where the failure to respond to an item relates to examinee ability. Researchers developed methods that consider the dependency between ability and item nonresponse by incorporating a model for the process that causes missing values into the measurement model for ability. These model-based approaches seem very promising and might prove superior to common missing data approaches, which typically fail at taking the dependency between ability and nonresponse into account. Up to this point, the approaches have barely been investigated in terms of applicability and performance with regard to the scaling of competence tests in large-scale assessments. The current dissertation bridges the gap between these theoretically postulated models and their possible implementation in the context of large-scale assessments. It aims at (1) testing the applicability of model-based approaches to competence test data, and (2) evaluating whether and under what missing data conditions these approaches are superior to common missing data approaches. Three research studies were conducted for this purpose. Study 1 investigated the assumptions of model-based approaches, whether they hold in empirical practice, and how violations to those assumptions affect individual person parameters. Study 2 focused on features of examinees' nonresponse behavior, such as its stability across different competence tests and how it relates to other examinee characteristics. Study 3 examined the performance of model-based approaches compared to other approaches.
Results demonstrate that model-based approaches can be applied to large-scale assessment data, though slight extensions of the models might enhance accuracy in parameter estimates. Further, persons' tendencies not to respond can be considered person-specific attributes, which are relatively constant across different competence tests and also relate to other stable person characteristics. Findings from the third study confirmed the superiority of the model-based approaches compared to common missing data approaches, although a model that simply ignores missing values also led to acceptable results.
Model-based approaches show serval advantages over common missing data approaches. Considering their complexity, however, the benefits and drawbacks from different methods need to be weighed. Important issues in the debate on an appropriate scaling method concern model complexity, consequences on examinees' test-taking behavior, and precision of parameter estimates. For many large-scale assessments, a change in the missing data treatment is clearly necessary. Whether model-based approaches will replace former methods is yet to be determined. They certainly count amongst the most advanced methods to handle missing values in the scaling of competence tests. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Robitzsch, Alexander; Lüdtke, Oliver; Köller, Olaf; Kröhne, Ulf; Goldhammer, Frank; Heine, Jörg-Henrik
Titel: Herausforderungen bei der Schätzung von Trends in Schulleistungsstudien. Eine Skalierung der deutschen PISA-Daten
In: Diagnostica, 63 (2017) 2, S. 148-165
DOI: 10.1026/0012-1924/a000177
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Deutschland; Einflussfaktor; Leistungsmessung; Lesekompetenz; Mathematische Kompetenz; Modell; Naturwissenschaftliche Kompetenz; PISA <Programme for International Student Assessment>; Schülerleistung; Schülerleistungstest; Skalierung; Technologiebasiertes Testen; Testauswertung
Abstract: Internationale Schulleistungsstudien wie das Programme for International Student Assessment (PISA) dienen den teilnehmenden Ländern zur Feststellung der Leistungsfähigkeit ihrer Schulsysteme. In PISA wird die Zielpopulation (15-jährige Schülerinnen und Schüler) alle 3 Jahre getestet. Von besonderer Bedeutung sind dabei die Trendinformationen, die für die Zielpopulation ausweisen, ob sich ihre Leistungen gegenüber denen aus früheren Erhebungen verändert haben. Um solche Trends valide interpretieren zu können, sollten die PISA-Erhebungen unter möglichst vergleichbaren Bedingungen durchgeführt und die verwendeten statistischen Verfahren vergleichbar bleiben. In PISA 2015 wurde erstmalig computerbasiert getestet; zuvor mittels Papier-und-Bleistift-Tests. Es wurde das Skalierungsmodell verändert und in den Naturwissenschaften wurden neue Aufgabenformate eingesetzt. Im vorliegenden Beitrag gehen wir anhand der nationalen PISA-Stichproben von 2000 bis 2015 der Frage nach, inwiefern der Wechsel des Testmodus und der Wechsel des Skalierungsmodells die Interpretation der Trendschätzungen beeinflussen. Die Analysen belegen, dass die Veränderung von Papier-und-Bleistift-Tests auf Computertestung die Trendschätzung für Deutschland verzerrt haben könnte. (DIPF/Orig.)
Abstract (english): International large-scale assessments, for instance, the Programme for International Student Assessment (PISA), are conducted to provide information on the effectiveness of educational systems. In PISA, the target population of 15-year-old students is assessed every 3 years. Trends show whether competencies have changed for the target population between PISA cycles. To ensure valid trend information, it is necessary to keep the test conditions and statistical methods in all PISA cycles as constant as possible. In PISA 2015, however, several changes were established; the test model changed from paper pencil to computer tests, scaling methods were changed, and new types of tasks were used in science. In this article, we investigate the effects of these changes on trend estimation in PISA using German data from all PISA cycles (2000 - 2015). Findings suggest that the change from paper pencil to computer tests could have biased the trend estimation. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Woerner, Wolfgang; Müller, Christian; Hasselhorn, Marcus
Titel: Bedeutung und Berechnung der Prozentränge und T-Werte beim Erstellen von Testnormen. Anmerkungen und Empfehlungen
Aus: Trautwein, Ulrich; Hasselhorn, Marcus (Hrsg.): Begabungen und Talente, Göttingen: Hogrefe, 2017 (Test und Trends. N. F., 15), S. 245-263
Dokumenttyp: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Pädagogische Diagnostik; Begabtenauslese; Leistungstest; Testkonstruktion; Testmethodik; Qualität; Testauswertung; SPSS; Stichprobe; Testverfahren; Testtheorie
Abstract: Die Nützlichkeit und der wissenschaftliche Wert eines pädagogisch-psychologischen Diagnoseinstruments setzen neben dem Nachweis von angemessen erfüllten Gütekriterien und einer ausreichend detaillierten Dokumentation der verwendeten Methodik aus voraus, dass geeignete Normwerte vorliegen. Angesichts der zentralen Rolle des Normierungsprozesses überrascht - auch bei aktuell verwendeten (Schul-)Leistungstests - eine bedauerliche Heterogenität der methodisch-rechnerischen Bestimmung von Normwerten mit bisweilen erheblichen Konsequenzen für individualdiagnostische Entscheidungen. Einschlägige Lehrbücher beschreiben zwar verschiedene alternative Methoden, ohne jedoch konkrete Empfehlungen zu deren Verwendung anzusprechen. Um dies nachzuholen, wird in diesem Beitrag ausführlich auf die Bedeutung und Berechnung von Prozentrang-Werten und darauf aufbauenden Standardnorm-Äquivalenten eingegangen. Insbesondere wird der Unterschied zwischen kumulativen Prozentwerten und dem hier nachdrücklich empfohlenen Intervallmitten-Prozentrang (IM-PR) erläutert. Um künftigen Testentwicklern die Berechnung von IM-PR-Werten zu erleichtern, werden im Appendix entsprechende SPSS-Mustersyntaxen zur Verfügung gestellt - in der Hoffnung, dass sich dadurch in Zukunft eine einheitliche Berechnungsgrundlage der Normwerte von psychodiagnostischen Verfahren erzielen lässt. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung
-
-
Herausgeber*innen: Reiss, Kristina; Sälzer, Christine; Schiepe-Tiska, Anja; Klieme, Eckhard; Köller, Olaf
Titel: PISA 2015. Eine Studie zwischen Kontinuität und Innovation
Erscheinungsvermerk: Münster: Waxmann, 2016
URL: https://www.waxmann.com/fileadmin/media/zusatztexte/3555Volltext.pdf
Dokumenttyp: 2. Herausgeberschaft; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Deutschland; Einstellung <Psy>; Eltern; Empirische Untersuchung; Entdeckendes Lernen; Forschendes Lernen; Fragebogen; Freude; Geschlechtsspezifischer Unterschied; Interesse; Internationale Organisation; Internationaler Vergleich; Jugendlicher; Kompetenzerwerb; Konzeption; Leistungsmessung; Lernbedingungen; Lernumgebung; Lesekompetenz; Mathematische Kompetenz; Migrationshintergrund; Motivation; Naturwissenschaftliche Kompetenz; Naturwissenschaftlicher Unterricht; OECD-Länder; Organisation; PISA <Programme for International Student Assessment>; Qualität; Querschnittuntersuchung; Reliabilität; Schulentwicklung; Schülerleistung; Schülerleistungstest; Schulform; Schulklima; Sekundarbereich; Selbstwirksamkeit; Skalierung; Soziale Herkunft; Stichprobe; Technologiebasiertes Testen; Teilnehmer; Testaufgabe; Testauswertung; Testdurchführung; Testkonstruktion; Testmethodik; Überzeugung; Validität; Veränderung; Wahrnehmung
Abstract: Alle drei Jahre testet PISA den Stand der Grundbildung fünfzehnjähriger Jugendlicher in den Bereichen Naturwissenschaften, Mathematik und Lesen und untersucht so Stärken und Schwächen von Bildungssystemen im Vergleich der OECD-Staaten. Zentral ist dabei die Frage, inwieweit es den teilnehmenden Staaten gelingt, die Schülerinnen und Schüler während der Schulpflicht auf ihre weiteren Bildungs- und Berufswege vorzubereiten. Der nationale Berichtsband stellt die Ergebnisse aus PISA 2015 vor, die von den Schülerinnen und Schülern in Deutschland erreicht wurden, und setzt sie in Relation zu den Ergebnissen in anderen OECD-Staaten. Der Schwerpunkt der Erhebungen und Auswertungen liegt dabei auf den Naturwissenschaften. PISA 2015 bildet als sechste Erhebungsrunde des Programme for International Student Assessment der OECD zugleich den Abschluss des zweiten Zyklus der Studie und den Beginn der computerbasierten Testung. Unter Beibehaltung wesentlicher Standards der Datenerhebung und -auswertung wurden in PISA 2015 mit dem Erhebungsmodus am Computer, einem differenzierteren Skalierungsmodell und einem erweiterten Testdesign mehrere Neuerungen eingeführt. Sie tragen Veränderungen in der Lern- und Lebenswelt Rechnung und werden die Aussagekraft der PISA-Studien auf lange Sicht verbessern. Mit Blick auf diese Balance zwischen Kontinuität und Innovation werden die Befunde aus PISA 2015 in diesem Band eingeordnet und diskutiert. (DIPF/Verlag)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Heine, Jörg-Henrik; Mang, Julia; Borchert, Lars; Gomolka, Jens; Kröhne, Ulf; Goldhammer, Frank; Sälzer, Christine
Titel: Kompetenzmessung in PISA 2015
Aus: Reiss, Kristina; Sälzer, Christine; Schiepe-Tiska, Anja; Klieme, Eckhard; Köller, Olaf (Hrsg.): PISA 2015: Eine Studie zwischen Kontinuität und Innovation, Münster: Waxmann, 2016 , S. 383-430
URL: https://www.pedocs.de/volltexte/2017/14020/pdf/PISA_2015_eine_Studie_zwischen_Kontinuitaet_und_Innovation.pdf#page=384
Dokumenttyp: 4. Beiträge in Sammelbänden; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Aufgabe; Computerunterstütztes Verfahren; Datenanalyse; Datenerfassung; Design; Interpretation; Kompetenz; Konzeption; Messung; Methode; Modell; PISA <Programme for International Student Assessment>; Psychometrie; Schwierigkeit; Stichprobe; Testauswertung
Abstract: PISA 2015 setzt bei der Auswahl der Stichprobe von Jugendlichen sowohl im nationalen als auch im internationalen Kontext auf die bewährten Verfahren vorheriger Runden. Auch die Prinzipien der Erstellung von Aufgaben sind im Wesentlichen gleich geblieben. Insbesondere in methodischer Hinsicht gibt es im Rahmen der Studie allerdings verschiedene Neuerungen, die bei der Interpretation der Ergebnisse zu beachten sind. Konkret gibt es Änderungen in Bezug auf den Modus der Erhebung der Daten, die Ziehung der Stichprobe, die Aufbereitung des Testmaterials zur Kompetenzmessung und die statistische Auswertung der Daten anhand eines psychometrischen Modells. Bei der quasi-längsschnittlichen Interpretation der Ergebnisse vor dem Hintergrund vergangener PISA-Runden müssen diese Aspekte entsprechend bedacht werden. Zwei neue Aspekte, die hervorgehoben werden sollten, sind der Einsatz des Computers bei der Bearbeitung von Testaufgaben und die Anwendung des 2-Parameter-Logistischen-Modells (2-PL-Modell) bei der Skalierung und Auswertung der Daten. Mit der Einführung der computerbasierten Datenerhebung ist eine veränderte Zusammenstellung des Testmaterials verbunden. Zur Bestimmung der Schwierigkeit der PISA-Aufgaben (Itemkalibrierung) wurde bei der aktuellen Runde mit der sogenannten Concurrent Item Calibration ein gegenüber früherer Runden anderes Verfahren eingesetzt. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Krampen, Dorothea
Titel: Zur Bedeutung des Testformats für die Testauswertung. Aufgabenstamm- und Antwortabhängigkeit im C-Test
Erscheinungsvermerk: Frankfurt am Main: Lang, 2015
Dokumenttyp: 1. Monographien (Autorenschaft); Monographie
Sprache: Deutsch
Schlagwörter: Abhängigkeit; Analyse; Antwort; Aufgabe; DESI <Deutsch-Englisch-Schülerleistungen-International>; Forschungsstand; Item-Response-Theory; Literaturbericht; Modellierung; Psychometrie; Test; Testauswertung
Abstract: Das Buch beschäftigt sich mit den Auswirkungen des Testformats auf die Beantwortung von Testaufgaben. Abhängigkeiten zwischen Aufgaben innerhalb eines Tests sind - gerade im Leistungsbereich - ein häufiges Phänomen. Sie entstehen etwa, wenn die Antwort auf eine Aufgabe auch für die Beantwortung einer anderen Aufgabe nützlich ist. Das Testformat kann die Entstehung von Abhängigkeiten dabei begünstigen. Obgleich bekannt, werden solche Abhängigkeiten bei der Testauswertung meist ignoriert, was zu verzerrten Ergebnissen führen kann. Ein neuartiger Ansatz zur psychometrischen Modellierung verschiedener Formen von Abhängigkeiten, der an einem bewährten Sprachtest - dem lückentextähnlichen C-Test - systematisch erprobt wird, soll die Frage nach einer angemessenen Berücksichtigung vorhandener Abhängigkeiten beleuchten. (DIPF/Verlag)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Martinez-Méndez, Rebekka; Schneider, Michael; Hasselhorn, Marcus
Titel: DERET 5-6+ Deutscher Rechtschreibtest für fünfte und sechste Klassen
Erscheinungsvermerk: Göttingen: Hogrefe, 2015
Dokumenttyp: 1. Monographien (Autorenschaft); Pädagogisch-psychologische Testverfahren
Sprache: Deutsch
Schlagwörter: Computerunterstütztes Verfahren; Deutschunterricht; Diagnostischer Test; Diktat; Kompetenz; Rechtschreibtest; Rechtschreibung; Schüler; Schuljahr 05; Schuljahr 06; Schuljahr 07; Testauswertung
Abstract: Der DERET 5-6+ dient als ein an den Bildungsstandards und Lehrplaninhalten der Bundesländer orientierter Gruppen- oder Einzeltest der differenziellen Erfassung der Rechtschreibkompetenzen jeweils zur Mitte und zum Ende des fünften und sechsten Schuljahres sowie zur Mitte des siebten Schuljahres. Es stehen zwei Paralleltestformen zur Verfügung. Jede Testform besteht aus drei Subtests: einem Fließtext-Diktat, einem Diktat einzelner Sätze sowie einem Lückensatzdiktat. Über drei verschiedene Analyseebenen lässt sich ein breites Spektrum an diagnostischen Fragestellungen beantworten. Auf Analyseebene 1 werden die allgemeinen (Anzahl korrekt geschriebener Wörter) und spezifischen (z.B. Groß-Kleinschreibung) orthografischen Basiskompetenzen erfasst. Auf Analyseebene 2 ist über die nähere Beurteilung einzelner Buchstaben oder Buchstabenkombinationen die Erfassung von 11 curricular verankerten Leistungsstandards (z.B. Skala Dehnung "ie") möglich. Analyseebene 3 erlaubt die Ermittlung eines fünffach gestuften hierarchisch-differenziellen Entwicklungsprofils zur Einschätzung des Schriftsprachentwicklungsniveaus orientiert an dem sprachsystematischen Rechtschreibförderansatz nach Reuter-Liehr (1993, 2008). Zur Interpretation der Testwerte werden klassenstufenspezifische Normen (N = 12.552 Schüler) bereit gestellt. Zur Testauswertung steht optional ein Auswertungsprogramm zur Verfügung. Die Auswertung für die Analyseebene 1 kann mit dem Programm schneller und weniger fehleranfällig erfolgen als per Hand. Die für die zielgerichtete und effektive Förderung notwendigen Analysestufen 2 und 3 sind nur mit Hilfe des Auswertungsprogramms möglich. Die Durchführung des DERET 5-6+ beansprucht je nach Leistungsniveau ca. 25 bis 45 Minuten. Die Handauswertung (Analyseebene 1) dauert etwa 10 Minuten. Die computerbasierte Auswertung und Interpretation beansprucht je nach gewählten Analyseebenen und dem Fähigkeitsniveau des Schülers zwischen 5 und 35 Minuten. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung
-
-
Autor*innen: Boubekki, Ahcène; Brefeld, Ulf; Delacroix, Thomas
Titel: Generalising IRT to discriminate between examinees
Aus: Santos, O. C.; Boticario, J. G.; Romero, C.; Pechenizkiy, M.; Merceron, A.; Mitros, P.;Luna, J. M.; Mihaescu, C.; Moreno, P.; Hershkovitz, A. ;Ventura, S.; Desmarais, M. (Hrsg.): Proceedings of the 8th International Conference on Educational Data Mining (EMD 2015) 26-29 June Madrid, Spain, Madrid: International Educational Data Mining Society, 2015 , S. 604-606
URL: http://www.educationaldatamining.org/EDM2015/proceedings/edm2015_proceedings.pdf
Dokumenttyp: 4. Beiträge in Sammelwerken; Tagungsband/Konferenzbeitrag/Proceedings
Sprache: Englisch
Schlagwörter: Item-Response-Theory; Leistungstest; PISA <Programme for International Student Assessment>; Rasch-Modell; Testauswertung; Testkonstruktion
Abstract: We present a generalisation of the IRT framework that allows to discriminate between examinees. Our model therefore introduces examinee parameters that can be optimised with Expectation Maximisation-like algorithms. We provide empirical results on PISA data showing that our approach leads to a more appropriate grouping of PISA countries than by test scores and socio-economic indicators. (DIPF/Orig.)
DIPF-Abteilung: Informationszentrum Bildung
-
-
Herausgeber*innen: Hasselhorn, Marcus; Schneider, Wolfgang; Trautwein, Ulrich
Titel: Lernverlaufsdiagnostik
Erscheinungsvermerk: Göttingen: Hogrefe, 2014 (Tests und Trends. N.F., 12)
Dokumenttyp: 2. Herausgeberschaft; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Bildungsmonitoring; Computerunterstütztes Verfahren; Deutschland; Empirische Untersuchung; Englischunterricht; Erhebungsinstrument; Evaluation; Fähigkeit; Feedback; Grundschule; Indikator; Inklusion; Kind; Kindergarten; Leistungsbeurteilung; Lerndiagnostik; Lernstandserhebung; Lernstörung; Lesekompetenz; Lesen; Mathematikunterricht; Mathematische Kompetenz; Messverfahren; Migrationshintergrund; Modell; Pädagogische Diagnostik; Pädagogische Psychologie; Prävention; Qualität; Reliabilität; Schülerleistung; Schuljahr 01; Schuljahr 02; Schuljahr 04; Sekundarbereich; Testauswertung; Testkonstruktion; Validität; Wirkung
Abstract: Der vorliegende Band gibt einen Überblick über die Geschichte, Herausforderungen und neueren Entwicklungen der Lernverlaufsdiagnostik und illustriert damit das Potenzial dieses Ansatzes für unterschiedliche schulische Inhaltsbereiche und unterschiedliche Altersgruppen. Zudem stellt er in bewährter Manier eine Auswahl der besten vorliegenden oder sich in Vorbereitung befindlichen Testverfahren vor. Der Band schließt damit eine Lücke in einem für Wissenschaft und Praxis hoch relevanten Arbeitsbereich.
DIPF-Abteilung: Bildung und Entwicklung
-
-
Autor*innen: Grünkorn, Juliane; Upmeier zu Belzen, Annette; Krüger, Dirk
Titel: Assessing students' understandings of biological models and their use in science to evaluate a theoretical framework
In: International Journal of Science Education, 36 (2014) 10, S. 1651-1684
DOI: 10.1080/09500693.2013.873155
URN: urn:nbn:de:0111-pedocs-189963
URL: http://nbn-resolving.org/urn:nbn:de:0111-pedocs-189963
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Biologieunterricht; Deutschland; Empirische Untersuchung; Evaluation; Gymnasium; Inhaltsanalyse; Leistungsmessung; Modell; Naturwissenschaftliche Kompetenz; Naturwissenschaftlicher Unterricht; Schüler; Schülerleistung; Schülerleistungstest; Sekundarbereich; Testauswertung; Testkonstruktion; Testtheorie; Verstehen
Abstract: Research in the field of students' understandings of models and their use in science describes different frameworks concerning these understandings. Currently, there is no conjoint framework that combines these structures and so far, no investigation has focused on whether it reflects students' understandings sufficiently (empirical evaluation). Therefore, the purpose of this article is to present the results of an empirical evaluation of a conjoint theoretical framework. The theoretical framework integrates relevant research findings and comprises five aspects which are subdivided into three levels each: nature of models, multiple models, purpose of models, testing, and changing models. The study was conducted with a sample of 1,177 seventh to tenth graders (aged 11-19 years) using open-ended items. The data were analysed by identifying students' understandings of models (nature of models and multiple models) and their use in science (purpose of models, testing, and changing models), and comparing as well as assigning them to the content of the theoretical framework. A comprehensive category system of students' understandings was thus developed. Regarding the empirical evaluation, the students' understandings of the nature and the purpose of models were sufficiently described by the theoretical framework. Concerning the understandings of multiple, testing, and changing models, additional initial understandings (only one model possible, no testing of models, and no change of models) need to be considered. This conjoint and now empirically tested framework for students' understandings can provide a common basis for future science education research. Furthermore, evidence-based indications can be provided for teachers and their instructional practice.
DIPF-Abteilung: Bildungsqualität und Evaluation