Ergebnis der Suche in der DIPF Publikationendatenbank

Ihre Abfrage:

(Schlagwörter: "Skalierung")

Practical significance of item misfit and its manifestations in constructs assessed in large‑scale […] Fährmann, Katharina; Köhler, Carmen; Hartig, Johannes; Heine, Jörg‑Henrik Zeitschriftenbeitrag | In: Large-scale Assessments in Education | 2022 42893 Endnote: Autor*innen: Fährmann, Katharina; Köhler, Carmen; Hartig, Johannes; Heine, Jörg‑Henrik
Titel: Practical significance of item misfit and its manifestations in constructs assessed in large‑scale studies
In: Large-scale Assessments in Education, 10 (2022) , S. 7
DOI: 10.1186/s40536‑022‑00124‑w
URL: https://largescaleassessmentsineducation.springeropen.com/articles/10.1186/s40536-022-00124-w
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Abstract (english): When scaling psychological tests with methods of item response theory it is necessary to investigate to what extent the responses correspond to the model predictions. In addition to the statistical evaluation of item misfit, the question arises as to its practical significance. Although item removal is undesirable for several reasons, its practical consequences are rarely investigated and focus mostly on main survey data with pre-selected items. In this paper, we identify criteria to evaluate practical significance and discuss them with respect to various types of assessments and their particular purposes. We then demonstrate the practical consequences of item misfit using two data examples from the German PISA 2018 field trial study: one with cognitive data and one with non-cognitive/metacognitive data. For the former, we scale the data under the GPCM with and without the inclusion of misfitting items, and investigate how this influences the trait distribution and the allocation to reading competency levels. For non-cognitive/metacognitive data, we explore the effect of excluding misfitting items on estimated gender differences. Our results indicate minor practical consequences for person allocation and no changes in the estimated gender-difference effects. (DIPF/Orig.)
DIPF-Abteilung: Lehr und Lernqualität in Bildungseinrichtungen

Zentrale quantitative Auswertungsverfahren Becker, Michael; Maaz, Kai Sammelbandbeitrag | Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik | Münster: Waxmann | 2022 42715 Endnote: Autor*innen: Becker, Michael; Maaz, Kai
Titel: Zentrale quantitative Auswertungsverfahren
Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik, Münster: Waxmann, 2022 , S. 948-958
Dokumenttyp: 4. Beiträge in Sammelbänden; Lexika/Enzyklopädie o.ä.
Sprache: Deutsch
Schlagwörter: Fehlende Daten; Quantitative Forschung; Schulforschung; Bildungsforschung; Statistische Methode; Modellierung; Stichprobe; Datenanalyse; Verfahren; Mehrebenenanalyse; Pfadanalyse; Skalierung; Längsschnittuntersuchung; Panel
Abstract: [Im Beitrag wird] nach einer kurzen Darstellung der Gemeinsamkeiten statistischer Modellierung, die die Schul- und Bildungsforschung mit den meisten Sozialwissenschaften teilt, ein Überblick über die spezifischen Auswertungsverfahren gegeben, die sich vor allem in der quantitativen Bildungs- und Schulforschung häufig finden. Hierbei wird weniger auf die Darstellung spezifischer Kennwerte und ihrer Eigenschaften als auf die generelle Verwendung und den epistemologischen Zweck der Verfahren eingegangen. Der Fokus ist darauf gelegt, die wichtigsten statistischen Probleme und gegenwärtig gängigen analytischen Lösungen, wie sie in einer Vielzahl von Studien der Bildungs- und Schulforschung vorzufinden und zu adressieren sind, auf einer konzeptuellen Ebene zusammenzufassen und Hinweise für einen tieferen Einstieg in die Themen zu geben. Insofern sollen - nach einer kurzen Erläuterung der beiden grundlegenden Aspekte statistischer Modellierung (Deskriptive und Inferenzstatistik) im Allgemeinen - vier Aspekte quantitativer Auswertungen vorgestellt werden, wie sie unserer Meinung nach zentral für die quantitative Bildungs- und Schulforschung sind: (1) Hierarchische Datenstrukturen und Mehrebenenmodelle, (2) Pfadanalysen und längsschnittliche cross-lagged panel-Analysen, Fragen (3) fehlender Werte und (4) der Leistungsskalierung. (DIPF/Orig.)
DIPF-Abteilung: Struktur und Steuerung des Bildungswesens

Reanalysis of the German PISA data. A comparison of different approaches for trend estimation with […] Robitzsch, Alexander; Lüdtke, Oliver; Goldhammer, Frank; Kröhne, Ulf; Köller, Olaf Zeitschriftenbeitrag | In: Frontiers in Psychology | 2020 40319 Endnote: Autor*innen: Robitzsch, Alexander; Lüdtke, Oliver; Goldhammer, Frank; Kröhne, Ulf; Köller, Olaf
Titel: Reanalysis of the German PISA data. A comparison of different approaches for trend estimation with a particular emphasis on mode effects
In: Frontiers in Psychology, (2020) , S. 11:884
DOI: 10.3389/fpsyg.2020.00884
URN: urn:nbn:de:0111-pedocs-232269
URL: https://nbn-resolving.org/urn:nbn:de:0111-pedocs-232269
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: PISA <Programme for International Student Assessment>; Test; Verfahren; Skalierung; Methode; Technologiebasiertes Testen; Veränderung; Entwicklung; Wirkungsforschung; Deutschland
Abstract: International large-scale assessments, such as the Program for International Student Assessment (PISA), are conducted to provide information on the effectiveness of education systems. In PISA, the target population of 15-year-old students is assessed every 3 years. Trends show whether competencies have changed in the countries between PISA cycles. In order to provide valid trend estimates, it is desirable to retain the same test conditions and statistical methods in all PISA cycles. In PISA 2015, however, the test mode changed from paper-based to computer-based tests, and the scaling method was changed. In this paper, we investigate the effects of these changes on trend estimation in PISA using German data from all PISA cycles (2000-2015). Our findings suggest that the change from paper-based to computer-based tests could have a severe impact on trend estimation but that the change of the scaling model did not substantially change the trend estimates.
DIPF-Abteilung: Bildungsqualität und Evaluation

Entwicklung und Skalierung eines Tests zur Erfassung des Verständnisses multipler Dokumente von […] Schoor, Cornelia; Hahnel, Carolin; Artelt, Cordula; Reimann, Daniel; Kroehne, Ulf; Goldhammer, Frank Zeitschriftenbeitrag | In: Diagnostica | 2020 40128 Endnote: Autor*innen: Schoor, Cornelia; Hahnel, Carolin; Artelt, Cordula; Reimann, Daniel; Kroehne, Ulf; Goldhammer, Frank
Titel: Entwicklung und Skalierung eines Tests zur Erfassung des Verständnisses multipler Dokumente von Studierenden
In: Diagnostica, 66 (2020) 2, S. 123-135
DOI: 10.1026/0012-1924/a000231
URN: urn:nbn:de:0111-pedocs-218434
URL: https://nbn-resolving.org/urn:nbn:de:0111-pedocs-218434
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Testkonstruktion; Student; Messung; Textverständnis; Quelle; Inhalt; Dokument; Diagnostischer Test; Kompetenz; Datenerfassung; Datenanalyse; Modell; Skalierung; Validität
Abstract: Das Verständnis multipler Dokumente (Multiple Document Comprehension, MDC) wird als Fähigkeit verstanden, aus verschiedenen Informationsquellen eine integrierte Repräsentation eines inhaltlichen Gegenstandsbereichs zu konstruieren. Als solche ist sie sowohl für die erfolgreiche Bewältigung eines Studiums als auch für gesellschaftliche Partizipation eine wichtige Kompetenz. Bislang gibt es jedoch kein etabliertes Diagnostikum in diesem Bereich. Um diese Lücke zu schließen, wurde ein Test entwickelt, der vier zentrale kognitive Anforderungen von MDC abdeckt und auf Basis der Daten von 310 Studierenden sozial- und geisteswissenschaftlicher Fächer überprüft wurde. Die im MDC-Test gemessene Kompetenz erwies sich als eindimensional. Der MDC-Testwert wies theoriekonforme Zusammenhänge mit der Abiturnote, dem Studienabschnitt und der Leistung in einer Essay-Aufgabe auf. Insgesamt liefern die Ergebnisse empirische Belege dafür, dass der Testwert aus dem MDC-Test die fächerübergreifende Fähigkeit von Studierenden wiedergibt, multiple Dokumente zu verstehen. (DIPF/Orig.)
Abstract (english): Multiple document comprehension (MDC) is defined as the ability to construct an integrated representation based on different sources of information on a particular topic. It is an important competence for both the successful accomplishment of university studies and participation in societal discussions. Yet, there is no established assessment instrument for MDC. Therefore, we developed a test covering four theory-based cognitive requirements of MDC. Based on the data of 310 university students of social sciences and humanities, the MDC test proved to be a unidimensional measure. Furthermore, the test score was related to the final school exam grade, the study level (bachelor / master), and the performance in an essay task. The empirical results suggest that the score of the MDC test can be interpreted as the generic competence of university students to understand multiple documents. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Scaling procedures and construct validation of context questionnaire data Buchholz, Janine; Jude, Nina; Komorowski, Felix; Leck, Johanna Verschiedenartige Dokumente | 2020 39820 Endnote: Autor*innen: Buchholz, Janine; Jude, Nina; Komorowski, Felix; Leck, Johanna
Titel: Scaling procedures and construct validation of context questionnaire data
Erscheinungsvermerk: Paris: OECD, 2020 (PISA 2018 technical report)
URL: https://www.oecd.org/pisa/data/pisa2018technicalreport/PISA2018_Technical-Report-Chapter-16-Background-Questionnaires.pdf
Dokumenttyp: 5. Arbeits- und Diskussionspapiere; Forschungsbericht/Projektberichte/Schulrückmeldungen
Sprache: Englisch
Schlagwörter: PISA <Programme for International Student Assessment>; Fragebogen; Skalierung; Validität; Variable; Index; Berechnung; OECD-Staaten
Abstract: The PISA 2018 Context Questionnaire are based on the questionnaire framework (OECD, 2018), described in chapter 3 of this report. Many questionnaire items were designed to be combined in some way in order to measure latent constructs that cannot be observed directly (e.g. a student's achievement motivation or economic, social and cultural background). To these items, transformations or scaling procedures were applied to contruct meaningful indices. In the following, these indices are referred to as "derived variables". This chapter describes derived variables based on one or more items that were constructed and validated for all questionnaires administered in PISA 2018.
DIPF-Abteilung: Bildungsqualität und Evaluation

Comparing attitudes across groups. An IRT-based item-fit statistic for the analysis of measurement […] Buchholz, Janine; Hartig, Johannes Zeitschriftenbeitrag | In: Applied Psychological Measurement | 2019 37766 Endnote: Autor*innen: Buchholz, Janine; Hartig, Johannes
Titel: Comparing attitudes across groups. An IRT-based item-fit statistic for the analysis of measurement invariance
In: Applied Psychological Measurement, 43 (2019) 3, S. 241-250
DOI: 10.1177/0146621617748323
URN: urn:nbn:de:0111-dipfdocs-174393
URL: http://www.dipfdocs.de/volltexte/2020/17439/pdf/APM_2019_3_Buchholz_Hartig_Comparing_attitudes_across_groups_A.pdf
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Einstellung <Psy>; Messung; Fragebogen; Internationaler Vergleich; Gruppe; Vergleich; Item-Response-Theory; Skalierung; Modell; Statistische Methode; Simulation
Abstract (english): Questionnaires for the assessment of attitudes and other psychological traits are crucial in educational and psychological research, and Item Response Theory (IRT) has become a viable tool for scaling such data. Many international large-scale assessments aim at comparing these constructs across countries, and the invariance of measures across countries is thus required. In its most recent cycle, the Programme for International Student Assessment (PISA 2015) implemented an innovative approach for testing the invariance of IRT-scaled constructs in the context questionnaires administered to students, parents, school principals and teachers. On the basis of a concurrent calibration with equal item parameters across all groups (i.e., languages within countries), a group-specific item-fit statistic (root-mean-square deviance; RMSD) was used as a measure for the invariance of item parameters for individual groups. The present simulation study examines the statistic's distribution under different types and extents of (non-) invariance in polytomous items. Responses to five four-point Likert-type items were generated under the Generalized Partial Credit Model (GPCM) for 1000 simulees in 50 groups each. For one of the five items, either location or discrimination parameters were drawn from a normal distribution. In addition to this type of non-invariance, we varied the extent of non-invariance by manipulating the variation of these distributions. Results indicate that the RMSD statistic is better at detecting non-invariance related to between-group differences in item location than in item discrimination. The study's findings may be used as a starting point to sensitivity analysis aiming to define cut-off values for determining (non-) invariance. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Kollaboratives Problemlösen in PISA 2015. Deutschland im Fokus Zehner, Fabian; Weis, Mirjam; Vogel, Freydis; Leutner, Detlev; Reiss, Kristina Zeitschriftenbeitrag | In: Zeitschrift für Erziehungswissenschaft | 2019 39123 Endnote: Autor*innen: Zehner, Fabian; Weis, Mirjam; Vogel, Freydis; Leutner, Detlev; Reiss, Kristina
Titel: Kollaboratives Problemlösen in PISA 2015. Deutschland im Fokus
In: Zeitschrift für Erziehungswissenschaft, 22 (2019) 3, S. 617-646
DOI: 10.1007/s11618-019-00874-4
URN: urn:nbn:de:0111-pedocs-176046
URL: http://nbn-resolving.org/urn:nbn:de:0111-pedocs-176046
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Schülerleistungstest; Fragebogen; PISA <Programme for International Student Assessment>; Internationaler Vergleich; Deutschland; OECD-Länder; Schüler; Problemlösen; Kooperation; Kompetenz; Schuljahr; Schulform; Computerunterstütztes Verfahren; Simulation; Technologiebasiertes Testen; Messverfahren; Qualität; Psychometrie; Item-Response-Theory; Skalierung
Abstract: Dieser Beitrag fokussiert die Ergebnisse in Deutschland zum internationalen Vergleich kollaborativer Problemlösekompetenz bei Fünfzehnjährigen im Programme for International Student Assessment (PISA) 2015 und berichtet Ergebnisse einer Kreuzvalidierung der Skalierung. Eingesetzt wurde ein neuer computerbasierter Test, der die Schülerinnen und Schüler mit simulierten Gruppenmitgliedern Probleme lösen lässt. Daten von n = 124.994 Fünfzehnjährigen aus 51 Staaten zur kollaborativen Problemlösekompetenz wurden erhoben. Die Schülerinnen und Schüler in Deutschland weisen eine überdurchschnittliche Kompetenz auf (525 Punkte), liegen eine viertel Standardabweichung unter dem OECD-Spitzenstaat Japan (552 Punkte) und eine viertel Standardabweichung über dem OECD-Schnitt (500 Punkte). In allen Staaten weisen Mädchen höhere Werte auf als Jungen. Während der Anteil hochkompetenter Jugendlicher in Deutschland vergleichbar hoch mit den Spitzenstaaten ausfällt, erreichen 21 % nur Kompetenzstufe I oder bleiben darunter, doppelt so viele wie in Japan. Der Beitrag präsentiert zudem nationale Ergebnisse, liefert empirische Evidenz zur Qualität des Tests und diskutiert diesen kritisch. (DIPF/Orig.)
Abstract (english): Focusing on Germany, this article presents results from the international comparison of fifteen-year-olds in collaborative problem solving and a cross validation of the scaling in the Programme for International Student Assessment (PISA) 2015. A new computer-based test was used requesting students to solve a problem jointly with simulated group members. Data from collaborative problem solving of fifteen-year-olds (n = 124,994) in 51 countries were assessed. The German mean competence level (525 points) is a quarter standard deviation above the OECD average (500 points) and a quarter standard deviation below the OECD's top performing country Japan (552 points). In all participating countries, girls outperform boys. While the percentage of top-performing students in Germany is comparable to proportions in the best-performing OECD countries, 21% of the students in Germany only reach competence level I or below, twice as many as in Japan. National results are presented as well as empirical evidence on the quality of the test, which is critically discussed. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Zentrale quantitative Auswertungsverfahren Becker, Michael; Maaz, Kai Sammelbandbeitrag | Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik | Münster: Waxmann | 2019 38906 Endnote: Autor*innen: Becker, Michael; Maaz, Kai
Titel: Zentrale quantitative Auswertungsverfahren
Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik, Münster: Waxmann, 2019 , S. 869-879
Dokumenttyp: 4. Beiträge in Sammelwerken; Lexika/Enzyklopädie o.ä.
Sprache: Deutsch
Schlagwörter: Schulforschung; Quantitative Forschung; Statistische Methode; Datenanalyse; Modell; Mehrebenenanalyse; Pfadanalyse; Fehlende Daten; Skalierung; Panel
Abstract: [Es wird] nach einer kurzen Darstellung der Gemeinsamkeiten statistischer Modellierung, die die Schul- und Bildungsforschung mit den meisten Sozialwissenschaften teilt, ein Überblick über die spezifischen Auswertungsverfahren gegeben, die sich vor allem in der quantitativen Bildungs- und Schulforschung häufig finden. Hierbei wird weniger auf die Darstellung spezifischer Kennwerte und ihrer Eigenschaften als auf die generelle Verwendung und den epistemologischen Zweck der Verfahren eingegangen. Der Fokus ist darauf gelegt, die wichtigsten statistischen Probleme und gegenwärtig gängigen analytischen Lösungen, wie sie in einer Vielzahl von Studien der Bildungs- und Schulforschung vorzufinden und zu adressieren sind, auf einer konzeptuellen Ebene zusammenzufassen und Hinweise für einen tieferen Einstieg in die Themen zu geben. Insofern sollen - nach einer kurzen Erläuterung der beiden grundlegenden Aspekte statistischer Modellierung (Deskriptive und inferenzstatistik) im Allgemeinen - vier Aspekte quantitativer Auswertungen vorgestellt werden, wie sie unserer Meinung nach zentral für die quantitative Bildungs- und Schulforschung sind: (1) Hierarchische Datenstrukturen und Mehrebenenmodelle, (2) Pfadanalysen und längsschnittliche cross-lagged panel-Analysen, Fragen (3) fehlender Werte und (4) der Leistungsskalierung. (DIPF/Orig.)
DIPF-Abteilung: Struktur und Steuerung des Bildungswesens

PISA Plus 2012-2013. Kompetenzentwicklung im Verlauf eines Schuljahres Reiss, Kristina; Klieme, Eckhard; Köller, Olaf; Stanat, Petra (Hrsg.) Sammelband | Wiesbaden: Springer VS | 2017 37727 Endnote: Herausgeber*innen: Reiss, Kristina; Klieme, Eckhard; Köller, Olaf; Stanat, Petra
Titel: PISA Plus 2012-2013. Kompetenzentwicklung im Verlauf eines Schuljahres
Erscheinungsvermerk: Wiesbaden: Springer VS, 2017 (Zeitschrift für Erziehungswissenschaft. Sonderheft, 33)
Dokumenttyp: 2. Herausgeberschaft; Zeitschriftensonderheft
Sprache: Deutsch
Schlagwörter: Schülerleistung; Kompetenz; Entwicklung; Veränderung; Schuljahr 09; Schuljahr 10; Mathematische Kompetenz; Schüler; Befragung; Sitzen bleiben; Soziale Herkunft; Migrationshintergrund; Zusammensetzung; Naturwissenschaftliche Kompetenz; Lesekompetenz; Kognitive Kompetenz; Schülerleistungstest; Skalierung; Längsschnittuntersuchung; PISA <Programme for International Student Assessment>; Deutschland
Abstract: In diesem Sonderheft der 'Zeitschrift für Erziehungswissenschaft' werden in einer Follow up-Studie Aussagen über Lernfortschritte vom Ende der neunten bis zum Ende der zehnten Klassenstufe getroffen. Besonders interessant sind die Möglichkeiten einer Erhebung über zwei Messzeitpunkte, die die Prüfung von Vermutungen zu Einflussfaktoren zur Kompetenzentwicklung erlaubt. Die Studie wurde vom Zentrum für internationale Bildungsvergleichsstudien (ZIB) und dessen drei Trägereinrichtungen - TUM School of Education, DIPF und IPN - in Zusammenarbeit mit dem IQB Berlin durchgeführt. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Herausforderungen bei der Schätzung von Trends in Schulleistungsstudien. Eine Skalierung der […] Robitzsch, Alexander; Lüdtke, Oliver; Köller, Olaf; Kröhne, Ulf; Goldhammer, Frank; […] Zeitschriftenbeitrag | In: Diagnostica | 2017 36898 Endnote: Autor*innen: Robitzsch, Alexander; Lüdtke, Oliver; Köller, Olaf; Kröhne, Ulf; Goldhammer, Frank; Heine, Jörg-Henrik
Titel: Herausforderungen bei der Schätzung von Trends in Schulleistungsstudien. Eine Skalierung der deutschen PISA-Daten
In: Diagnostica, 63 (2017) 2, S. 148-165
DOI: 10.1026/0012-1924/a000177
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Deutschland; Einflussfaktor; Leistungsmessung; Lesekompetenz; Mathematische Kompetenz; Modell; Naturwissenschaftliche Kompetenz; PISA <Programme for International Student Assessment>; Schülerleistung; Schülerleistungstest; Skalierung; Technologiebasiertes Testen; Testauswertung
Abstract: Internationale Schulleistungsstudien wie das Programme for International Student Assessment (PISA) dienen den teilnehmenden Ländern zur Feststellung der Leistungsfähigkeit ihrer Schulsysteme. In PISA wird die Zielpopulation (15-jährige Schülerinnen und Schüler) alle 3 Jahre getestet. Von besonderer Bedeutung sind dabei die Trendinformationen, die für die Zielpopulation ausweisen, ob sich ihre Leistungen gegenüber denen aus früheren Erhebungen verändert haben. Um solche Trends valide interpretieren zu können, sollten die PISA-Erhebungen unter möglichst vergleichbaren Bedingungen durchgeführt und die verwendeten statistischen Verfahren vergleichbar bleiben. In PISA 2015 wurde erstmalig computerbasiert getestet; zuvor mittels Papier-und-Bleistift-Tests. Es wurde das Skalierungsmodell verändert und in den Naturwissenschaften wurden neue Aufgabenformate eingesetzt. Im vorliegenden Beitrag gehen wir anhand der nationalen PISA-Stichproben von 2000 bis 2015 der Frage nach, inwiefern der Wechsel des Testmodus und der Wechsel des Skalierungsmodells die Interpretation der Trendschätzungen beeinflussen. Die Analysen belegen, dass die Veränderung von Papier-und-Bleistift-Tests auf Computertestung die Trendschätzung für Deutschland verzerrt haben könnte. (DIPF/Orig.)
Abstract (english): International large-scale assessments, for instance, the Programme for International Student Assessment (PISA), are conducted to provide information on the effectiveness of educational systems. In PISA, the target population of 15-year-old students is assessed every 3 years. Trends show whether competencies have changed for the target population between PISA cycles. To ensure valid trend information, it is necessary to keep the test conditions and statistical methods in all PISA cycles as constant as possible. In PISA 2015, however, several changes were established; the test model changed from paper pencil to computer tests, scaling methods were changed, and new types of tasks were used in science. In this article, we investigate the effects of these changes on trend estimation in PISA using German data from all PISA cycles (2000 - 2015). Findings suggest that the change from paper pencil to computer tests could have biased the trend estimation. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation