Menü Überspringen
Kontakt
Presse
Deutsch
English
Not track
Datenverarbeitung
Suche
Anmelden
DIPF aktuell
Forschung
Infrastrukturen
Institut
Zurück
Kontakt
Presse
Deutsch
English
Not track
Datenverarbeitung
Suche
Startseite
>
Forschung
>
Publikationen
>
Publikationendatenbank
Ergebnis der Suche in der DIPF Publikationendatenbank
Ihre Abfrage:
(Personen: "Hartig," und "Johannes")
zur erweiterten Suche
Suchbegriff
Nur Open Access
Suchen
Markierungen aufheben
Alle Treffer markieren
Export
159
Inhalte gefunden
Alle Details anzeigen
Measurement invariance testing in questionnaires. A comparison of three Multigroup-CFA and […]
Buchholz, Janine; Hartig, Johannes
Zeitschriftenbeitrag
| In: Psychological Test and Assessment Modelling | 2020
39818 Endnote
Autor*innen:
Buchholz, Janine; Hartig, Johannes
Titel:
Measurement invariance testing in questionnaires. A comparison of three Multigroup-CFA and IRT-based approaches
In:
Psychological Test and Assessment Modelling, 62 (2020) 1, S. 29-54
URL:
https://www.psychologie-aktuell.com/fileadmin/Redaktion/Journale/ptam-2020-1/03_Buchholz.pdf
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Sprache:
Englisch
Schlagwörter:
PISA <Programme for International Student Assessment>; Item-Response-Theorie; Faktorenanalyse; Schülerleistung; Leistungsmessung; Messung; Invarianz; Validität; Statistische Methode
Abstract (english):
International Large-Scale Assessments aim at comparisons of countries with respect to latent constructs such as attitudes, values and beliefs. Measurement invariance (MI) needs to hold in order for such comparisons to be valid. Several statistical approaches to test for MI have been proposed: While Multigroup Confirmatory Factor Analysis (MGCFA) is particularly popular, a newer, IRT-based approach was introduced for non-cognitive constructs in PISA 2015, thus raising the question of consistency between these approaches. A total of three approaches (MGCFA for ordinal and continuous data, multi-group IRT) were applied to simulated data containing different types and extents of MI violations, and to the empirical non-cognitive PISA 2015 data. Analyses are based on indices of the magnitude (i.e., parameter-specific modification indices resulting from MGCFA and group-specific item fit statistics resulting from the IRT approach) and direction of local misfit (i.e., standardized parameter change and mean deviation, respectively). Results indicate that all measures were sensitive to (some) MI violations and more consistent in identifying group differences in item difficulty parameters.
DIPF-Abteilung:
Bildungsqualität und Evaluation
Convergent evidence for validity of a performance-based ICT skills test
Engelhardt, Lena; Naumann, Johannes; Goldhammer, Frank; Frey, Andreas; Wenzel, S. Franziska C.; […]
Zeitschriftenbeitrag
| In: European Journal of Psychological Assessment | 2020
39137 Endnote
Autor*innen:
Engelhardt, Lena; Naumann, Johannes; Goldhammer, Frank; Frey, Andreas; Wenzel, S. Franziska C.; Hartig, Katja; Horz, Holger
Titel:
Convergent evidence for validity of a performance-based ICT skills test
In:
European Journal of Psychological Assessment, 36 (2020) 2, S. 269-279
DOI:
10.1027/1015-5759/a000507
URN:
urn:nbn:de:0111-pedocs-218426
URL:
https://nbn-resolving.org/urn:nbn:de:0111-pedocs-218426
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Informationstechnologische Bildung; Informations- und Kommunikationstechnologie; Problemlösen; Kompetenz; Fertigkeit; Schüler; Sekundarstufe I; Test; Testaufgabe; Validität; Evidenz; Deutschland
Abstract (english):
The goal of this study was to investigate sources of evidence of convergent validity supporting the construct interpretation of scores on a simulation-based ICT skills test. The construct definition understands ICT skills as reliant on ICT-specific knowledge as well as comprehension and problem-solving skills. On the basis of this, a validity argument comprising three claims was formulated and tested. (1) In line with the classical nomothetic span approach, all three predictor variables explained task success positively across all ICT skills items. As ICT tasks can vary in the extent to which they require construct-related knowledge and skills and in the way related items are designed and implemented, the effects of construct-related predictor variables were expected to vary across items. (2) A task-based analysis approach revealed that the item-level effects of the three predictor variables were in line with the targeted construct interpretation for most items. (3) Finally, item characteristics could significantly explain the random effect of problem-solving skills, but not comprehension skills. Taken together, the obtained results generally support the validity of the construct interpretation.
DIPF-Abteilung:
Bildungsqualität und Evaluation
Using a multilevel random item Rasch model to examine item difficulty variance between random groups
Hartig, Johannes; Köhler, Carmen; Naumann, Alexander
Zeitschriftenbeitrag
| In: Psychological Test and Assessment Modeling | 2020
40525 Endnote
Autor*innen:
Hartig, Johannes; Köhler, Carmen; Naumann, Alexander
Titel:
Using a multilevel random item Rasch model to examine item difficulty variance between random groups
In:
Psychological Test and Assessment Modeling, 62 (2020) 1, S. 11-27
URL:
https://www.psychologie-aktuell.com/fileadmin/Redaktion/Journale/ptam-2020-1/02_Hartig.pdf
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Rasch-Modell; Mehrebenenanalyse; Methode; Leistungsfähigkeit; Vergleichsuntersuchung; Simulation
Abstract:
In educational assessments, item difficulties are typically assumed to be invariant across groups (e.g., schools or countries). We refer to variances of item difficulties on the group level violating this assumption as random group differential item functioning (RG-DIF). We examine the performance of three methods to estimate RG-DIF: (1) three-level Generalized Linear Mixed Models (GLMMs), (2) three-level GLMMs with anchor items, and (3) item-wise multilevel logistic regression (ML-LR) controlling for the estimated trait score. In a simulation study, the magnitude of RG-DIF and the covariance of the item difficulties on the group level were varied. When group level effects were independent, all three methods performed well. With correlated DIF, estimated variances on the group level were biased with the full three-level GLMM and ML-LR. This bias was more pronounced for ML-LR than for the full three-level GLMM. Using a three-level GLMM with anchor items allowed unbiased estimation of RG-DIF.
Abstract (english):
In educational assessments, item difficulties are typically assumed to be invariant across groups (e.g., schools or countries). We refer to variances of item difficulties on the group level violating this assumption as random group differential item functioning (RG-DIF). We examine the performance of three methods to estimate RG-DIF: (1) three-level Generalized Linear Mixed Models (GLMMs), (2) three-level GLMMs with anchor items, and (3) item-wise multilevel logistic regression (ML-LR) controlling for the estimated trait score. In a simulation study, the magnitude of RG-DIF and the covariance of the item difficulties on the group level were varied. When group level effects were independent, all three methods performed well. With correlated DIF, estimated variances on the group level were biased with the full three-level GLMM and ML-LR. This bias was more pronounced for ML-LR than for the full three-level GLMM. Using a three-level GLMM with anchor items allowed unbiased estimation of RG-DIF.
DIPF-Abteilung:
Bildungsqualität und Evaluation
Multilevel models for evaluating the effectiveness of teaching. Conceptual and methodological […]
Köhler, Carmen; Kuger, Susanne; Naumann, Alexander; Hartig, Johannes
Zeitschriftenbeitrag
| In: Zeitschrift für Pädagogik. Beiheft | 2020
39929 Endnote
Autor*innen:
Köhler, Carmen; Kuger, Susanne; Naumann, Alexander; Hartig, Johannes
Titel:
Multilevel models for evaluating the effectiveness of teaching. Conceptual and methodological considerations
In:
Zeitschrift für Pädagogik. Beiheft, 66 (2020) , S. 197-209
DOI:
10.3262/ZPB2001197
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Sprache:
Englisch
Schlagwörter:
Lehrer; Verhalten; Einflussfaktor; Effektivität; Lernen; Unterricht; Modellierung; Methodologie; Unterrichtsforschung; Evaluation; Schülerzahl; Datenanalyse; Reliabilität; Mehrebenenanalyse; Modell
Abstract:
In der Unterrichtsforschung liegt ein Schwerpunkt auf der Identifizierung von Lehrpersonalverhalten, welches Lernende positiv beeinflusst. Ein angemessenes Studiendesign sowie die statistische Modellierung und die Ergebnisinterpretation bergen einige Herausforderungen. Beispielsweise erfordert die dem Forschungsbereich inhärente Mehrebenenstruktur mehrstufige Analysemodelle. Im folgenden Artikel wurde ein exemplarischer Datensatz verwendet, auf den verschiedene mehrstufige Modelle angewendet wurden, um zu veranschaulichen, wie diese Modelle die substantielle Interpretation der Forschungsfrage beeinflussen. Die Forschungsfrage in allen Settings bezog sich auf die Auswirkungen des Lehrpersonalverhaltens auf die Ergebnisse der Lernenden. (DIPF/Orig.)
Abstract (english):
In research on teaching, the primary focus lies in identifying teacher behavior that positively influences relevant student outcomes. To adequately design the study, statistically model and interpret the results poses challenges for researchers. For example, the inherent multilevel structure in studies on teaching requires the application of multilevel models. This research used one exemplary data set, to which varying multilevel models were applied, thus illustrating how these models variously affect the substantial interpretation of the research question. The research question in all settings concerned the effects of teacher behavior on student outcomes. The overall purpose of this paper is to give an overview of modeling and interpreting results regarding the effectiveness of teaching appropriately. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
A bias corrected RMSD item fit statistic. An evaluation and comparison to alternatives
Köhler, Carmen; Robitzsch, Alexander; Hartig, Johannes
Zeitschriftenbeitrag
| In: Journal of Educational and Behavioral Statistics | 2020
40510 Endnote
Autor*innen:
Köhler, Carmen; Robitzsch, Alexander; Hartig, Johannes
Titel:
A bias corrected RMSD item fit statistic. An evaluation and comparison to alternatives
In:
Journal of Educational and Behavioral Statistics, 45 (2020) 3, S. 251-273
DOI:
10.3102/1076998619890566
URL:
https://journals.sagepub.com/doi/10.3102/1076998619890566
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Item-Response-Theory; Testkonstruktion; Modell; Frage; Antwort; Messverfahren; Statistische Methode; Evaluation; Vergleich; Bildungsforschung; Empirische Forschung
Abstract:
Testing whether items fit the assumptions of an item response theory model is an important step in evaluating a test. In the literature, numerous item fit statistics exist, many of which show severe limitations. The current study investigates the root mean squared deviation (RMSD) item fit statistic, which is used for evaluating item fit in various large-scale assessment studies. The three research questions of this study are (1) whether the empirical RMSD is an unbiased estimator of the population RMSD; (2) if this is not the case, whether this bias can be corrected; and (3) whether the test statistic provides an adequate significance test to detect misfitting items. Using simulation studies, it was found that the empirical RMSD is not an unbiased estimator of the population RMSD, and nonparametric bootstrapping falls short of entirely eliminating this bias. Using parametric bootstrapping, however, the RMSD can be used as a test statistic that outperforms the other approaches - infit and outfit, S1 X2 with respect to both Type I error rate and power. The empirical application showed that parametric bootstrapping of the RMSD results in rather conservative item fit decisions, which suggests more lenient cut-off criteria. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Examining the effect of principal turnover on teaching quality. A study on organizational change […]
Pietsch, Marcus; Tulowitzki, Pierre; Hartig, Johannes
Zeitschriftenbeitrag
| In: School Effectiveness and School Improvement | 2020
39563 Endnote
Autor*innen:
Pietsch, Marcus; Tulowitzki, Pierre; Hartig, Johannes
Titel:
Examining the effect of principal turnover on teaching quality. A study on organizational change with repeated classroom observations
In:
School Effectiveness and School Improvement, 31 (2020) 3, S. 333-355
DOI:
10.1080/09243453.2019.1672759
URL:
https://www.tandfonline.com/doi/full/10.1080/09243453.2019.1672759
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Schulklasse; Unterrichtsbeobachtung; Untericht; Führung; Qualität; Schulleitung; Schulorganisation; Veränderung; Einflussfaktor; Schülerleistung; Grundschule; Datenanalyse; Mehrebenenanalyse; Regressionsanalyse; Hamburg; Deutschland
Abstract:
There is a large base of empirical evidence that points to the importance of school leadership with regard to functional schools and student achievement. Based on this importance, a change of principal can be a critical event for a school. This study seeks to answer the question if principal turnover is associated with a change in a school's teaching quality and the role of moderators and interactions in this regard. Based upon data from n = 10,036 high-stakes classroom observations gathered cross-sectionally within n = 101 primary schools at 2 time points, the results show that teaching quality seems to be buffered from direct effects of principal turnover to some extent. However, further analyses demonstrate that the change in principal leadership might have negative effects on teaching quality in low-socioeconomic-status schools when new principals try to apply strong instructional leadership. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Effectiveness of a governmental action to improve Austrian primary schools. Results of multilevel […]
Schmid, Christine; Trendtel, Matthias; Bruneforth, Michael; Hartig, Johannes
Zeitschriftenbeitrag
| In: School Effectiveness and School Improvement | 2020
39343 Endnote
Autor*innen:
Schmid, Christine; Trendtel, Matthias; Bruneforth, Michael; Hartig, Johannes
Titel:
Effectiveness of a governmental action to improve Austrian primary schools. Results of multilevel analyses based on repeated cycles of educational standards assessments
In:
School Effectiveness and School Improvement, 31 (2020) 2, S. 149-171
DOI:
10.1080/09243453.2019.1620294
URL:
https://www.tandfonline.com/doi/full/10.1080/09243453.2019.1620294
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Effektivität; Grundschule; Steuerung; Schulpolitik; Qualitätsentwicklung; Schulleistung; Leistungsmessung; Bildungsstandards; Grundschüler; Schülerleistung; Förderung; Mathematische Kompetenz; Lesekompetenz; Migrationshintergrund; Sozioökonomische Lage; Leistungstest; Leistungssteigerung; Lernstandserhebung; Mehrebenenanalyse; Längsschnittuntersuchung; Österreich
Abstract:
In 2005, the Austrian government committed all schools to develop school policies supporting the learning of their students. One purpose of the paper is to seek evidence for the effectiveness of this governmental action. A second purpose is to suggest a special kind of multilevel model which can be applied to longitudinal data at the school level when the outcome measure of interest is assessed at the individual student level. Analyses are based on 2 nation-wide educational standards assessments (2012 and 2015) and a preceding baseline assessment including n = 267 primary schools (2010). Results show that the implementation of support strategies by schools significantly moderated the increase in mathematic achievement between 2010 and 2013, but not in reading achievement between 2010 and 2015. However, the increase in reading achievement was moderated by the provision of additional courses for low-achieving students and for students with a foreign first language. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Methodological challenges of international student assessment
Frey, Andreas; Hartig, Johannes
Sammelbandbeitrag
| Aus: Harju-Luukkainen, Heidi; McElvany, Nele; Stang, Justine (Hrsg.): Monitoring student achievement in the 21st century: European policy perspectives and assessment strategies | Cham: Springer | 2020
40524 Endnote
Autor*innen:
Frey, Andreas; Hartig, Johannes
Titel:
Methodological challenges of international student assessment
Aus:
Harju-Luukkainen, Heidi; McElvany, Nele; Stang, Justine (Hrsg.): Monitoring student achievement in the 21st century: European policy perspectives and assessment strategies, Cham: Springer, 2020 , S. 39-49
DOI:
10.1007/978-3-030-38969-7_4
URL:
https://link.springer.com/chapter/10.1007/978-3-030-38969-7_4
Dokumenttyp:
4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Schülerleistungstest; Leistungsmessung; Internationaler Vergleich; Methodologie; Herausforderung; Veränderung; Schülerleistung; Heterogenität; Adaptives Testen; Befragung; Daten; Open Science; Validität
Abstract (english):
International large-scale assessments are very successful. One key factor of this success is their rigorous methodological and psychometric basis. Because education systems worldwide are subject to rapid changes, international large-scale assessments need to evolve as well. We describe five current methodological challenges that should be addressed so that large-scale assessments can continue to provide highly useful information on educational outcomes in the future. First, new or changed constructs should be adopted, and constructs with declining importance should be dropped from the assessments. Second, the heterogeneity of student performance within and between countries should be better accounted for. This can be achieved by completing the introduction of computerized adaptive testing into international large-scale assessments and making full use of computers to optimise the testing and scaling process. Third, more analytical effort should be invested in the measurement and modelling of context variables, mainly by applying latent variable.
DIPF-Abteilung:
Bildungsqualität und Evaluation
Testwertinterpretation, Testnormen und Testeichung
Goldhammer, Frank; Hartig, Johannes
Sammelbandbeitrag
| Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020
40528 Endnote
Autor*innen:
Goldhammer, Frank; Hartig, Johannes
Titel:
Testwertinterpretation, Testnormen und Testeichung
Aus:
Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 171-195
DOI:
10.1007/978-3-662-61532-4_9
URL:
https://link.springer.com/chapter/10.1007/978-3-662-61532-4_9
Dokumenttyp:
4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache:
Deutsch
Schlagwörter:
Test; Wert; Interpretation; Testkonstruktion; Konzeption; Datenanalyse; Testauswertung; Testtheorie; Normung
Abstract:
In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
Abstract:
In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Validität von Testwertinterpretationen
Hartig, Johannes; Frey, Andreas; Jude, Nina
Sammelbandbeitrag
| Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020
40526 Endnote
Autor*innen:
Hartig, Johannes; Frey, Andreas; Jude, Nina
Titel:
Validität von Testwertinterpretationen
Aus:
Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 529-545
DOI:
10.1007/978-3-662-61532-4_21
URL:
https://link.springer.com/chapter/10.1007%2F978-3-662-61532-4_21
Dokumenttyp:
4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache:
Deutsch
Schlagwörter:
Test; Wert; Testauswertung; Interpretation; Validität; Qualität; Datenanalyse; Testkonstruktion; Testtheorie; Argumentation; Methode
Abstract:
Das Gütekriterium der Validität ist ein zentrales Qualitätskriterium. Es ist den Gütekriterien Objektivität und Reliabilität übergeordnet. Validität bezieht sich darauf, inwieweit Interpretationen von Testwerten und beabsichtigte Verwendungen von Tests gerechtfertigt sind. Das Verständnis von Validität hat sich in den letzten Jahrzehnten deutlich weiterentwickelt. Während sich im vergangenen Jahrhundert zunächst eine wenig praktikable Vielzahl "verschiedener Validitäten" herausgebildet hatte, wird Validität inzwischen als einheitliches Qualitätskriterium betrachtet, das Informationen aus verschiedenen Quellen integriert. Zudem wurde Validität früher als Eigenschaft eines Tests betrachtet, heute bezieht sie sich auf die Interpretation von Testwerten. Ein Test kann demnach nicht als solcher valide sein, vielmehr erfordert jede intendierte Testwertinterpretation eine separate Validierung. Im Kontext aktueller internationaler Forschung wird die Validierung von Testwertinterpretationen im Rahmen des sog. "argumentationsbasierten Ansatzes" beschrieben. Dabei muss zunächst die zu validierende Testwertinterpretation präzise formuliert werden. Dann werden empirische überprüfbare Grundannahmen der Testwertinterpretationen identifiziert. Hierauf wird empirische Evidenz gesammelt, anhand derer die Grundannahmen widerlegt oder vorläufig gestützt werden können. Wichtige Evidenzquellen sind die Testinhalte, die bei der Testbeantwortung ablaufenden kognitiven Prozesse, die interne Struktur der Testdaten und die Beziehungen der Testwerte zu anderen Variablen. Bei der abschließenden zusammenfassenden Bewertung wird eine Testwertinterpretation dann als valide betrachtet, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte. Die argumentationsbasierte Validierung gleicht theoriegeleiteter und hypothesenbasierter Forschung und erfolgt spezifisch für jede intendierte Testwertinterpretation. Der Abschluss eines Validierungsprozesses hat einen vorläufigen Charakter, da zukünftige Befunde eine Testwertinterpretation hinsichtlich einer oder mehrerer Grundannahmen widerlegen und damit infrage stellen können. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Markierungen aufheben
Alle Treffer markieren
Export
<
1
...
3
4
(aktuell)
5
...
16
>
Alle anzeigen
(159)