-
-
Autor*innen: Mihaly, Kata; Klieme, Eckhard; Fischer, Jessica; Doan, Sy
Titel: Questionnaire scale characteristics
Aus: OECD (Hrsg.): Global teaching insights technical report, Paris: OECD Publishing, 2021 , S. 1-22
URL: https://www.oecd.org/education/school/GTI-TechReport-Chapter18.pdf
Dokumenttyp: 4. Beiträge in Sammelbänden; Sammelband (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Psychometrie; Fragebogen; Skala; Itemanalyse; Reliabilität; Messung; Invarianz; Unterrichtsforschung
Abstract: Der Beitrag beschreibt die psychometrischen Kennwerte der in der TALIS Video Studie verwendeten Fragebogen-Skalen einschließlich einer Überprüfung der Messinvarianz. (DIPF/Autor)
Abstract (english): The chapter documents the psychometric features of all questionnaire scales used in the TALIS Vdieo Study, including checks of measurement invariance for some of the scales. (DIPF/Orig.)
DIPF-Abteilung: Lehr und Lernqualität in Bildungseinrichtungen
-
-
Autor*innen: Praetorius, Anna-Katharina; Fischer, Jessica; Klieme, Eckhard
Titel: Teacher and student questionnaire development
Aus: OECD (Hrsg.): Global teaching insights technical report, Paris: OECD Publishing, 2021 , S. 1-20
URL: https://www.oecd.org/education/school/GTI-TechReport-Chapter9.pdf
Dokumenttyp: 4. Beiträge in Sammelbänden; Sammelband (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Unterrichtsforschung; Mathematikunterricht; Videoaufzeichnung; Studie; Schüler; Lehrer; Befragung; Fragebogen; Konzeption; Entwicklung; Item; Auswahl
Abstract: Der Beitrag stellt die konzeptuellen Grundlagen und Entwicklungsschritte für die Befragungsinstrumente der TALIS Video Studie dar. (DIPF/Autor)
Abstract (english): This chapter describes the conceptual foundations and the development process of the TALIS Video Study survey instruments. (DIPF/Orig.)
DIPF-Abteilung: Lehr und Lernqualität in Bildungseinrichtungen
-
-
Herausgeber*innen: Goldhammer, Frank; Scherer, Ronny; Greiff, Samuel
Titel: Advancements in technology-based assessment. Emerging item formats, test designs, and data sources
Erscheinungsvermerk: Lausanne: Frontiers Media, 2020 (Frontiers in Psychology. Sonderheft)
DOI: 10.3389/fpsyg.2019.03047
URL: https://www.frontiersin.org/research-topics/7841/advancements-in-technology-based-assessment-emerging-item-formats-test-designs-and-data-sources
Dokumenttyp: 2. Herausgeberschaft; Zeitschriftensonderheft
Sprache: Englisch
Schlagwörter: Technologiebasiertes Testen; Item; Test; Design; Auswertung; Automatisierung; Prozessdatenverarbeitung; Lernen; Bewertung
Abstract (english): Technology has become an indispensable tool for educational and psychological assessment in today's world. Researchers and large-scale assessment programs alike are increasingly using digital technology (e.g., laptops, tablets, and smartphones) to collect behavioral data beyond the mere idea of responses as correct. Along these lines, technology innovates and enhances assessments in terms of item and test design, methods of test delivery, data collection and analysis, as well as the reporting of test results.
The aim of this Research Topic is to present recent advancements in technology-based assessment. Our focus is on cognitive assessments, including the measurement of abilities, competencies, knowledge, and skills but may also include non-cognitive aspects of the assessment. In the area of (cognitive) assessments the innovations driven by technology are manifold: Digital assessments facilitate the creation of new types of stimuli and response formats that were out of reach for assessments using paper; for instance, interactive simulations including multimedia elements, as well as virtual or augmented realities which serve as the task environment. Moreover, technology allows the automated generation of items based on specific item models. Such items can be assembled into tests in a more flexible way than that offered by paper-and-pencil tests and could even be created on the fly; for instance, tailoring item difficulty to individual ability (adaptive testing), while assuring that multiple content constraints are met. As a requirement for adaptive testing or to lower the burden of raters coding item responses manually, computers enable the automatic scoring of constructed responses; for instance, text responses can be scored automatically by using natural language processing and text mining. Technology-based assessments provide not only response data (e.g., correct vs. incorrect responses) but also process data (e.g., frequencies and sequences of test-taking strategies, including navigation behavior) which reflects the course of solving a test item. Process data has been used successfully, among others, to evaluate the data quality, to define process-oriented constructs, to improve measurement precision, and to address substantial research questions.
We expect the contributions of this Research Topic to build on this research by considering how technology can further improve, and enhance, educational and psychological assessment. Regarding educational testing, both research papers on the assessment of learning (e.g., summative assessment of learning outcomes) and on the assessment for learning (e.g., formative assessment to support the learning process) are welcome. We expect submissions of empirical papers that present and evaluate innovative technology-based assessment approaches, as well as new applications or illustrations of already existing approaches. We are also interested in papers addressing the validity of test scores and other indicators obtained from innovative assessment procedures.
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Beißert, Hanna; Köhler, Meike; Rempel, Marina; Kruyen, Peter M.
Titel: Ein Vergleich traditioneller und computergestützter Methoden zur Erstellung einer deutschsprachigen Need for Cognition Kurzskala
In: Diagnostica, 66 (2020) 1, S. 37-49
DOI: 10.1026/0012-1924/a000242
URN: urn:nbn:de:0111-dipfdocs-237848
URL: http://www.dipfdocs.de/volltexte/2022/23784/pdf/Diagnostica_2020_1_Beissert_et_al_Vergleich_traditioneller_und_computergestuetzter_A.pdf
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Skala; Item; Entwicklung; Computerunterstütztes Verfahren; Validierung; Freude; Erkenntnis
Abstract: Die vorliegende Arbeit dient der Entwicklung einer Kurzskala zur Messung von Need for Cognition (NFC). Neben traditionellen Verfahren der Itemreduktion auf Basis von Itemkennwerten der klassischen Testtheorie wurde in Studie 1 (N = 282) ein neues, computergestütztes Verfahren des "full information approach" vorgestellt. Mithilfe der beiden Verfahren wurden 3 mögliche Skalen mit jeweils 5 Items selektiert, welche in einem unabhängigen Datensatz in Studie 2 (N = 530) Validierungskriterien unterzogen wurden. Aus den 3 Skalen mit ähnlichen Ergebnissen bezüglich der Gütekriterien wurde eine anhand der "full information approach" erstellten Skalen als finale Kurzskala NFC-K ausgewählt. Diese NFC-K weist ein Cronbachs α von .69 auf, eine Korrelation mit der Langskala von .81 und keinen signifikanten Zusammenhang mit sozialer Erwünschtheit. Neben der systematischen und objektiven Selektion und Validierung der Kurzskala NFC-K stellt die vorliegende Arbeit auch eine Fallstudie zu den Herausforderungen der Kurzskalenentwicklung auf Basis klassischer und computergestützter Selektionsverfahren dar. (DIPF/Orig.)
Abstract (english): The current study presents the development and validation of a Need for Cognition (NFC) short scale. In Study 1 (N = 282), traditional item selection procedures based on classic test theory were used as well as an innovative computational approach, our "full information approach." The procedures led to three different short scales with comparable psychometric quality, which were validated in Study 2 (N = 530). Based on different validation criteria, one of the three scales obtained from the full information approach was selected as the final short scale NFC-K. This NFC-K achieved a Cronbach's α of .69, a correlation of .81 with the original scale, and showed no significant correlation with social desirability. Besides presenting a systematic and objective selection and validation of the NFC-K, this article represents a case study of the challenges of developing a short scale comparing both traditional and computational approaches. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung
-
-
Autor*innen: Buchholz, Janine; Hartig, Johannes
Titel: Measurement invariance testing in questionnaires. A comparison of three Multigroup-CFA and IRT-based approaches
In: Psychological Test and Assessment Modelling, 62 (2020) 1, S. 29-54
URL: https://www.psychologie-aktuell.com/fileadmin/Redaktion/Journale/ptam-2020-1/03_Buchholz.pdf
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Sprache: Englisch
Schlagwörter: PISA <Programme for International Student Assessment>; Item-Response-Theorie; Faktorenanalyse; Schülerleistung; Leistungsmessung; Messung; Invarianz; Validität; Statistische Methode
Abstract (english): International Large-Scale Assessments aim at comparisons of countries with respect to latent constructs such as attitudes, values and beliefs. Measurement invariance (MI) needs to hold in order for such comparisons to be valid. Several statistical approaches to test for MI have been proposed: While Multigroup Confirmatory Factor Analysis (MGCFA) is particularly popular, a newer, IRT-based approach was introduced for non-cognitive constructs in PISA 2015, thus raising the question of consistency between these approaches. A total of three approaches (MGCFA for ordinal and continuous data, multi-group IRT) were applied to simulated data containing different types and extents of MI violations, and to the empirical non-cognitive PISA 2015 data. Analyses are based on indices of the magnitude (i.e., parameter-specific modification indices resulting from MGCFA and group-specific item fit statistics resulting from the IRT approach) and direction of local misfit (i.e., standardized parameter change and mean deviation, respectively). Results indicate that all measures were sensitive to (some) MI violations and more consistent in identifying group differences in item difficulty parameters.
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Hahnel, Carolin; Eichmann, Beate; Goldhammer, Frank
Titel: Evaluation of online information in university students. Development and scaling of the screening instrument EVON
In: Frontiers in Psychology, (2020) , S. 11:562128
DOI: 10.3389/fpsyg.2020.562128
URN: urn:nbn:de:0111-pedocs-232241
URL: https://nbn-resolving.org/urn:nbn:de:0111-pedocs-232241
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Deutschland; Internet; Informationskompetenz; Ressource; Glaubwürdigkeit; Relevanz; Bewertung; Test; Testentwicklung; Itemanalyse; Suchmaschine; Simulation; Technologiebasiertes Testen; Interview; Erhebungsinstrument; Evaluation; Student; Rasch-Modell; Empirische Untersuchung;
Abstract: As Internet sources provide information of varying quality, it is an indispensable prerequisite skill to evaluate the relevance and credibility of online information. Based on the assumption that competent individuals can use different properties of information to assess its relevance and credibility, we developed the EVON (evaluation of online information), an interactive computer-based test for university students. The developed instrument consists of eight items that assess the skill to evaluate online information in six languages. Within a simulated search engine environment, students are requested to select the most relevant and credible link for a respective task. To evaluate the developed instrument, we conducted two studies: (1) a pre-study for quality assurance and observing the response process (cognitive interviews of n = 8 students) and (2) a main study aimed at investigating the psychometric properties of the EVON and its relation to other variables (n = 152 students). The results of the pre-study provided first evidence for a theoretically sound test construction with regard to students' item processing behavior. The results of the main study showed acceptable psychometric outcomes for a standardized screening instrument with a small number of items. The item design criteria affected the item difficulty as intended, and students' choice to visit a website had an impact on their task success. Furthermore, the probability of task success was positively predicted by general cognitive performance and reading skill. Although the results uncovered a few weaknesses (e.g., a lack of difficult items), and the efforts of validating the interpretation of EVON outcomes still need to be continued, the overall results speak in favor of a successful test construction and provide first indication that the EVON assesses students' skill in evaluating online information in search engine environments. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Köhler, Carmen; Robitzsch, Alexander; Hartig, Johannes
Titel: A bias corrected RMSD item fit statistic. An evaluation and comparison to alternatives
In: Journal of Educational and Behavioral Statistics, 45 (2020) 3, S. 251-273
DOI: 10.3102/1076998619890566
URL: https://journals.sagepub.com/doi/10.3102/1076998619890566
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Item-Response-Theory; Testkonstruktion; Modell; Frage; Antwort; Messverfahren; Statistische Methode; Evaluation; Vergleich; Bildungsforschung; Empirische Forschung
Abstract: Testing whether items fit the assumptions of an item response theory model is an important step in evaluating a test. In the literature, numerous item fit statistics exist, many of which show severe limitations. The current study investigates the root mean squared deviation (RMSD) item fit statistic, which is used for evaluating item fit in various large-scale assessment studies. The three research questions of this study are (1) whether the empirical RMSD is an unbiased estimator of the population RMSD; (2) if this is not the case, whether this bias can be corrected; and (3) whether the test statistic provides an adequate significance test to detect misfitting items. Using simulation studies, it was found that the empirical RMSD is not an unbiased estimator of the population RMSD, and nonparametric bootstrapping falls short of entirely eliminating this bias. Using parametric bootstrapping, however, the RMSD can be used as a test statistic that outperforms the other approaches - infit and outfit, S1 X2 with respect to both Type I error rate and power. The empirical application showed that parametric bootstrapping of the RMSD results in rather conservative item fit decisions, which suggests more lenient cut-off criteria. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Robitzsch, Alexander; Lüdtke, Oliver; Schwippert, Knut; Goldhammer, Frank; Kroehne, Ulf; Köller, Olaf
Titel: Leistungsveränderungen in TIMSS zwischen 2015 und 2019. Die Rolle des Testmediums und des methodischen Vorgehens bei der Trendschätzung
Aus: Schwippert, Knut; Kasper, Daniel; Köller, Olaf; McElvany, Nele; Selter,
Christoph; Steffensky, Mirjam; Wendt, Heike (Hrsg.): TIMSS 2019: Mathematische und naturwissenschaftliche Kompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich, Münster: Waxmann, 2020 , S. 169-183
URL: https://www.waxmann.com/index.php?eID=download&buchnr=4319#%5B%7B%22num%22%3A1756%2C%22gen%22%3A0%7D%2C%7B%22name%22%3A%22Fit%22%7D%5D
Dokumenttyp: 4. Beiträge in Sammelbänden; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Mathematik; Naturwissenschaften; Schülerleistung; Test; Modus; Medien; Papier; Computerunterstütztes Verfahren; Leistung; Veränderung; Trend; Abschätzung <Math>; Item; Effekt; Messung; Schuljahr 04; Datenanalyse; Deutschland
Abstract: Die Trends in International Mathematics and Science Study (TIMSS) 2019
hat wie auch das Programme for International Student Assessment (PISA) den
Erhebungsmodus gewechselt (Reiss, Weis, Klieme & Köller, 2019): An die Stelle
von Papier-Testheften, die mit Stiften durch die Schülerinnen und Schüler bearbeitet werden (Paper-based-Assessment - PBA), ist die Testung mithilfe von Computern getreten (Computer-based-Assessment - CBA). Der Wechsel des Testmediums ist für Trendschätzungen in internationalen Schulleistungsstudien voraussetzungsreich, zeigt doch eine Vielzahl von Studien (Kroehne, Buerger, Hahnel & Goldhammer, 2019; Robitzsch, Lüdtke, Goldhammer, Kroehne & Köller, 2020), dass sich Testitems in ihren Eigenschaften (Schwierigkeit und Diskrimination) verändern können, wenn das Testmedium gewechselt wird. So konnten Robitzsch et al. (2017) für die PISA-2015-Erhebung in Deutschland zeigen, dass Items, die am Computer gelöst wurden, im Mittel schwieriger waren als bei der Bearbeitung im analogen Testheft. Goldhammer et al. (2019) haben diese Effekte auch für PISA 2018 belegen können. Als Folge zeigte sich in Sekundäranalysen der PISA-Datensätze, dass bei einer nationalen Schätzung und Berücksichtigung dieses Moduseffekts (die Veränderung der Itemeigenschaften bei Übertragung von Papier auf den Computer) Schülerinnen und Schüler in Deutschland höhere Kompetenzstände aufwiesen, als von der OECD offiziell publiziert. In TIMSS 2019 hat die internationale Studienleitung ein Testdesign umgesetzt, das es für die internationalen Datensätze, aber auch für den nationalen deutschen Datensatz erlaubt, Moduseffekte zu schätzen und damit auch zu untersuchen, in welchem Ausmaß für die Trendschätzungen in Mathematik und den Naturwissenschaften der Effekt des Testmediums berücksichtigt werden sollte. In diesem Kapitel wird der Frage nach potenziellen Moduseffekten mit vertiefenden Analysen nachgegangen. Jenseits der Aufdeckung dieser Effekte wird auch untersucht, ob die Art der gewählten Trendschätzung (originaler vs. marginaler Trend; Carstensen, Prenzel & Baumert, 2009; Gebhardt & Adams, 2007) Effekte auf die Interpretation der Veränderungen der Leistungen in Deutschland hat. Originale Trendschätzungen basieren auf den Itemparametern, die in der internationalen TIMSS-Gesamtstichprobe ermittelt wurden, marginale Trendschätzungen beschränken sich auf Itemparameter, die in der nationalen (deutschen) Stichprobe geschätzt wurden.
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Rauch, Dominique; Hartig, Johannes
Titel: Interpretation von Testwerten in der Item-Response-Theorie (IRT)
Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 411-424
DOI: 10.1007/978-3-662-61532-4_17
URL: https://link.springer.com/chapter/10.1007%2F978-3-662-61532-4_17
Dokumenttyp: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Test; Wert; Testauswertung; Interpretation; Item-Response-Theory; Modell; Bildungsforschung; Empirische Forschung; Kompetenz; Definition; Rasch-Modell; Datenanalyse
Abstract: Im vorliegenden Kapitel geht es um die Anwendung von IRT-Modellen im Rahmen der empirischen Bildungsforschung. Bei großen Schulleistungsstudien werden spezifische Vorteile der IRT genutzt, um beispielsweise das Matrix-Sampling von Testaufgaben, die Erstellung paralleler Testformen und die Entwicklung computerisierter adaptiver Tests zu ermöglichen. Ein weiterer wesentlicher Vorteil von IRT-Modellen ist die Möglichkeit der kriteriumsorientierten Interpretation IRT-basierter Testwerte. Diese wird durch die gemeinsame Verortung von Itemschwierigkeiten und Personenfähigkeiten auf einer Joint Scale durchführbar. Bei Gültigkeit des Rasch-Modells können individuelle Testwerte durch ihre Abstände zu Itemschwierigkeiten interpretiert werden. Auf dieser zentralen Eigenschaft von Rasch-Modellen bauen auch sog. "Kompetenzniveaus" auf. Zur leichteren Interpretation wird die kontinuierliche Skala in Abschnitte (Kompetenzniveaus) unterteilt, die dann als Ganzes kriteriumsorientiert beschrieben werden. In diesem Kapitel werden an einem gemeinsamen Beispiel die Definition und Beschreibung von Kompetenzniveaus anhand eines Vorgehens mit Post-hoc-Analysen der Items und die Verwendung von A-priori-Aufgabenmerkmalen veranschaulicht. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation
-
-
Autor*innen: Buchholz, Janine; Hartig, Johannes
Titel: Comparing attitudes across groups. An IRT-based item-fit statistic for the analysis of measurement invariance
In: Applied Psychological Measurement, 43 (2019) 3, S. 241-250
DOI: 10.1177/0146621617748323
URN: urn:nbn:de:0111-dipfdocs-174393
URL: http://www.dipfdocs.de/volltexte/2020/17439/pdf/APM_2019_3_Buchholz_Hartig_Comparing_attitudes_across_groups_A.pdf
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Einstellung <Psy>; Messung; Fragebogen; Internationaler Vergleich; Gruppe; Vergleich; Item-Response-Theory; Skalierung; Modell; Statistische Methode; Simulation
Abstract (english): Questionnaires for the assessment of attitudes and other psychological traits are crucial in educational and psychological research, and Item Response Theory (IRT) has become a viable tool for scaling such data. Many international large-scale assessments aim at comparing these constructs across countries, and the invariance of measures across countries is thus required. In its most recent cycle, the Programme for International Student Assessment (PISA 2015) implemented an innovative approach for testing the invariance of IRT-scaled constructs in the context questionnaires administered to students, parents, school principals and teachers. On the basis of a concurrent calibration with equal item parameters across all groups (i.e., languages within countries), a group-specific item-fit statistic (root-mean-square deviance; RMSD) was used as a measure for the invariance of item parameters for individual groups. The present simulation study examines the statistic's distribution under different types and extents of (non-) invariance in polytomous items. Responses to five four-point Likert-type items were generated under the Generalized Partial Credit Model (GPCM) for 1000 simulees in 50 groups each. For one of the five items, either location or discrimination parameters were drawn from a normal distribution. In addition to this type of non-invariance, we varied the extent of non-invariance by manipulating the variation of these distributions. Results indicate that the RMSD statistic is better at detecting non-invariance related to between-group differences in item location than in item discrimination. The study's findings may be used as a starting point to sensitivity analysis aiming to define cut-off values for determining (non-) invariance. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation