Menü Überspringen
Kontakt
Presse
Deutsch
English
Not track
Datenverarbeitung
Suche
Anmelden
DIPF aktuell
Forschung
Infrastrukturen
Institut
Zurück
Kontakt
Presse
Deutsch
English
Not track
Datenverarbeitung
Suche
Startseite
>
Forschung
>
Publikationen
>
Publikationendatenbank
Ergebnis der Suche in der DIPF Publikationendatenbank
Ihre Abfrage:
(Schlagwörter: "Testtheorie")
zur erweiterten Suche
Suchbegriff
Nur Open Access
Suchen
Markierungen aufheben
Alle Treffer markieren
Export
27
Inhalte gefunden
Alle Details anzeigen
Kompetenzdiagnostik
Frey, Andreas; Hartig, Johannes
Sammelbandbeitrag
| Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik | Münster: Waxmann | 2022
42714 Endnote
Autor*innen:
Frey, Andreas; Hartig, Johannes
Titel:
Kompetenzdiagnostik
Aus:
Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik, Münster: Waxmann, 2022 , S. 928-937
Dokumenttyp:
4. Beiträge in Sammelbänden; Lexika/Enzyklopädie o.ä.
Sprache:
Deutsch
Schlagwörter:
Empirische Forschung; Kompetenz; Diagnostik; Schüler; Schullaufbahn; Schülerleistung; Leistungsmessung; Testkonstruktion; Testtheorie; Testauswertung; Psychometrie; Qualität; Testdurchführung; Planung; Datenanalyse; Interpretation
Abstract:
Mit dem vorliegenden Beitrag wird das Feld der Kompetenzdiagnostik zusammenfassend dargestellt. Konkret wird dabei beschrieben, (a) was unter Kompetenzdiagnostik zu verstehen ist und welche Ziele mit ihr verfolgt werden, (b) wie Kompetenztests entwickelt und (c) wie sie angewendet werden. Das Kapitel schließt mit einem zusammenfassenden Fazit und einem Ausblick auf künftige Entwicklungsmöglichkeiten im Bereich Kompetenzdiagnostik. (DIPF/Orig.)
DIPF-Abteilung:
Lehr und Lernqualität in Bildungseinrichtungen
On the speed sensitivity parameter in the lognormal model for response times. Implications for test […]
Becker, Benjamin; Debeer, Dries; Weirich, Sebastian; Goldhammer, Frank
Zeitschriftenbeitrag
| In: Applied Psychological Measurement | 2021
42009 Endnote
Autor*innen:
Becker, Benjamin; Debeer, Dries; Weirich, Sebastian; Goldhammer, Frank
Titel:
On the speed sensitivity parameter in the lognormal model for response times. Implications for test assembly
In:
Applied Psychological Measurement, 45 (2021) 6, S. 407-422
DOI:
10.1177/01466216211008530
URL:
https://journals.sagepub.com/doi/abs/10.1177/01466216211008530
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Software; Technologiebasiertes Testen; Messverfahren; Item-Response-Theory; Leistungstest; Frage; Antwort; Dauer; Einflussfaktor; Testkonstruktion; Modell; Vergleich; Testtheorie; Simulation
Abstract:
In high-stakes testing, often multiple test forms are used and a common time limit is enforced. Test fairness requires that ability estimates must not depend on the administration of a specific test form. Such a requirement may be violated if speededness differs between test forms. The impact of not taking speed sensitivity into account on the comparability of test forms regarding speededness and ability estimation was investigated. The lognormal measurement model for response times by van der Linden was compared with its extension by Klein Entink, van der Linden, and Fox, which includes a speed sensitivity parameter. An empirical data example was used to show that the extended model can fit the data better than the model without speed sensitivity parameters. A simulation was conducted, which showed that test forms with different average speed sensitivity yielded substantial different ability estimates for slow test takers, especially for test takers with high ability. Therefore, the use of the extended lognormal model for response times is recommended for the calibration of item pools in high-stakes testing situations. Limitations to the proposed approach and further research questions are discussed. (DIPF/Orig.)
Abstract (english):
In high-stakes testing, often multiple test forms are used and a common time limit is enforced. Test fairness requires that ability estimates must not depend on the administration of a specific test form. Such a requirement may be violated if speededness differs between test forms. The impact of not taking speed sensitivity into account on the comparability of test forms regarding speededness and ability estimation was investigated. The lognormal measurement model for response times by van der Linden was compared with its extension by Klein Entink, van der Linden, and Fox, which includes a speed sensitivity parameter. An empirical data example was used to show that the extended model can fit the data better than the model without speed sensitivity parameters. A simulation was conducted, which showed that test forms with different average speed sensitivity yielded substantial different ability estimates for slow test takers, especially for test takers with high ability. Therefore, the use of the extended lognormal model for response times is recommended for the calibration of item pools in high-stakes testing situations. Limitations to the proposed approach and further research questions are discussed. (DIPF/Orig.)
DIPF-Abteilung:
Lehr und Lernqualität in Bildungseinrichtungen
From byproduct to design factor. On validating the interpretation of process indicators based on […]
Goldhammer, Frank; Hahnel, Carolin; Kroehne, Ulf; Zehner, Fabian
Zeitschriftenbeitrag
| In: Large-scale Assessments in Education | 2021
41612 Endnote
Autor*innen:
Goldhammer, Frank; Hahnel, Carolin; Kroehne, Ulf; Zehner, Fabian
Titel:
From byproduct to design factor. On validating the interpretation of process indicators based on log data
In:
Large-scale Assessments in Education, 9 (2021) , S. 20
DOI:
10.1186/s40536-021-00113-5
URN:
urn:nbn:de:0111-pedocs-250050
URL:
https://nbn-resolving.org/urn:nbn:de:0111-pedocs-250050
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Leistungstest; Logdatei; PISA <Programme for International Student Assessment>; PIAAC <Programme for the International Assessment of Adult Competencies>; Datenanalyse; Interpretation; Leistungsmessung; Messverfahren; Indikator; Typologie; Testkonstruktion; Testtheorie
Abstract (english):
International large-scale assessments such as PISA or PIAAC have started to provide public or scientific use files for log data; that is, events, event-related attributes and timestamps of test-takers' interactions with the assessment system. Log data and the process indicators derived from it can be used for many purposes. However, the intended uses and interpretations of process indicators require validation, which here means a theoretical and/or empirical justification that inferences about (latent) attributes of the test-taker's work process are valid. This article reviews and synthesizes measurement concepts from various areas, including the standard assessment paradigm, the continuous assessment approach, the evidence-centered design (ECD) framework, and test validation. Based on this synthesis, we address the questions of how to ensure the valid interpretation of process indicators by means of an evidence-centered design of the task situation, and how to empirically challenge the intended interpretation of process indicators by developing and implementing correlational and/or experimental validation strategies. For this purpose, we explicate the process of reasoning from log data to low-level features and process indicators as the outcome of evidence identification. In this process, contextualizing information from log data is essential in order to reduce interpretative ambiguities regarding the derived process indicators. Finally, we show that empirical validation strategies can be adapted from classical approaches investigating the nomothetic span and construct representation. Two worked examples illustrate possible validation strategies for the design phase of measurements and their empirical evaluation. (DIPF/Orig.)
DIPF-Abteilung:
Lehr und Lernqualität in Bildungseinrichtungen
A semiparametric approach for item response function estimation to detect item misfit
Köhler, Carmen; Robitzsch, Alexander; Fährmann, Katharina; von Davier, Matthias; Hartig, Johannes
Zeitschriftenbeitrag
| In: British Journal of Mathematical and Statistical Psychology | 2021
41437 Endnote
Autor*innen:
Köhler, Carmen; Robitzsch, Alexander; Fährmann, Katharina; von Davier, Matthias; Hartig, Johannes
Titel:
A semiparametric approach for item response function estimation to detect item misfit
In:
British Journal of Mathematical and Statistical Psychology, 74 (2021) 51, S. 157-175
DOI:
10.1111/bmsp.12224
URL:
https://bpspsychub.onlinelibrary.wiley.com/doi/epdf/10.1111/bmsp.12224
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Item-Response-Theory; Testtheorie
DIPF-Abteilung:
Lehr und Lernqualität in Bildungseinrichtungen
FEW-3. Frostigs Entwicklungstest der visuellen Wahrnehmung - 3, deutsche Bearbeitung des […]
Büttner, Gerhard; Dacheneder, Winfried; Müller, Christian; Schneider, Wolfgang; Hasselhorn, Marcus
Forschungsdaten/Instrumente
| Hogrefe | 2021
41018 Endnote
Autor*innen:
Büttner, Gerhard; Dacheneder, Winfried; Müller, Christian; Schneider, Wolfgang; Hasselhorn, Marcus
Titel:
FEW-3. Frostigs Entwicklungstest der visuellen Wahrnehmung - 3, deutsche Bearbeitung des Developmental Test of Visual Perception, Third Edition (DTVP-3) von D. D. Hammill, N. A. Pearson und J. K. Voress
Erscheinungsvermerk:
Göttingen: Hogrefe, 2021
Dokumenttyp:
6. Forschungsdaten; Instrumente; Diagnostische Instrumente (inkl. Testverfahren)
Sprache:
Deutsch
Schlagwörter:
Entwicklungspsychologie; Entwicklungsstörung; Entwicklungstest; Klinische Psychologie; Pädagogische Psychologie; Schüler; Test; Testtheorie; Visuelle Wahrnehmung; Vorschulalter; Wahrnehmung
Abstract:
Der FEW-3 wird als Einzeltest bei Kindern im Altersbereich von 4;0 bis 10;11 Jahren eingesetzt. Der Test kann von allen Berufsgruppen im Bereich Diagnostik, Therapie und Forschung (Psychologen, Ergotherapeuten, Pädagogen, Ärzten sowie von anderen Diagnostikern) angewandt werden, die an der Beurteilung des Entwicklungstandes der visuellen Wahrnehmung von Kindern interessiert sind. Der FEW-3 wird eingesetzt, um Kinder mit visuellen Wahrnehmungsproblemen oder Problemen der visuo-motorischen Integration zu identifizieren. Weitere Einsatzbereiche sind die Evaluation von Behandlungsmaßnahmen und die Forschung. (DIPF/Verl.)
DIPF-Abteilung:
Bildung und Entwicklung
Testwertinterpretation, Testnormen und Testeichung
Goldhammer, Frank; Hartig, Johannes
Sammelbandbeitrag
| Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020
40528 Endnote
Autor*innen:
Goldhammer, Frank; Hartig, Johannes
Titel:
Testwertinterpretation, Testnormen und Testeichung
Aus:
Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 171-195
DOI:
10.1007/978-3-662-61532-4_9
URL:
https://link.springer.com/chapter/10.1007/978-3-662-61532-4_9
Dokumenttyp:
4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache:
Deutsch
Schlagwörter:
Test; Wert; Interpretation; Testkonstruktion; Konzeption; Datenanalyse; Testauswertung; Testtheorie; Normung
Abstract:
In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
Abstract:
In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Validität von Testwertinterpretationen
Hartig, Johannes; Frey, Andreas; Jude, Nina
Sammelbandbeitrag
| Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020
40526 Endnote
Autor*innen:
Hartig, Johannes; Frey, Andreas; Jude, Nina
Titel:
Validität von Testwertinterpretationen
Aus:
Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 529-545
DOI:
10.1007/978-3-662-61532-4_21
URL:
https://link.springer.com/chapter/10.1007%2F978-3-662-61532-4_21
Dokumenttyp:
4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache:
Deutsch
Schlagwörter:
Test; Wert; Testauswertung; Interpretation; Validität; Qualität; Datenanalyse; Testkonstruktion; Testtheorie; Argumentation; Methode
Abstract:
Das Gütekriterium der Validität ist ein zentrales Qualitätskriterium. Es ist den Gütekriterien Objektivität und Reliabilität übergeordnet. Validität bezieht sich darauf, inwieweit Interpretationen von Testwerten und beabsichtigte Verwendungen von Tests gerechtfertigt sind. Das Verständnis von Validität hat sich in den letzten Jahrzehnten deutlich weiterentwickelt. Während sich im vergangenen Jahrhundert zunächst eine wenig praktikable Vielzahl "verschiedener Validitäten" herausgebildet hatte, wird Validität inzwischen als einheitliches Qualitätskriterium betrachtet, das Informationen aus verschiedenen Quellen integriert. Zudem wurde Validität früher als Eigenschaft eines Tests betrachtet, heute bezieht sie sich auf die Interpretation von Testwerten. Ein Test kann demnach nicht als solcher valide sein, vielmehr erfordert jede intendierte Testwertinterpretation eine separate Validierung. Im Kontext aktueller internationaler Forschung wird die Validierung von Testwertinterpretationen im Rahmen des sog. "argumentationsbasierten Ansatzes" beschrieben. Dabei muss zunächst die zu validierende Testwertinterpretation präzise formuliert werden. Dann werden empirische überprüfbare Grundannahmen der Testwertinterpretationen identifiziert. Hierauf wird empirische Evidenz gesammelt, anhand derer die Grundannahmen widerlegt oder vorläufig gestützt werden können. Wichtige Evidenzquellen sind die Testinhalte, die bei der Testbeantwortung ablaufenden kognitiven Prozesse, die interne Struktur der Testdaten und die Beziehungen der Testwerte zu anderen Variablen. Bei der abschließenden zusammenfassenden Bewertung wird eine Testwertinterpretation dann als valide betrachtet, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte. Die argumentationsbasierte Validierung gleicht theoriegeleiteter und hypothesenbasierter Forschung und erfolgt spezifisch für jede intendierte Testwertinterpretation. Der Abschluss eines Validierungsprozesses hat einen vorläufigen Charakter, da zukünftige Befunde eine Testwertinterpretation hinsichtlich einer oder mehrerer Grundannahmen widerlegen und damit infrage stellen können. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Experimental validation strategies for heterogeneous computer-based assessment items
Engelhardt, Lena; Goldhammer, Frank; Naumann, Johannes; Frey, Andreas
Zeitschriftenbeitrag
| In: Computers in Human Behavior | 2017
37464 Endnote
Autor*innen:
Engelhardt, Lena; Goldhammer, Frank; Naumann, Johannes; Frey, Andreas
Titel:
Experimental validation strategies for heterogeneous computer-based assessment items
In:
Computers in Human Behavior, 76 (2017) , S. 683-692
DOI:
10.1016/j.chb.2017.02.020
URN:
urn:nbn:de:0111-dipfdocs-176056
URL:
http://www.dipfdocs.de/volltexte/2019/17605/pdf/Engelhardt_et_al._2017_ManuscriptAccepted_A.pdf
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Sprache:
Englisch
Schlagwörter:
Leistungstest; Leistungsmessung; Medienkompetenz; Computerunterstütztes Verfahren; Validität; Testaufgabe; Testkonstruktion; Anpassung; Strategie; Veränderung; Testmethodik; Testtheorie
Abstract (english):
Computer-based assessments open up new possibilities to measure constructs in authentic settings. They are especially promising to measure 21st century skills, as for instance information and communication technologies (ICT) skills. Items tapping such constructs may be diverse regarding design principles and content and thus form a heterogeneous item set. Existing validation approaches, as the construct representation approach by Embretson (1983), however, require homogenous item sets in the sense that a particular task characteristic can be applied to all items. To apply this validation rational also for heterogeneous item sets, two experimental approaches are proposed based on the idea to create variants of items by systematically manipulating task characteristics. The change-approach investigates whether the manipulation affects construct-related demands and the eliminate-approach whether the test score represents the targeted skill dimension. Both approaches were applied within an empirical study (N = 983) using heterogeneous items from an ICT skills test. The results show how changes of ICT-specific task characteristics influenced item difficulty without changing the represented construct. Additionally, eliminating the intended skill dimension led to easier items and changed the construct partly. Overall, the suggested experimental approaches provide a useful validation tool for 21st century skills assessed by heterogeneous items. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Practical significance of item misfit in educational assessments
Köhler, Carmen; Hartig, Johannes
Zeitschriftenbeitrag
| In: Applied Psychological Measurement | 2017
37161 Endnote
Autor*innen:
Köhler, Carmen; Hartig, Johannes
Titel:
Practical significance of item misfit in educational assessments
In:
Applied Psychological Measurement, 41 (2017) 5, S. 388-400
DOI:
10.1177/0146621617692978
URN:
urn:nbn:de:0111-pedocs-156084
URL:
https://nbn-resolving.org/urn:nbn:de:0111-pedocs-156084
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Item-Response-Theory; Korrelation; Leistungsmessung; Rasch-Modell; Schülerleistung; Schülerleistungstest; Testkonstruktion; Testtheorie; Validität
Abstract:
Testing item fit is an important step when calibrating and analyzing item response theory (IRT)-based tests, as model fit is a necessary prerequisite for drawing valid inferences from estimated parameters. In the literature, numerous item fit statistics exist, sometimes resulting in contradictory conclusions regarding which items should be excluded from the test. Recently, researchers argue to shift the focus from statistical item fit analyses to evaluating practical consequences of item misfit. This article introduces a method to quantify potential bias of relationship estimates (e.g., correlation coefficients) due to misfitting items. The potential deviation informs about whether item misfit is practically significant for outcomes of substantial analyses. The method is demonstrated using data from an educational test. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Absolute and relative measures of instructional sensitivity
Naumann, Alexander; Hartig, Johannes; Hochweber, Jan
Zeitschriftenbeitrag
| In: Journal of Educational and Behavioral Statistics | 2017
37374 Endnote
Autor*innen:
Naumann, Alexander; Hartig, Johannes; Hochweber, Jan
Titel:
Absolute and relative measures of instructional sensitivity
In:
Journal of Educational and Behavioral Statistics, 42 (2017) 6, S. 678-705
DOI:
10.3102/1076998617703649
URN:
urn:nbn:de:0111-pedocs-156029
URL:
http://www.dipfdocs.de/volltexte/2018/15602/pdf/1076998617703649_A.pdf
Dokumenttyp:
3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache:
Englisch
Schlagwörter:
Bewertung; DESI <Deutsch-Englisch-Schülerleistungen-International>; Deutschland; Englischunterricht; Item-Response-Theory; Leistungsmessung; Messverfahren; Schüler; Schülerleistung; Schuljahr 09; Sprachkompetenz; Test; Testkonstruktion; Testtheorie; Unterricht; Wirkung
Abstract:
Valid inferences on teaching drawn from students' test scores require that tests are sensitive to the instruction students received in class. Accordingly, measures of the test items' instructional sensitivity provide empirical support for validity claims about inferences on instruction. In the present study, we first introduce the concepts of absolute and relative measures of instructional sensitivity. Absolute measures summarize a single item's total capacity of capturing effects of instruction, which is independent of the test's sensitivity. In contrast, relative measures summarize a single item's capacity of capturing effects of instruction relative to test sensitivity. Then, we propose a longitudinal multilevel item response theory model that allows estimating both types of measures depending on the identification constraints. (DIPF/Orig.)
DIPF-Abteilung:
Bildungsqualität und Evaluation
Markierungen aufheben
Alle Treffer markieren
Export
1
(aktuell)
2
3
>
Alle anzeigen
(27)