Search results in the DIPF database of publications

Your query:

(Schlagwörter: "Testauswertung")

Kompetenzdiagnostik Frey, Andreas; Hartig, Johannes Book Chapter | Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik | Münster: Waxmann | 2022 42714 Endnote: Author(s): Frey, Andreas; Hartig, Johannes
Title: Kompetenzdiagnostik
In: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik, Münster: Waxmann, 2022 , S. 928-937
Publication Type: 4. Beiträge in Sammelbänden; Lexika/Enzyklopädie o.ä.
Language: Deutsch
Keywords: Empirische Forschung; Kompetenz; Diagnostik; Schüler; Schullaufbahn; Schülerleistung; Leistungsmessung; Testkonstruktion; Testtheorie; Testauswertung; Psychometrie; Qualität; Testdurchführung; Planung; Datenanalyse; Interpretation
Abstract: Mit dem vorliegenden Beitrag wird das Feld der Kompetenzdiagnostik zusammenfassend dargestellt. Konkret wird dabei beschrieben, (a) was unter Kompetenzdiagnostik zu verstehen ist und welche Ziele mit ihr verfolgt werden, (b) wie Kompetenztests entwickelt und (c) wie sie angewendet werden. Das Kapitel schließt mit einem zusammenfassenden Fazit und einem Ausblick auf künftige Entwicklungsmöglichkeiten im Bereich Kompetenzdiagnostik. (DIPF/Orig.)
DIPF-Departments: Lehr und Lernqualität in Bildungseinrichtungen

ReCo: Textantworten automatisch auswerten. Methodenworkshop Zehner, Fabian; Andersen, Nico Journal Article | In: Zeitschrift für Soziologie der Erziehung und Sozialisation | 2020 40196 Endnote: Author(s): Zehner, Fabian; Andersen, Nico
Title: ReCo: Textantworten automatisch auswerten. Methodenworkshop
In: Zeitschrift für Soziologie der Erziehung und Sozialisation, 40 (2020) 3, S. 334-340
DOI: 10.25656/01:22115
URN: urn:nbn:de:0111-pedocs-221153
URL: https://nbn-resolving.org/urn:nbn:de:0111-pedocs-221153
Publication Type: 3b. Beiträge in weiteren Zeitschriften; praxisorientiert
Language: Deutsch
Keywords: Software; Technologiebasiertes Testen; Antwort; Text; Testauswertung; Automatisierung; Datenanalyse; Konzeption; Methodik
Abstract: Mit dem vorliegenden Beitrag wird erstmalig der Prototyp einer R- sowie Java-basierten und frei verfügbaren Software veröffentlicht, die für die Verwendung mit deutschen Textantworten evaluiert wurde und aktuell für weitere Sprachen weiter entwickelt wird: ReCo (Automatic Text Response Coder; Zehner, Sälzer & Goldhammer, 2016). ReCo ist auf Kurztextantworten spezialisiert und adressiert Semantik, weshalb auch von Inhaltsscoring die Rede ist. Die hier vorgestellte Software enthält einen Demodatensatz, bei dem es wichtig ist, vorab anzumerken, dass dieser und die hier zitierten Beispielantworten lediglich eine sehr geringe Sprachvielfalt enthalten. Das liegt daran, dass dieser Datensatz auf empirischen Daten basiert und wegen deren Vertraulichkeit umfangreich manuell manipuliert wurde, was mit sprachlich komplexeren Items nicht möglich gewesen wäre. Die ReCo-Methodik selbst funktioniert hingegen auch bei komplexeren Antworten [...]. Dieser Beitrag skizziert kurz die ReCo-Methodik und stellt erstmals die Shiny-App vor, die automatisches Kodieren für eigene Daten flexibel anwendbar macht. Dafür wird skizziert, wie der aktuell verfügbare Prototyp installiert und auf einen Demodatensatz angewendet wird. Zuletzt gibt der Beitrag einen Ausblick, welche Funktionalitäten die App nach Verlassen der aktuellen Prototypenphase sowie in der langfristigen Entwicklung haben wird. Aktuelle Entwicklungen können auf der ReCo-Webseite verfolgt werden: www.reco.science (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Testwertinterpretation, Testnormen und Testeichung Goldhammer, Frank; Hartig, Johannes Book Chapter | Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020 40528 Endnote: Author(s): Goldhammer, Frank; Hartig, Johannes
Title: Testwertinterpretation, Testnormen und Testeichung
In: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 171-195
DOI: 10.1007/978-3-662-61532-4_9
URL: https://link.springer.com/chapter/10.1007/978-3-662-61532-4_9
Publication Type: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Language: Deutsch
Keywords: Test; Wert; Interpretation; Testkonstruktion; Konzeption; Datenanalyse; Testauswertung; Testtheorie; Normung
Abstract: In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
Abstract: In diesem Kapitel werden verschiedene Möglichkeiten beschrieben, wie ein Testergebnis bzw. Testwert deskriptivstatistisch interpretiert werden kann. Bei der normorientierten Interpretation wird der Testwert in einen Normwert transformiert, der einen Vergleich mit den Testwerten anderer Personen einer Bezugsgruppe (den Testnormen) erlaubt. Die Testnormen werden im Wege der Testeichung an einer repräsentativen Eichstichprobe gewonnen. Sofern genauere theoretische Vorstellungen bestehen, kann das Testergebnis auch mit einem inhaltlich definierten Kriterium in Bezug gesetzt werden. Dieser Vorgang wird als kriteriumsorientierte Interpretation bezeichnet. Beide Interpretationsarten können auch miteinander verbunden werden. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Validität von Testwertinterpretationen Hartig, Johannes; Frey, Andreas; Jude, Nina Book Chapter | Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020 40526 Endnote: Author(s): Hartig, Johannes; Frey, Andreas; Jude, Nina
Title: Validität von Testwertinterpretationen
In: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 529-545
DOI: 10.1007/978-3-662-61532-4_21
URL: https://link.springer.com/chapter/10.1007%2F978-3-662-61532-4_21
Publication Type: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Language: Deutsch
Keywords: Test; Wert; Testauswertung; Interpretation; Validität; Qualität; Datenanalyse; Testkonstruktion; Testtheorie; Argumentation; Methode
Abstract: Das Gütekriterium der Validität ist ein zentrales Qualitätskriterium. Es ist den Gütekriterien Objektivität und Reliabilität übergeordnet. Validität bezieht sich darauf, inwieweit Interpretationen von Testwerten und beabsichtigte Verwendungen von Tests gerechtfertigt sind. Das Verständnis von Validität hat sich in den letzten Jahrzehnten deutlich weiterentwickelt. Während sich im vergangenen Jahrhundert zunächst eine wenig praktikable Vielzahl "verschiedener Validitäten" herausgebildet hatte, wird Validität inzwischen als einheitliches Qualitätskriterium betrachtet, das Informationen aus verschiedenen Quellen integriert. Zudem wurde Validität früher als Eigenschaft eines Tests betrachtet, heute bezieht sie sich auf die Interpretation von Testwerten. Ein Test kann demnach nicht als solcher valide sein, vielmehr erfordert jede intendierte Testwertinterpretation eine separate Validierung. Im Kontext aktueller internationaler Forschung wird die Validierung von Testwertinterpretationen im Rahmen des sog. "argumentationsbasierten Ansatzes" beschrieben. Dabei muss zunächst die zu validierende Testwertinterpretation präzise formuliert werden. Dann werden empirische überprüfbare Grundannahmen der Testwertinterpretationen identifiziert. Hierauf wird empirische Evidenz gesammelt, anhand derer die Grundannahmen widerlegt oder vorläufig gestützt werden können. Wichtige Evidenzquellen sind die Testinhalte, die bei der Testbeantwortung ablaufenden kognitiven Prozesse, die interne Struktur der Testdaten und die Beziehungen der Testwerte zu anderen Variablen. Bei der abschließenden zusammenfassenden Bewertung wird eine Testwertinterpretation dann als valide betrachtet, wenn keine der zugrunde liegenden Annahmen widerlegt werden konnte. Die argumentationsbasierte Validierung gleicht theoriegeleiteter und hypothesenbasierter Forschung und erfolgt spezifisch für jede intendierte Testwertinterpretation. Der Abschluss eines Validierungsprozesses hat einen vorläufigen Charakter, da zukünftige Befunde eine Testwertinterpretation hinsichtlich einer oder mehrerer Grundannahmen widerlegen und damit infrage stellen können. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Interpretation von Testwerten in der Item-Response-Theorie (IRT) Rauch, Dominique; Hartig, Johannes Book Chapter | Aus: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion | Berlin: Springer | 2020 40527 Endnote: Author(s): Rauch, Dominique; Hartig, Johannes
Title: Interpretation von Testwerten in der Item-Response-Theorie (IRT)
In: Moosbrugger, Helfried; Kelava, Augustin (Hrsg.): Testtheorie und Fragebogenkonstruktion, Berlin: Springer, 2020 , S. 411-424
DOI: 10.1007/978-3-662-61532-4_17
URL: https://link.springer.com/chapter/10.1007%2F978-3-662-61532-4_17
Publication Type: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Language: Deutsch
Keywords: Test; Wert; Testauswertung; Interpretation; Item-Response-Theory; Modell; Bildungsforschung; Empirische Forschung; Kompetenz; Definition; Rasch-Modell; Datenanalyse
Abstract: Im vorliegenden Kapitel geht es um die Anwendung von IRT-Modellen im Rahmen der empirischen Bildungsforschung. Bei großen Schulleistungsstudien werden spezifische Vorteile der IRT genutzt, um beispielsweise das Matrix-Sampling von Testaufgaben, die Erstellung paralleler Testformen und die Entwicklung computerisierter adaptiver Tests zu ermöglichen. Ein weiterer wesentlicher Vorteil von IRT-Modellen ist die Möglichkeit der kriteriumsorientierten Interpretation IRT-basierter Testwerte. Diese wird durch die gemeinsame Verortung von Itemschwierigkeiten und Personenfähigkeiten auf einer Joint Scale durchführbar. Bei Gültigkeit des Rasch-Modells können individuelle Testwerte durch ihre Abstände zu Itemschwierigkeiten interpretiert werden. Auf dieser zentralen Eigenschaft von Rasch-Modellen bauen auch sog. "Kompetenzniveaus" auf. Zur leichteren Interpretation wird die kontinuierliche Skala in Abschnitte (Kompetenzniveaus) unterteilt, die dann als Ganzes kriteriumsorientiert beschrieben werden. In diesem Kapitel werden an einem gemeinsamen Beispiel die Definition und Beschreibung von Kompetenzniveaus anhand eines Vorgehens mit Post-hoc-Analysen der Items und die Verwendung von A-priori-Aufgabenmerkmalen veranschaulicht. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

The impact of linguistic similarity on cross-cultural comparability of students' perceptions of […] Fischer, Jessica; Praetorius, Anna-Katharina; Klieme, Eckhard Journal Article | In: Educational Assessment, Evaluation and Accountability | 2019 39120 Endnote: Author(s): Fischer, Jessica; Praetorius, Anna-Katharina; Klieme, Eckhard
Title: The impact of linguistic similarity on cross-cultural comparability of students' perceptions of teaching quality
In: Educational Assessment, Evaluation and Accountability, 31 (2019) 2, S. 201-220
DOI: 10.1007/s11092-019-09295-7
URN: urn:nbn:de:0111-pedocs-190654
URL: http://nbn-resolving.org/urn:nbn:de:0111-pedocs-190654
Publication Type: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Language: Englisch
Keywords: PISA <Programme for International Student Assessment>; Unterricht; Qualität; Messung; Schüler; Wahrnehmung; Daten; Interkultureller Vergleich; Klassenführung; Kognitives Lernen; Sprache; Einflussfaktor; Messverfahren; Kulturdifferenz; Sprachproblem; Frage; Antwort; Testauswertung; Validität; Reliabilität; Vergleichende Bildungsforschung; Macau; Schanghai; Taipei; England; Schottland; Irland; Frankreich; Belgien; Schweiz; Österreich; Deutschland; Mexiko; Kolumbien
Abstract (english): Valid cross-country comparisons of student learning and pivotal factors contributing to it, such as teaching quality, offer the possibility to learn from outstandingly effective educational systems across the world and to improve learning in classrooms by providing policy relevant information. Yet, it often remains unclear whether the instruments used in international large-scale assessments work similarly across different cultural and linguistic groups, and thus can be used for comparing them. Using PISA 2012 data, we investigated data comparability of three teaching quality dimensions, namely student support, classroom management, and cognitive activation using a newly developed psychometric approach, namely alignment. Focusing on 15 countries, grouped into five linguistic clusters, we secondly assessed the impact of linguistic similarity on data comparability. Main findings include that (1) comparability of teaching quality measures is limited when comparing linguistically diverse countries; (2) the level of comparability varies across dimensions; (3) linguistic similarity considerably enhances the degree of comparability, except across the Chinese-speaking countries. Our study illustrates new and more flexible possibilities to test for data comparability and outlines the importance to consider cultural and linguistic differences when comparing teaching-related measures across groups. We discuss possible sources of lacking data comparability and implications for comparative educational research. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Sensitivity of test items to teaching quality Naumann, Alexander; Rieser, Svenja; Musow, Stephanie; Hochweber, Jan; Hartig, Johannes Journal Article | In: Learning and Instruction | 2019 38989 Endnote: Author(s): Naumann, Alexander; Rieser, Svenja; Musow, Stephanie; Hochweber, Jan; Hartig, Johannes
Title: Sensitivity of test items to teaching quality
In: Learning and Instruction, 60 (2019) , S. 41-53
DOI: 10.1016/j.learninstruc.2018.11.002
URL: https://www.sciencedirect.com/science/article/pii/S0959475217307065?via%3Dihub
Publication Type: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Language: Englisch
Keywords: Leistungstest; Testkonstruktion; Unterricht; Qualität; Einflussfaktor; Testauswertung; Grundschule; Naturwissenschaftlicher Unterricht; Aktives Lernen; Entdeckendes Lernen; Unterrichtsmethode; Wirkung; Messverfahren; Testaufgabe; Problemlösen; Grundschüler; Dauer; Antwort; Schwierigkeit; Datenanalyse; Interpretation; Quasi-Experiment; Deutschland
Abstract: Instructional sensitivity is the psychometric capacity of tests or single items of capturing effects of classroom instruction. Yet, current item sensitivity measures' relationship to (a) actual instruction and (b) overall test sensitivity is rather unclear. The present study aims at closing these gaps by investigating test and item sensitivity to teaching quality, reanalyzing data from a quasi-experimental intervention study in primary school science education (1026 students, 53 classes, Mage = 8.79 years, SDage = 0.49, 50% female). We examine (a) the correlation of item sensitivity measures and the potential for cognitive activation in class and (b) consequences for test score interpretation when assembling tests from items varying in their degree of sensitivity to cognitive activation. Our study (a) provides validity evidence that item sensitivity measures may be related to actual classroom instruction and (b) points out that inferences on teaching drawn from test scores may vary due to test composition. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Künstliche Intelligenz. Ihr Potenzial und der Mythos des Lehrkraft-Bots Zehner, Fabian Journal Article | In: Schulmanagement-Handbuch | 2019 39057 Endnote: Author(s): Zehner, Fabian
Title: Künstliche Intelligenz. Ihr Potenzial und der Mythos des Lehrkraft-Bots
In: Schulmanagement-Handbuch, (2019) 169, S. 6-30
URN: urn:nbn:de:0111-pedocs-175610
URL: http://nbn-resolving.org/urn:nbn:de:0111-pedocs-175610
Publication Type: 3b. Beiträge in weiteren Zeitschriften; praxisorientiert
Language: Deutsch
Keywords: Künstliche Intelligenz; Begriff; Computer; Spracherkennung; Data Mining; Codierung; Technologie; Innovation; Unterricht; Lernen; Unterstützung; Testauswertung; E-Learning; Bildungsforschung
Abstract: [In diesem] Kapitel legt der Autor dar, was Künstliche Intelligenz ausmacht, in welchen Bereichen wir bereits mit Künstlicher Intelligenz konfrontiert sind und wie sie schon heute in unseren Alltag integriert sind. Darauffolgend wird erläutert, wie Künstliche Intelligenz im Bildungsbereich gewinnbringend eingesetzt werden kann. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Kompetenzdiagnostik Frey, Andreas; Hartig, Johannes Book Chapter | Aus: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik | Münster: Waxmann | 2019 38881 Endnote: Author(s): Frey, Andreas; Hartig, Johannes
Title: Kompetenzdiagnostik
In: Harring, Marius; Rohlfs, Carsten; Gläser-Zikuda, Michaela (Hrsg.): Handbuch Schulpädagogik, Münster: Waxmann, 2019 , S. 849-858
Publication Type: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Language: Deutsch
Keywords: Kompetenz; Diagnostik; Schülerleistung; Leistungsmessung; Kognitive Kompetenz; Schülerleistungstest; Testkonstruktion; Datenerfassung; Testauswertung; Interpretation; Qualität; Bewertung; Testdurchführung; Planung
Abstract: Mit dem vorliegenden Beitrag wird das Feld der Kompetenzdiagnostik zusammenfassend dargestellt. Konkret wird dabei beschrieben, (a) was unter Kompetenzdiagnostik zu verstehen ist und welche Ziele mit ihr verfolgt werden, (b) wie Kompetenztests entwickelt und (c) wie sie angewendet werden. Das Kapitel schließt mit einem zusammenfassenden Fazit und einem Ausblick auf künftige Entwicklungsmöglichkeiten. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation

Response time-based treatment of omitted responses in computer-based testing Frey, Andreas; Spoden, Christian; Goldhammer, Frank; Wenzel, S. Franziska C. Journal Article | In: Behaviormetrika | 2018 38894 Endnote: Author(s): Frey, Andreas; Spoden, Christian; Goldhammer, Frank; Wenzel, S. Franziska C.
Title: Response time-based treatment of omitted responses in computer-based testing
In: Behaviormetrika, 45 (2018) 2, S. 505-526
DOI: 10.1007/s41237-018-0073-9
Publication Type: 3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Language: Englisch
Keywords: Methode; Technologiebasiertes Testen; Antwort; Dauer; Verhalten; Item-Response-Theory; Fehlende Daten; Datenanalyse; Testaufgabe; Typologie; Medienkompetenz; Schülerleistungstest; Testauswertung
Abstract: A new response time-based method for coding omitted item responses in computer-based testing is introduced and illustrated with empirical data. The new method is derived from the theory of missing data problems of Rubin and colleagues and embedded in an item response theory framework. Its basic idea is using item response times to statistically test for each individual item whether omitted responses are missing completely at random (MCAR) or missing due to a lack of ability and, thus, not at random (MNAR) with fixed type-1 and type-2 error levels. If the MCAR hypothesis is maintained, omitted responses are coded as not administered (NA), and as incorrect (0) otherwise. The empirical illustration draws from the responses given by N = 766 students to 70 items of a computer-based ICT skills test. The new method is compared with the two common deterministic methods of scoring omitted responses as 0 or as NA. In result, response time thresholds from 18 to 58 s were identified. With 61%, more omitted responses were recoded into 0 than into NA (39%). The differences in difficulty were larger when the new method was compared to deterministically scoring omitted responses as NA compared to scoring omitted responses as 0. The variances and reliabilities obtained under the three methods showed small differences. The paper concludes with a discussion of the practical relevance of the observed effect sizes, and with recommendations for the practical use of the new method as a method to be applied in the early stage of data processing. (DIPF/Orig.)
DIPF-Departments: Bildungsqualität und Evaluation