Ergebnis der Suche in der DIPF Publikationendatenbank

Ihre Abfrage:

(Schlagwörter: "Reliabilität")

Werkzeuge zur Umsetzung von Konzepten. Woran erkennt man gute Tools? Geyer, Sabrina; Titz, Cora; Ropeter, Anna; Weber, Susanne; Hasselhorn, Marcus Sammelbandbeitrag | Aus: Titz, Cora; Weber, Susanne; Ropeter, Anna; Geyer, Sabrina; Hasselhorn, Marcus (Hrsg.): Konzepte zur Sprach- und Schriftsprachförderung umsetzen und überprüfen | Stuttgart: Kohlhammer | 2018 38310 Endnote: Autor*innen: Geyer, Sabrina; Titz, Cora; Ropeter, Anna; Weber, Susanne; Hasselhorn, Marcus
Titel: Werkzeuge zur Umsetzung von Konzepten. Woran erkennt man gute Tools?
Aus: Titz, Cora; Weber, Susanne; Ropeter, Anna; Geyer, Sabrina; Hasselhorn, Marcus (Hrsg.): Konzepte zur Sprach- und Schriftsprachförderung umsetzen und überprüfen, Stuttgart: Kohlhammer, 2018 (Bildung durch Sprache und Schrift, 2), S. 28-45
Dokumenttyp: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Sprachförderung; Tool; Bewertung; Konzeption; Auswahl; Implementierung; Qualität; Diagnostik; Förderung; Förderungsmaßnahme; Kind; Jugendlicher; Sprachentwicklung; Sprachkompetenz; Lesekompetenz; Literalität; Standard; Erhebungsinstrument; Objektivität; Reliabilität; Validität; Effektivität; Theorie; Praxis
Abstract: In Konzepten zur sprachlichen Bildung und Förderung können Fördermaßnahmen und die für ihre Optimierung erforderliche Sprachdiagnostik mit Hilfe verschiedener Werkzeuge (Tools) umgesetzt werden. Das vorliegende Kapitel verfolgt das Ziel, Qualitätskriterien guter Diagnostik- und Förder-Tools zu definieren und zu erläutern. Zunächst wird mit der Passung von Tool, Ziel und Zielgruppe ein wesentliches Prinzip bei der Auswahl von Diagnostik- und Förder-Tools beschrieben. Getrennt für die beiden Bereiche Diagnostik und Förderung werden anschließend zentrale Qualitätskriterien beschrieben, die Fachkräfte bei der Bewertung und Auswahl von Tools unterstützen können. Diagnostik-Tools dienen im Rahmen sprachlicher Bildung der Feststellung und Förderung des aktuellen Entwicklungsstandes von Kindern und Jugendlichen sowie ihres sprachlichen Entwicklungsverlaufs. Die Qualität dieser Tools ist umso höher, je geringer die Risiken für eine Fehleinschätzung des Entwicklungsstandes von Kindern und Jugendlichen sind. Es sollten daher Diagnostik-Tools verwendet werden, die wissenschaftlichen Gütekriterien genügen, d.h. die objektiv, reliabel (zuverlässig) und valide (inhaltlich gültig) sind und eine Normierung aufweisen. Darüber hinaus sind Kriterien aus Praxis-Perspektive zu berücksichtigen. Bei der Auswahl von Tools zur Sprach- und Leseförderung ist neben Kriterien aus Perspektive der Praxis auch zu prüfen, inwiefern ein Tool über eine theoretische Fundierung verfügt sowie ob und welche Nachweise zu seiner Wirksamkeit vorliegen. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung

Formen und Methoden der externen Evaluation Hartig, Johannes; Rauch, Dominique Sammelbandbeitrag | Aus: Titz, Cora; Weber, Susanne; Ropeter, Anna; Geyer, Sabrina; Hasselhorn, Marcus (Hrsg.): Konzepte zur Sprach- und Schriftsprachförderung umsetzen und überprüfen | Stuttgart: Kohlhammer | 2018 38418 Endnote: Autor*innen: Hartig, Johannes; Rauch, Dominique
Titel: Formen und Methoden der externen Evaluation
Aus: Titz, Cora; Weber, Susanne; Ropeter, Anna; Geyer, Sabrina; Hasselhorn, Marcus (Hrsg.): Konzepte zur Sprach- und Schriftsprachförderung umsetzen und überprüfen, Stuttgart: Kohlhammer, 2018 (Bildung durch Sprache und Schrift, 2), S. 78-92
Dokumenttyp: 4. Beiträge in Sammelwerken; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Gruppe; Vergleich; Experimentelle Untersuchung; Methode; Evaluation; Sprachförderung; Förderungsmaßnahme; Qualität; Konzeption; Wirkung; Messung; Variable; Messverfahren; Operationalisierung; Ziel; Objektivität; Validität; Reliabilität; Forschungsdesign; Typologie; Quasi-Experiment; Beobachtung
Abstract: Die Qualität von Konzepten und Maßnahmen zur sprachlichen Förderung kann mit verschiedenen Methoden geprüft werden. Das vorliegende Kapitel gibt zunächst einen Überblick über verschiedene Formen der Evaluation, die bei der Prüfung der Qualität von Sprachfördermaßnahmen zum Einsatz kommen können - in Abhängigkeit vom Zeitpunkt der Evaluation werden Input-Evaluation, formative und summative Evaluation unterschieden. Anschließend wird die Definition von und Messung der Variablen thematisiert, die bei Evaluationen als Maße für die Qualität von Sprachfördermaßnahmen und als Kriterien für ihre Wirksamkeit verwendet werden. Hierbei werden Vor- und Nachteile verschiedener Messmethoden sowie allgemeine Gütekriterien zur Beurteilung von Messverfahren behandelt. Schließlich befasst sich das Kapitel mit Untersuchungsdesigns, die zur wissenschaftlichen Prüfung der Wirksamkeit von Sprachfördermaßnahmen verwendet werden können. Untersuchungsdesigns unterscheiden sich im Hinblick darauf, auf welche Weise Gruppen gebildet werden, die eine Fördermaßnahme erhalten (Treatment-Gruppe) und die als Vergleich herangezogen werden können (Kontrollgruppe). Unterschieden werden insbesondere korrelative Designs, quasiexperimentelle Designs und experimentelle Designs. In Abhängigkeit von der Gruppenbildung sind unterschiedlich sichere Wirksamkeitsaussagen möglich. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Wie informativ ist der erste Eindruck? Das Thin-Slices-Verfahren zur videobasierten Erfassung des […] Begrich, Lukas; Fauth, Benjamin; Kunter, Mareike; Klieme, Eckhard Zeitschriftenbeitrag | In: Zeitschrift für Erziehungswissenschaft. Sonderheft | 2017 37480 Endnote: Autor*innen: Begrich, Lukas; Fauth, Benjamin; Kunter, Mareike; Klieme, Eckhard
Titel: Wie informativ ist der erste Eindruck? Das Thin-Slices-Verfahren zur videobasierten Erfassung des Unterrichts
In: Zeitschrift für Erziehungswissenschaft. Sonderheft, 32 (2017) , S. 23-47
DOI: 10.1007/s11618-017-0730-x
URL: https://link.springer.com/article/10.1007%2Fs11618-017-0730-x
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Beitrag in Sonderheft
Sprache: Deutsch
Schlagwörter: Deutschland; Unterricht; Analyse; Verfahren; Videoaufzeichnung; Qualität; Lehrer; Bewertung; Video; Dauer; Schüler; Lernerfolg; Prognose; Grundschule; Sachunterricht; Fragebogen; Mehrebenenanalyse; Regressionsanalyse; Validität; Reliabilität; Psychometrie; Empirische Untersuchung
Abstract: Ein Nachteil von videobasierten Unterrichtsanalysen besteht in ihrem hohen Kosten- und Zeitaufwand. In der vorliegenden Studie wird die Möglichkeit geprüft, Unterrichtsmerkmale anhand stark verkürzter Beobachtungen, eines ersten Eindrucks, zu erfassen. Angewandt wurde dabei das so genannte Thin-Slices-Verfahren, ein Verfahren, anhand dessen bereits für verschiedene psychologische Konstrukte die Reliabilität und Validität von Einschätzungen auf Grundlage des ersten Eindrucks demonstriert werden konnte. In zwei Teilstudien beurteilten ungeschulte Rater drei Dimensionen der Unterrichtsqualität von 37 Grundschullehrkräften auf Grundlage von insgesamt 30-sekündigen zufällig ausgewählten Ausschnitten aus vollständigen Unterrichtsvideos. In beiden Teilstudien finden sich sehr hohe Inter-Rater-Reliabilitäten. Obwohl deskriptive Analysen auf einen eher undifferenzierten Beurteilungsprozess hindeuten, liefern Mehrebenenanalysen, bei denen der Leistungszuwachs der unterrichteten Schüler(innen) durch die beobachtete Unterrichtsqualität vorhergesagt wurde, Hinweise auf die prognostische Validität der Eindrucksratings. (DIPF/Orig.)
Abstract (english): A drawback of video-based analysis of teaching lies in its high cost in terms of time and money. The present study examines the possibility of assessing instructional features on the basis of very short observations, respectively first impressions. We applied the so-called thin-slices technique: This procedure which uses judgements based on first impressions has shown high reliability and validity in the assessment of various psychological constructs. In two studies untrained raters judged 37 elementary school teachers regarding three dimensions of instructional quality based on 30-second randomly selected sequences from full classroom videos. Both showed very high interrater reliabilities. While descriptive analyses indicate a rather undifferentiated judging process, multilevel regression analyses predicting students' achievement gain via ratings of instructional quality indicate a certain predictive validity of first impressions. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Argumentation mining in user-generated web discourse Habernal, Ivan; Gurevych, Iryna Zeitschriftenbeitrag | In: Computational Linguistics Journal | 2017 36233 Endnote: Autor*innen: Habernal, Ivan; Gurevych, Iryna
Titel: Argumentation mining in user-generated web discourse
In: Computational Linguistics Journal, 43 (2017) 1, S. 125-179
DOI: 10.1162/COLI_a_00276
URL: http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00276#.WIDIonpp-nU
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Argumentation; Automatisierung; Computerlinguistik; Data Mining; Diskurs; Erziehungswissenschaft; Information Retrieval; Modell; Reliabilität; Soziale Software; Textanalyse; World wide web 2.0
Abstract: The goal of argumentation mining, an evolving research field in computational linguistics, is to design methods capable of analyzing people's argumentation. In this article, we go beyond the state of the art in several ways. (i) We deal with actual Web data and take up the challenges given by the variety of registers, multiple domains, and unrestricted noisy user-generated Web discourse. (ii) We bridge the gap between normative argumentation theories and argumentation phenomena encountered in actual data by adapting an argumentation model tested in an extensive annotation study. (iii) We create a new gold standard corpus (90k tokens in 340 documents) and experiment with several machine learning methods to identify argument components. We offer the data, source codes, and annotation guidelines to the community under free licenses. Our findings show that argumentation mining in user-generated Web discourse is a feasible but challenging task. (DIPF/Orig.)
DIPF-Abteilung: Informationszentrum Bildung

Incremental validity of multidimensional proficiency scores from diagnostic classification models: […] Kunina-Habenicht, Olga; Rupp, André A.; Wilhelm, Oliver Zeitschriftenbeitrag | In: International Journal of Testing | 2017 37179 Endnote: Autor*innen: Kunina-Habenicht, Olga; Rupp, André A.; Wilhelm, Oliver
Titel: Incremental validity of multidimensional proficiency scores from diagnostic classification models: An illustration for elementary school mathematics
In: International Journal of Testing, 17 (2017) 4, S. 277-301
DOI: 10.1080/15305058.2017.1291517
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Arithmetik; Diagnostik; Empirische Untersuchung; Item-Response-Theory; Leistungsmessung; Mathematische Kompetenz; Modell; Regressionsanalyse; Reliabilität; Schülerleistung; Schülerleistungstest; Schuljahr 04; Testkonstruktion; Validität
Abstract (english): Diagnostic classification models (DCMs) hold great potential for applications in summative and formative assessment by providing discrete multivariate proficiency scores that yield statistically-driven classifications of students. Using data from a newly developed diagnostic arithmetic assessment that was administered to 2,032 fourth-grade students in Germany, we evaluated whether the multidimensional proficiency scores from the best-fitting DCM have an added value, over and above the unidimensional proficiency score from a simpler unidimensional IRT model, in explaning variance in external (a) school grades in mathematics and (b) unidimensional proficiency scores from a standards-based large-scale assessment of mathematics. Results revealed high classification reliabilities as well as interpretable parameter estimates for items and students for the best-fitting DCM. However, while DCM scores were moderatly correlated with both external criteria, only a negligible incremental validity of the multivariate attribute scores was found. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

Difference or delay? A comparison of Bayley-III Cognition item scores of young children with and […] Visser, Linda; Vlaskamp, Carla; Emde, Cornelius; Ruiter, Selma; Timmerman, Marieke Zeitschriftenbeitrag | In: Research in Developmental Disabilities | 2017 37881 Endnote: Autor*innen: Visser, Linda; Vlaskamp, Carla; Emde, Cornelius; Ruiter, Selma; Timmerman, Marieke
Titel: Difference or delay? A comparison of Bayley-III Cognition item scores of young children with and without developmental disabilities
In: Research in Developmental Disabilities, 71 (2017) , S. 109-119
DOI: 10.1016/j.ridd.2017.09.022
URN: urn:nbn:de:0111-dipfdocs-173794
URL: http://www.dipfdocs.de/volltexte/2020/17379/pdf/Research_in_Developmental_Disabilities_2017_Difference_or_delay_A.pdf
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Kind; Vorschulalter; Grundschulalter; Kognitive Entwicklung; Entwicklungsstörung; Test; Messverfahren; Erhebungsinstrument; Reliabilität; Validität; Vergleich; Niederlande
Abstract (english): The "difference or delay paradigm" focuses on the question of whether children with developmental disabilities (DD) develop in a way that is only delayed, compared to typically developing children, or also qualitatively different. The current study aimed to examine whether qualitative differences exist in cognitive development of young children with and without DD on the basis of item scores on the Dutch Bayley-III Cognition scale. Differential item functioning was identified for 15 of the 91 items. The presence of DD was related to a higher number of Guttman errors, hinting at more deviation in the order of skill development. An interaction between group (i.e., with or without DD) and developmental quotient appeared to predict the number of Guttman errors. DD was related to a higher number of Guttman errors for the whole range of developmental quotients; children with DD with a small developmental quotient had the highest number. Combined, the results mean that qualitative differences in development are not to be excluded, especially in cases of severe developmental disabilities. When using the Bayley-III in daily practice, the possibility needs to be taken into account that the instruments' assumption of a fixed order in skill development does not hold. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung

Evaluation of a rating system for the assessment of metacognitive-discursive instructional quality Nowinska, Edyta; Praetorius, Anna-Katharina Sammelbandbeitrag | Aus: Dooley, Thèrése; Gueudet, Ghislaine (Hrsg.): Proceedings of the Tenth Congress of the European Society for Research in Mathematics Education | Dublin: DCU Institute of Education and ERME | 2017 37912 Endnote: Autor*innen: Nowinska, Edyta; Praetorius, Anna-Katharina
Titel: Evaluation of a rating system for the assessment of metacognitive-discursive instructional quality
Aus: Dooley, Thèrése; Gueudet, Ghislaine (Hrsg.): Proceedings of the Tenth Congress of the European Society for Research in Mathematics Education, Dublin: DCU Institute of Education and ERME, 2017 , S. 3121-3128
URL: www.mathematik.uni-dortmund.de/ieem/erme_temp/CERME10_Proceedings_final.pdf#page=3166
Dokumenttyp: 4. Beiträge in Sammelbänden; Tagungsband/Konferenzbeitrag/Proceedings
Sprache: Englisch
Schlagwörter: Bewertung; Diskurs; Evaluation; Mathematikunterricht; Metakognition; Methodologie; Reliabilität
Abstract: Metacognition plays an essential role in learning mathematics. However, due to the lack of observational systems for evaluation of metacognition in mathematics instruction, rarely anything is known about how metacognition is practised and fostered when teaching and learning mathematics in class. This paper presents an observational system (a rating system) developed to reliably assess metacognitive activities in mathematics instruction. It also explains the methodology used to evaluate the reliability of rating achieved with this tool and to investigate the stability of metacognitive-discursive practices between lessons of an individual teacher/class. Despite the high inference of conclusions needed to assess metacognitive-discursive instructional quality in seven dimensions, highly reliable ratings have been achieved for six dimensions. The paper discusses reasons for and consequences of the high reliability. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation

PISA 2015. Eine Studie zwischen Kontinuität und Innovation Reiss, Kristina; Sälzer, Christine; Schiepe-Tiska, Anja; Klieme, Eckhard; Köller, Olaf (Hrsg.) Sammelband | Münster: Waxmann | 2016 36828 Endnote: Herausgeber*innen: Reiss, Kristina; Sälzer, Christine; Schiepe-Tiska, Anja; Klieme, Eckhard; Köller, Olaf
Titel: PISA 2015. Eine Studie zwischen Kontinuität und Innovation
Erscheinungsvermerk: Münster: Waxmann, 2016
URL: https://www.waxmann.com/fileadmin/media/zusatztexte/3555Volltext.pdf
Dokumenttyp: 2. Herausgeberschaft; Sammelband (keine besondere Kategorie)
Sprache: Deutsch
Schlagwörter: Deutschland; Einstellung <Psy>; Eltern; Empirische Untersuchung; Entdeckendes Lernen; Forschendes Lernen; Fragebogen; Freude; Geschlechtsspezifischer Unterschied; Interesse; Internationale Organisation; Internationaler Vergleich; Jugendlicher; Kompetenzerwerb; Konzeption; Leistungsmessung; Lernbedingungen; Lernumgebung; Lesekompetenz; Mathematische Kompetenz; Migrationshintergrund; Motivation; Naturwissenschaftliche Kompetenz; Naturwissenschaftlicher Unterricht; OECD-Länder; Organisation; PISA <Programme for International Student Assessment>; Qualität; Querschnittuntersuchung; Reliabilität; Schulentwicklung; Schülerleistung; Schülerleistungstest; Schulform; Schulklima; Sekundarbereich; Selbstwirksamkeit; Skalierung; Soziale Herkunft; Stichprobe; Technologiebasiertes Testen; Teilnehmer; Testaufgabe; Testauswertung; Testdurchführung; Testkonstruktion; Testmethodik; Überzeugung; Validität; Veränderung; Wahrnehmung
Abstract: Alle drei Jahre testet PISA den Stand der Grundbildung fünfzehnjähriger Jugendlicher in den Bereichen Naturwissenschaften, Mathematik und Lesen und untersucht so Stärken und Schwächen von Bildungssystemen im Vergleich der OECD-Staaten. Zentral ist dabei die Frage, inwieweit es den teilnehmenden Staaten gelingt, die Schülerinnen und Schüler während der Schulpflicht auf ihre weiteren Bildungs- und Berufswege vorzubereiten. Der nationale Berichtsband stellt die Ergebnisse aus PISA 2015 vor, die von den Schülerinnen und Schülern in Deutschland erreicht wurden, und setzt sie in Relation zu den Ergebnissen in anderen OECD-Staaten. Der Schwerpunkt der Erhebungen und Auswertungen liegt dabei auf den Naturwissenschaften. PISA 2015 bildet als sechste Erhebungsrunde des Programme for International Student Assessment der OECD zugleich den Abschluss des zweiten Zyklus der Studie und den Beginn der computerbasierten Testung. Unter Beibehaltung wesentlicher Standards der Datenerhebung und -auswertung wurden in PISA 2015 mit dem Erhebungsmodus am Computer, einem differenzierteren Skalierungsmodell und einem erweiterten Testdesign mehrere Neuerungen eingeführt. Sie tragen Veränderungen in der Lern- und Lebenswelt Rechnung und werden die Aussagekraft der PISA-Studien auf lange Sicht verbessern. Mit Blick auf diese Balance zwischen Kontinuität und Innovation werden die Befunde aus PISA 2015 in diesem Band eingeordnet und diskutiert. (DIPF/Verlag)
DIPF-Abteilung: Bildungsqualität und Evaluation

Individual differences in moral development. Does intelligence really affect children's moral […] Beißert, Hanna M.; Hasselhorn, Marcus Zeitschriftenbeitrag | In: Frontiers in Psychology | 2016 36865 Endnote: Autor*innen: Beißert, Hanna M.; Hasselhorn, Marcus
Titel: Individual differences in moral development. Does intelligence really affect children's moral reasoning and moral emotions?
In: Frontiers in Psychology, (2016) , S. 7:1961
DOI: 10.3389/fpsyg.2016.01961
URL: http://journal.frontiersin.org/article/10.3389/fpsyg.2016.01961/full?&utm_source=Email_to_authors_&utm_medium=Email&utm_content=T1_11.5e1_author&utm_campaign=Email_publication&field=&journalName=Frontiers_in_Psychology&id=223508
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Deutschland; Einflussfaktor; Emotionale Entwicklung; Empirische Untersuchung; Grundschulalter; Intelligenz; Intelligenzmessung; Intelligenztest; Interview; Kind; Kognitive Entwicklung; Moral; Reliabilität; Urteilsbildung
Abstract (english): This study investigates the relationship between intelligence and individual differences in children's moral development across a range of different moral transgressions. Taking up prior research that showed morality and intelligence to be related in adolescents and adults, the current study wants to test if these findings can be extended to younger children. The study was designed to address some of the shortcomings in prior research by examining young children aged between 6 years; 4 months and 8 years; 10 months, using a broad concept of moral development including emotional aspects and applying an approach that is closely connected to children's daily lives. Participants (N = 129) completed a standardized intelligence test and were presented four moral transgression stories to assess moral development. Results demonstrated that findings from prior research with adolescents or adults cannot simply be extended to younger participants. No significant correlations of moral development and intelligence were found for any of the presented stories. This provides first evidence that - at least in middle childhood - moral developmental status seems to be independent from children's general intelligence assessed by figural inductive reasoning tests. (DIPF/Orig.)
DIPF-Abteilung: Bildung und Entwicklung

Comparing C-tests and Yes/No vocabulary size tests as predictors of receptive language skills Harsch, Claudia; Hartig, Johannes Zeitschriftenbeitrag | In: Language Testing | 2016 35732 Endnote: Autor*innen: Harsch, Claudia; Hartig, Johannes
Titel: Comparing C-tests and Yes/No vocabulary size tests as predictors of receptive language skills
In: Language Testing, 33 (2016) 4, S. 555-575
DOI: 10.1177/0265532215594642
URN: urn:nbn:de:0111-pedocs-125709
URL: https://nbn-resolving.org/urn:nbn:de:0111-pedocs-125709
Dokumenttyp: 3a. Beiträge in begutachteten Zeitschriften; Aufsatz (keine besondere Kategorie)
Sprache: Englisch
Schlagwörter: Deutschland; Einstufung; Hörverstehen; Leseverstehen; Methode; Prognostischer Test; Regressionsanalyse; Reliabilität; Schüler; Sekundarbereich; Sprachtest; Strukturgleichungsmodell; Test; Testkonstruktion; Testverfahren; Validität
Abstract (english): Placement and screening tests serve important functions, not only with regard to placing learners at appropriate levels of language courses but also with a view to maximizing the effectiveness of administering test batteries. We examined two widely reported formats suitable for these purposes, the discrete decontextualized Yes/No vocabulary test and the embedded contextualized C-test format, in order to determine which format can explain more variance in measures of listening and reading comprehension. Our data stem from a large-scale assessment with over 3000 students in the German secondary educational context; the four measures relevant to our study were administered to a subsample of 559 students. Using regression analysis on observed scores and SEM on a latent level, we found that the C-test outperforms the Yes/No format in both methodological approaches. The contextualized nature of the C-test seems to be able to explain large amounts of variance in measures of receptive language skills. The C-test, being a reliable, economical and robust measure, appears to be an ideal candidate for placement and screening purposes. In a side-line of our study, we also explored different scoring approaches for the Yes-No format. We found that using the hit rate and the false-alarm rate as two separate indicators yielded the most reliable results. These indicators can be interpreted as measures for vocabulary breadth and as guessing factors respectively, and they allow controlling for guessing. (DIPF/Orig.)
DIPF-Abteilung: Bildungsqualität und Evaluation