Detecting differential item functioning in behavioral indicators across parallel forms

  1. Juana Gómez-Benito 1
  2. Nekane Balluerka 2
  3. Andrés González 3
  4. Keith F. Widaman 4
  5. José-Luis Padilla 3
  1. 1 Universitat de Barcelona
    info

    Universitat de Barcelona

    Barcelona, España

    ROR https://ror.org/021018s57

  2. 2 Universidad del País Vasco/Euskal Herriko Unibertsitatea
    info

    Universidad del País Vasco/Euskal Herriko Unibertsitatea

    Lejona, España

    ROR https://ror.org/000xsnr85

  3. 3 Universidad de Granada
    info

    Universidad de Granada

    Granada, España

    ROR https://ror.org/04njjy449

  4. 4 University of California, Riverside
    info

    University of California, Riverside

    Riverside, Estados Unidos

    ROR https://ror.org/03nawhv43

Revista:
Psicothema

ISSN: 0214-9915

Año de publicación: 2017

Volumen: 29

Número: 1

Páginas: 91-95

Tipo: Artículo

DOI: 10.7334/PSICOTHEMA2015.112 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Psicothema

Resumen

. Antecedentes: a pesar de la importancia crucial del concepto de formas paralelas en la Teoría Clásica de los Tests, el grado de paralelismo entre dos formas paralelas no puede comprobarse directamente debido al carácter inobservable de las puntuaciones verdaderas. Nuestra propuesta pretende superar algunas de las limitaciones de los métodos tradicionales utilizando el esquema del Funcionamiento Diferencial del Item. Método: cambiamos el objeto de la comparación de las puntuaciones totales a cada uno de los ítems individuales. Analizamos las puntuaciones de un único grupo de participantes en ítems paralelos diseñados para medir los mismos criterios comportamentales. Ejemplificamos la propuesta con las respuestas de 527 participantes a las dos formas paralelas de la “Attention Deficit-Hyperactivity Disorder Scale” (Caterino, Gómez-Benito, Balluerka, Amador-Campos, & Stock, 2009).Resultados: 12 de los 18 ítems (66,6%) muestran valores de probabilidad asociados con el estadístico Mantel χ2 menores de .01. El procedimiento de Estandarización muestra que la mitad de los ítems con DIF favorecen a la Forma A y la otra mitad a la Forma B. Conclusiones: el procedimiento “differential functioning of behavioral indicators” (DFBI) puede aportar información única sobre el paralelismo entre parejas de ítems complementando el análisis tradicional de la equivalencia de formas paralelas.

Referencias bibliográficas

  • American Educational Research Association, American Psychological Association & National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
  • Ackerman, T. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement, 29(1), 67-91.
  • American Psychiatric Association (2000). Diagnostic and Statistical Manual of Mental Disorders: Fourth Edition Text Revision (DSM-IV- TR). Washington, DC: Author.
  • Caterino, L., Gómez-Benito, J., Balluerka, N., Amador-Campos, J. A., & Stock, W. A. (2009). Development and validation of a scale to assess the symptoms of Attention-Deficit/Hyperactivity Disorder in young adults. Psychological Assessment, 21(2), 152-161.
  • Donoghue, J. R., & Allen, N. L. (1993). Thin versus thick matching in the Mantel-Haenszel procedure for detecting DIF. Journal of Educational Statistics, 18, 131-154.
  • Dorans, N. J., & Holland, P. W. (1993). DIF detection and description: Mantel-Haenszel and standardization. In P. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 35-66). Hillsdale, NJ: Lawrence Erlbaum Associates.
  • Dorans, N. J., & Kulick, E. M. (1986). Demonstrating the utility of the standardization approach to assessing unexpected differential item performance on the Scholastic Aptitude Test. Journal of Educational Measurement, 23, 355-368.
  • Dorans, N. J., & Schmitt, A. P. (1991). Constructed response and differential item functioning: A pragmatic approach. Princeton, NJ: Educational Testing Service.
  • Downing, S. M., & Haladyna, T. M. (2006). Handbook of test development. Mahwah: NJ: Lawrence Erlbaum Associates, Inc.
  • Ferrando, P. J., Lorenzo-Seva, U., & Pallero, R. (2009). Implementación de procedimientos gráficos y analíticos para la construcción de formas paralelas [Implementing graphical and analytical procedures for developing parallel tests]. Psicothema, 21(2), 321-325.
  • González, A., Padilla, J. L., Hidalgo, M. D., Gómez-Benito, J., & Benítez, I. (2011). EASY-DIF: Software for analyzing Differential Item Functioning using the Mantel-Haenszel and Standardization procedures. Applied Psychological Measurement, 35, 483-484.
  • Gulliksen, H. (1950). Theory of mental tests. Hillsdale: Lawrence Erlbaum Associates.
  • Jöreskog, K. G. (1971). Statistical analysis of sets of congeneric test. Psychometrika, 36, 109-133.
  • Holland, P. W., & Thayer, D. T. (1988). Differential item performance and Mantel-Haenszel procedure. In H. Wainer & H. I. Braun (Eds.), Test Validity (pp. 129-145). Hillsdale, N.J.: Erlbaum.
  • Kok, F. (1988). Item bias and test multidimensionality. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 263-274). New York: Plenum Press.
  • Mantel, N. (1963). Chi-square tests with one degree of freedom, extension of the Mantel-Haenszel procedure. American Statistical Association Journal, 58, 690-700.
  • Mantel, N., & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22, 719-748.
  • Martínez, R. J., Moreno, R., Martín, I., & Trigo, M. E. (2009). Evaluation of five guidelines for option development in multiple-choice item- writing. Psicothema, 21, 326-330.
  • Muthén, L. K., & Muthén, B. O. (2014). Mplus user’s guide (7th ed.). Los Angeles, CA: Muthén & Muthén.
  • Nandakumar, R.(1993). Simultaneous DIF Amplification and Cancellation: Shealy-Stout’s Test for DIF. Journal of Educational Measurement, 30(4), 293-311.
  • Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison Wesley.
  • Osterlind, S. J. (1997). Constructing test items: Multiple-Choice, Constructed-Response, Performance, and Other Formats. Boston, MA: Kluwer.
  • Osterlind, S. J., & Everson, H. T. (2009). Differential item functioning (2nd ed.). Thousand Oaks, CA: Sage Publications, Inc.
  • Shealy, R. T., & Stout, W. F. (1993). A model-based standardization approach that separates true bias/DIF from group differences and detects test bias/ DTF as well as item bias/DIF. Psychometrika, 58, 159-194.
  • Sireci, S.G. (2005). Using bilinguals to evaluate the comparability of different language versions of a test. In R. K. Hambleton, P. F. Merenda & C. D. Spielberg (Eds.), Adapting Educational and psychological test for cross-cultural assessment (pp. 117-138). London: Lawrence Erlbaum Associates.
  • Sireci, S.G., & Ríos, J.A. (2013). Decisions that make a difference in detecting differential item functioning. Educational Research and Evaluation, 19, 170-187.
  • Zwick, R., Donoghue, J., & Grima, A. (1993). Assessment of differential item functioning for performance tasks. Journal of Educational Measurement, 30, 233-251.
  • Hidalgo, M. D. & Gómez-Benito, J. (2010). Differential item functioning. In P. Peterson, E. Baker & B. McGaw, (Eds.), International Encyclopedia of Education. Volume 4 (pp. 36-44). Oxford: Elsevier.