Modelo difuso para la evaluación por pares

Bowen Mendoza, Lorena EliZabeth

Modelo difuso para la evaluación por pares

Bowen Mendoza, Lorena EliZabeth

Dirigida por:

Sebastián Ventura Soto Director/a
Jaime Alcides Meza Hornaza Codirector/a

Universidad de defensa: Universidad de Córdoba (ESP)

Fecha de defensa: 05 de julio de 2023

Tribunal:

María José del Jesús Díaz Presidente/a
José María Luna Ariza Secretario/a
José María Moyano Murillo Vocal

Tipo: Tesis

Teseo: 818582 DIALNET Helvia editor

Resumen

1. Introducción o motivación de la tesis: La evaluación del estudiante ha avanzado desde la prueba tradicional del conocimiento hasta la cultura de la evaluación del aprendizaje en parejas, en este tipo de escenarios, los estudiantes tienen un papel activo en los procesos de valoración. La evaluación del aprendizaje en pareja ha tomado énfasis desde sus inicios, tomando en consideración que el estudiante debe realizar juicios y comentarios sobre el trabajo de sus compañeros. Al inicio para su aplicación se utilizó métodos manuales y de manera presencial, con el desarrollo de la Tecnología de la Información y Comunicación (TIC) estos métodos fueron innovándose, convirtiéndolos en un medio de soporte que ayude al docente en los procesos de enseñanza-aprendizaje. La evolución de la evaluación por pares se ha visto reflejada en múltiples investigaciones donde se han demostrado que proporciona comentarios más formativos a los estudiantes, permitiéndoles ayudar y aprender unos de otros, con la ayuda del uso de rúbricas garantiza al docente la revisión de pares, obteniendo calificaciones numéricas que pueden ser utilizadas para el cálculo de la calificación final. Se deben tener en cuenta que los siguientes problemas son derivados de los procesos de evaluación por pares en la educación superior: Proporcionar a los estudiantes una evaluación oportuna, precisa y significativa de sus asignaciones de cursos, facilitando un sistema de revisión por pares usando rúbricas para evaluar y aportar comentarios. Determinar si el uso de rúbricas en la combinación de la retroalimentación formativa y sumativa en una o dos rondas sería una buena práctica en la evaluación por pares, utilizando una rúbrica para cada ronda, en la primera una rúbrica formativa y en la segunda una rúbrica sumativa. Medir psicológicamente la evaluación por pares, ya que se utilizan números y no se los puede interpretar, utilizando términos lingüísticos subjetivos y difusos para definir los grados de evaluación, se consideraría una forma más natural de realizar. La evaluación del aprendizaje en parejas reclama la selección adecuada de rúbricas que garanticen su contenido, alcance e impacto. Las rúbricas permiten orientar a los estudiantes en su desempeño al conocer los factores que van a ser evaluados. Varios autores coinciden en los factores que determinan la efectividad en la selección de una rúbrica: Uso (evaluación formativa o sumativa), retroalimentación, fiabilidad de la calificación, índice de promoción del aprendizaje, validez y confiabilidad en el contexto de aplicación. Actualmente los docentes tienen accesibilidad a rúbricas diseñadas para diferentes objetivos, algunas se enmarcan en lo que el docente plantea en su proceso de evaluación, permitiendo facilitar su proceso de evaluación por pares. En muchos casos el docente no está seguro de la calidad de la rúbrica que está aplicando, si en verdad permite tener la confiabilidad de las notas emitidas por los estudiantes y docentes, o si tiene la validez de contenido que indique la representatividad de su contenido y el adecuado proceso de desarrollo. El docente se enfrenta al problema de poder seleccionar una rúbrica que sea relevante y de calidad para su proceso entre las diferentes opciones que se han generado, o que el mismo puede crear su propia rúbrica y saber si en verdad es la ideal. Hay que considerar que el docente puede generar su propia rúbrica a partir de sus objetivos a evaluar o que pueda seleccionar alguna existente que cumpla los requisitos. Debe valorar el proceso de verificar la calidad de la rúbrica por medio de la validación de contenido, validez de comprensión y determinar la fiabilidad de la misma, generando información sobre la calidad de las diferentes rúbricas que se han utilizado. Ante la necesidad de seleccionar una rúbrica de calidad entre las diferentes opciones que se le presentan, se hace indispensable el uso de sistemas inteligentes que ayuden al docente en su selección en base a la calidad de la rúbrica. En base a la información no estructurada de los datos de la calidad de la rúbrica, se pueden utilizar las disciplinas de Minería de Datos Educativa (EDM) y el Aprendizaje Automático (ML) que ayuden a realizar este proceso. La EDM permite extraer y analizar los datos utilizados en el área educativa y que se encuentran almacenadas en modernas plataformas de aprendizaje. El ML permite construir modelos en base a los datos observados, permitiendo al computador en base a un conjunto de algoritmos, la capacidad de aprender sin haber sido programados. Por otra parte, los principios difusos presentados por Zadech, (1965) y aplicados en la educación superior por Chang & Chen (2009), y, Chai, Tay, & Lim (2015), hacen prever, que la utilización de la lógica difusa en la resolución de problemas de evaluación por pares, podría convertirse en una estrategia de clasificación eficiente en respuesta a la incertidumbre de estos escenarios. La lógica difusa explora múltiples soluciones en el contexto de toma de decisiones en incertidumbres, siendo uno de los modelos más ampliamente aceptado para la aceptación del razonamiento humano, Las situaciones evidenciadas en el estado de arte dan lugar a la emergencia de crear modelo de clasificación adecuado que apoye la toma de decisiones de los actores en el proceso de evaluación. Inspirado en estos escenarios emerge el problema de investigación: Hipótesis: Existen diferencias en la selección de rúbricas mediante la aplicación de los algoritmos de lógica difusa C-means y los algoritmos K-means y Jerárquica. 2.Contenido de la investigación: Dentro del proceso de enseñanza-aprendizaje se tiene la evaluación que implica diversos mecanismos generados por el docente para su ejecución, como identificar los elementos a evaluar, definir el proceso donde se va a llevar a cabo, recopilar la información y finalmente obtener la valoración de los elementos. El uso de rúbricas en el proceso de evaluación por pares, permite valorar los logros alcanzados por los estudiantes en las diferentes actividades planteadas, pero éstas deben garantizar su validez y fiabilidad para poder ser consideradas como herramientas de apoyo al docente. Esta investigación abordó el tema de un Modelo difuso para la evaluación por pares, con el objetivo principal de desarrollar un modelo de clasificación difuso de evaluación por pares a fin de facilitar la toma de decisiones en la selección adecuada de rúbricas en los procesos de enseñanza aprendizaje de la Educación Superior, mediante la utilización de técnicas avanzadas de minería de datos. Se planteo una metodología con el enfoque investigación-acción (ADR), la cual se realizó en tres iteraciones. En la primera iteración se analizó las tendencias en la selección de rúbricas en el contexto de evaluación por pares, participantes, dominios de aplicación y ambientes de aprendizaje con el fin de analizar el uso de las rúbricas en la evaluación de pares dentro del proceso de aprendizaje. En la segunda iteración se diseñaron los artefactos del modelo de clasificación difuso en la evaluación por pares, para lo cual se analizaron los pasos para el diseño de rúbricas, con el proceso de validez y fiabilidad de la rúbrica. Obteniendo una rúbrica evaluada que reúne los criterios que sustentan la validez de su contenido, la validez de comprensión y la fiabilidad de su consistencia interna. En la tercera iteración se diseñó el modelo de clasificación difuso utilizando minería de datos educativa y aprendizaje automático, mediante la metodología de agrupamiento para definir los clústeres. Luego, mediante la lógica difusa C-means, se determina la selección de rúbrica para evaluación por pares, ayudando al docente en su selección. Para validar la metodología difusa se utilizó datos generados en laboratorio con valores aleatorios, se aplicaron los algoritmos C-means, K-means y Jerárquico. Para comprobar la selección adecuada de los clústeres y la validación del algoritmo difuso, se lo realizó mediante la evaluación interna de los clústeres con el Coeficiente de Silueta (0.2904) y el Coeficiente de Dunn (0.24127). Mediante el índice de Dunn se demostró que el mejor algoritmo es C-means y con el índice de Silueta, que el mejor es K-means. Finalmente, en la aplicación de los tres algoritmos se obtuvieron resultados de similitud estadísticamente significativos para la selección de rúbricas. De acuerdo con el análisis realizado, se concluye que es una herramienta muy importante en la toma de decisiones el uso de las rúbricas en el proceso de evaluación por pares mediante la utilización de la tecnología y TIC. Las rúbricas deben ser de calidad demostrando su validez a través de la correspondencia entre las categorías que la conforman y demostrando su confiabilidad mediante la concordancia entre las calificaciones de los estudiantes y del docente (alfa de Cronbach>0.8). El modelo difuso desarrollado permitió la selección adecuada de los agrupamientos, la selección del clúster donde se encuentran las rúbricas recomendadas, quedando en evidencia que la lógica difusa resulta adecuada en los procesos de selección de rúbricas para evaluación por pares, de igual manera que los algoritmos K-means y Jeráquica. Se espera que este estudio contribuya a la selección de la rúbrica adecuada en el proceso de evaluación por pares, que realiza el docente universitario dentro de su proceso de enseñanza-aprendizaje. 3.Conclusión: A lo largo de esta investigación se ha tratado de dar respuesta a la mayoría de las preguntas que han surgido en esta investigación, estas respuestas se concretan en las siguientes conclusiones, resultados y objetivos cumplidos a lo largo del desarrollo de este trabajo: Revisión bibliográfica. Se realizó una revisión sistemática de los 53 artículos seleccionados de los años 2014 a 2018 y los principales hallazgos se pueden resumir de la siguiente manera: o Se revisó las tendencias de la aplicación de la evaluación por pares en los diferentes dominios de aprendizaje, confirmando que prevalece el dominio de la educación, seguido por el de la informática. Por otro lado, dentro de los otros dominios, ha habido un crecimiento de la investigación en el dominio de la salud o enfermería en las áreas de práctica profesional y trabajo en equipo asistido por tecnología. o El análisis de resultados revela que el uso de rúbricas en los procesos de evaluación por pares está fuertemente relacionado con la tecnología, especialmente con la integración de las TIC y las rúbricas electrónicas que apoyan mejor la toma de decisiones en educación. o La evaluación por pares puede aumentar la participación de los estudiantes al proporcionar retroalimentación entre pares como parte de un proceso de colaboración, y se verificó un número cada vez mayor de artículos relacionados con el modo mixto de retroalimentación (calificaciones de los pares más comentarios de los pares). o Centrarse en explorar el potencial de la nueva educación entre pares basada en una metodología de pares difusa que puede proporcionar evaluaciones relacionadas con las contribuciones de los estudiantes en términos de recomendaciones de palabras; sin embargo, hay pocos estudios actuales que se centren en la evaluación por pares basada en conjuntos borrosos y, por lo tanto, esto debería estudiarse más a fondo. Validación rúbrica. Esta investigación implicó tres objetivos: diseñar una rúbrica adecuada para calificar tareas, preparar la validación de contenido y confiabilidad de la rúbrica por expertos, definir su nivel de importancia y consistencia teórica, y evaluar las tareas realizadas en asignaturas que utilizan guion de programación. o Los ejemplos de tareas de evaluación en el área de informática son relativamente poco comunes, de ahí la necesidad de desarrollar rúbricas específicas para esas tareas. En el proceso de diseño de la rúbrica, uno de los aspectos más complejos fue establecer los criterios a evaluar, quedando la propuesta en cuatro: 1) documento, 2) estructura, 3) proceso y 4) funcionalidad. Se definieron descripciones de los niveles de logro para cada uno de ellos y se analizaron los objetivos de aprendizaje. A través de estos análisis, fue posible definir los niveles. Luego, esta rúbrica se perfeccionó iterativamente a través de pruebas piloto con estudiantes de dos cursos de períodos anteriores. o Un grupo de expertos evaluó la idoneidad y practicidad de los criterios de la rúbrica. La validez de su contenido se estableció mediante observaciones y aportes a su narración y estructura, así como valoraciones de sus elementos en cuatro características: suficiencia, coherencia, pertinencia y claridad. Las valoraciones cualitativas de los expertos fueron positivas; los cambios que solicitaron estaban relacionados con la expresión del lenguaje que podría dar lugar a interpretaciones subjetivas. Se analizaron las sugerencias de los expertos para realizar cambios en el texto de la rúbrica, obteniendo una nueva y mejorada versión. Los resultados del CVR y CVI arrojaron valores máximos de +1, lo que avaló la validación de contenido de la rúbrica para medir las competencias para las que fue creada, considerando que la validación se realizó con cinco expertos. En base a la validación resultante de los contenidos de la rúbrica, se encuentra adecuada. Finalmente, se puede concluir que la rúbrica cumple con los criterios necesarios, sustentando la validez de su contenido, consistencia interna, validación y satisfacción. o También se midió la validez de comprensión de la rúbrica aplicando un cuestionario a los estudiantes para conocer sus percepciones en dos aspectos: validación y satisfacción. Los estudiantes valoraron positivamente los dos aspectos de la rúbrica, como método de preparación y evaluación de las tareas; así, la rúbrica fue comprensible para los estudiantes y les ayudó a entender el método de evaluación. o Finalmente, para estimar la validez de contenido de una rúbrica diseñada, es fundamental considerar métodos cualitativos y cuantitativos, considerando el juicio de expertos para su valoración y cuantificando posteriormente la adecuación de los ítems a través del índice de contenido. Una vez definida la validez de una rúbrica, se debe aplicar a grupos de estudiantes seleccionados estableciendo la confiabilidad de las respuestas a través del alfa de Cronbach. Considerar que la evaluación cumple con los criterios que le permiten sustentar la validez de su contenido, consistencia interna, validación y satisfacción, mejorando los resultados obtenidos por la rúbrica. En conclusión, los resultados de este estudio indican la incidencia de la calidad de una rúbrica en la evaluación por pares; así, la concordancia entre las calificaciones de los estudiantes y del docente (alfa de Cronbach>0.8) indican que se les califica igual. Esto no solo está relacionado con la confiabilidad de la rúbrica sino también con la concordancia entre las categorías de la rúbrica, lo que demuestra su validez. Selección de rúbrica. En esta investigación se propone un nuevo modelo de clasificación difuso para la selección de rúbricas en el proceso de evaluación por pares. El algoritmo propuesto utiliza la selección del número óptimo de aglomeraciones como punto inicial para resolver el problema. Una de las ventajas del algoritmo es que se valida la calidad de agrupamiento, el índice de Dunn y la gráfica de silueta, para evaluar el rendimiento del algoritmo; otra ventaja es que permite diferentes volúmenes de información y formas de grupo con la búsqueda del número de grupos. Una desventaja es que la selección del número óptimo de agrupamiento debe ser ingresado como parámetro, realizando parada en el proceso automático del algoritmo. o El algoritmo propuesto se realizó en conjuntos de datos sintéticos y se comparó con los algoritmos K-means y Jerárquico aglomerativo, los resultados demuestran la similitud de los resultados obtenidos. o Para la realización de los experimentos se utilizó la herramienta de lenguaje R donde se implementaron todos los algoritmos a utilizar (K-means, Jerárquica aglomerativa y C-means), ya que R tiene una gran variedad de paquetes y herramientas que facilitan la aplicación de la metodología y análisis de los datos. De los algoritmos aplicados se extrajeron los resultados de sus experimentaciones donde se incluyen, además de la selección adecuada de los agrupamientos, la selección del clúster donde se encuentran las rúbricas recomendadas, quedando en evidencia la factibilidad que la lógica difusa resultar adecuada en los procesos de selección de rúbricas para evaluación por pares, de igual manera que los algoritmos K-means y Jeráquica. 4. Bibliografía: [1] L. A. Zadeh, ¿Fuzzy Sets,¿ Inf. Control, vol. 8, no. 3, pp. 338¿353, 1965, doi: https://doi.org/10.1016/S0019-9958(65)90241-X. [2] T. Chang and Y. Chen, ¿Cooperative learning in E-learning¿: A peer assessment of student-centered using consistent fuzzy preference,¿ Expert Syst. Appl., vol. 36, no. 4, pp. 8342¿8349, 2009, doi: 10.1016/j.eswa.2008.10.050. [3] K. C. Chai, K. M. Tay, and C. P. Lim, ¿A new fuzzy peer assessment methodology for cooperative learning of students,¿ Appl. Soft Comput. J., vol. 32, pp. 468¿480, 2015, doi: 10.1016/j.asoc.2015.03.056. [4] M. B. Espinoza Fernández, ¿La evaluación de competencias clínicas en estudiantes de enfermería, un nuevo paradigma. Validación de rúbrica,¿ Universitat Jaume I, 2018. [5] Á. Alsina et al., ¿Improving and evaluating reflective narratives¿: A rubric for higher education students,¿ Teach. Teach. Educ., vol. 63, no. 2000, pp. 148¿158, 2017, [Online]. Available: https://doi.org/10.1016/j.tate.2016.12.015%0D. [6] J. Liu et al., ¿Students ¿ learning outcomes and peer rating accuracy in compulsory and voluntary online peer assessment,¿ Assess. Eval. High. Educ., vol. 44, no. 6, pp. 835¿847, 2019, doi: 10.1080/02602938.2018.1542659. [7] E. Panadero and G. T. L. Brown, ¿Teachers ¿ reasons for using peer assessment¿: positive experience predicts use,¿ Eur. J. Psychol. Educ., vol. 32(1), pp. 133¿156, 2016, doi: 10.1007/s10212-015-0282-5. [8] O. Luaces, J. Díez, and A. Bahamonde, ¿A peer assessment method to provide feedback, consistent grading and reduce students¿ burden in massive teaching settings,¿ Comput. Educ., vol. 126, pp. 283¿295, Nov. 2018, doi: 10.1016/j.compedu.2018.07.016. [9] Y. Song, Z. Hu, Y. Guo, and E. F. Gehringer, ¿An experiment with separate formative and summative rubrics in educational peer assessment,¿ Proc. - Front. Educ. Conf. FIE, vol. 2016-Novem, pp. 1¿7, 2016, doi: 10.1109/FIE.2016.7757597. [10] A. Planas Lladó et al., ¿Student perceptions of peer assessment¿: an interdisciplinary study,¿ Assess. Eval. High. Educ., vol. 39(5), no. September, pp. 592¿610, 2014, doi: 10.1080/02602938.2013.860077. [11] E. Panadero and A. Jonsson, ¿The use of scoring rubrics for formative assessment purposes revisited¿: A review,¿ Educ. Res. Rev., vol. 9, pp. 129¿144, 2013, doi: 10.1016/j.edurev.2013.01.002. [12] C. Hastie, K. Fahy, and J. Parratt, ¿The development of a rubric for peer assessment of individual teamwork skills in undergraduate midwifery students,¿ Women and Birth, vol. 27, no. 3, pp. 220¿226, 2014, doi: 10.1016/j.wombi.2014.06.003. [13] A. Jonsson and G. Svingby, ¿The use of scoring rubrics¿: Reliability , validity and educational consequences,¿ Educ. Res. Rev., vol. 2, pp. 130¿144, 2007, doi: 10.1016/j.edurev.2007.05.002.