Mejoras en los resultados de las pruebas de diagnóstico asociadas a la adopción del programa Science Bits
Un nuevo estudio sugiere que el proyecto educativo Science Bits contribuye a mejorar los resultados de las pruebas oficiales de diagnóstico de ciencias en Secundaria. Los centros que adoptaron los materiales de Science Bits del 2019 al 2023 han mostrado mayores avances en las competencias científicas de sus estudiantes.
27 de mayo de 2024
- El estudio se basa en comparar la evolución de 22 centros que adoptaron Science Bits en 2019 (grupo experimental) y 22 centros que no lo adoptaron (grupo control) a partir de las pruebas oficiales de diagnóstico de 4.º de ESO (Secundaria) entre los años 2019 y 2023.
- Los dos grupos de centros partían de los mismos resultados en ciencias en 2019 e incluyen la misma proporción de centros públicos y privados, y un número de alumnos similar.
- Los centros del grupo experimental han experimentado una mejora en ciencias superior a la del grupo control, mientras que los dos grupos muestran las mismas variaciones en matemáticas, catalán, castellano e inglés.
- Si ordenamos los centros en un ránking según los resultados de ciencias, los dos grupos parten de una posición media muy similar en 2019 (530 vs. 535); pero en 2023 el grupo experimental sube 35 posiciones, mientras que el grupo control cae más de 60 posiciones.
- Al replicar el estudio con 22 centros más que incorporaron Science Bits en 2018, se obtienen los mismos resultados.
En la ISTF tenemos la misión de transferir la investigación sobre cómo aprenden las personas a la educación con el objetivo de promover una práctica educativa informada por la evidencia. Por eso, entre otras cosas, diseñamos materiales educativos sobre la base de la investigación en didáctica y psicología del aprendizaje; pero también los ponemos a prueba periódicamente y evaluamos su impacto en el aula. Para tal fin, colaboramos con investigadores de centros de investigación como la Universidad de Barcelona, la Universidad Autónoma de Madrid, la Universidad de Granada, la Universidad de Zaragoza, la Universidad Rovira i Virgili, la Johns Hopkins University y los American Institutes for Research.
En un artículo anterior publicado en 2021 en la revista International Journal of Science Education ya presentamos un estudio que aportaba evidencias sobre la contribución del programa Science Bits (un proyecto educativo para la enseñanza de las ciencias en la Secundaria adoptado por centenares de centros en España) a la mejora de los aprendizajes conceptuales (Garcia Grau et al., 2021). El estudio ponía de manifiesto mejoras relevantes en los aprendizajes conceptuales del alumnado de 3.º y 4.º de ESO (Secundaria) en dos centros que habían introducido Science Bits durante cuatro años, mientras que no se producían cambios significativos en los resultados de otros dos centros, del mismo nivel socioeconómico, que no introdujeron el programa. Dado que no se registraron otras novedades relevantes en los centros participantes durante los cuatro años que duró el estudio, esto sugería que la introducción de Science Bits podía haber contribuido a esta mejora. En aquella ocasión, usamos unas pruebas de evaluación diseñadas por los investigadores, centradas en la capacidad de aplicar ideas científicas fundamentales y poner de manifiesto concepciones erróneas habituales. A pesar de que aquel estudio resultaba informativo y aportaba evidencias sobre el impacto de Science Bits, el reducido tamaño de la muestra y el hecho de que la prueba de evaluación no fuera estandarizada limitaban las conclusiones.
Un análisis basado en las pruebas de diagnóstico oficiales
Hoy os presentamos un estudio en que hemos analizado la evolución de todos los centros de Cataluña que incorporaron Science Bits en el curso 2019-2020 en todas las asignaturas de ciencias (Biología y Geología, Física y Química) de todos los niveles de Secundaria, y que han mantenido el programa en todos estos cursos hasta hoy, en comparación con la evolución de una muestra aleatoria de un número de centros equivalente que nunca ha usado Science Bits. En esta ocasión, los resultados que hemos comparado son los obtenidos en las pruebas de diagnóstico oficiales (pruebas de competencias) que cada año administra el Departamento de Educación de la Generalitat de Cataluña al alumnado de 4.º de ESO (último curso de Secundaria en España), concretamente, los resultados de 2019 versus los de 2023. Precisamente, hemos escogido los centros que incorporaron Science Bits en el curso 2019 para apreciar las diferencias en los resultados entre el alumnado que nunca había usado Science Bits (y que hizo las pruebas de diagnóstico en abril de 2019) y el alumnado que lo usó durante los cuatro años de la ESO (y que hizo las pruebas de diagnóstico en abril de 2023). Los resultados de las pruebas de diagnóstico oficiales proporciona una medida externa a los investigadores que hace más objetivo el análisis del impacto del programa en los aprendizajes.
En total, son 22 centros los que cumplen la condición en lo referente al uso de Science Bits (grupo experimental). A continuación, seleccionamos otros 22 centros aleatoriamente entre aquellos que nunca han usado el programa para establecer un grupo control, y procedemos al análisis comparativo de sus resultados en las pruebas de diagnóstico. Las características de ambos grupos se detallan en la tabla siguiente (tabla 1):
Grupo experimental | Grupo control |
Número de centros: 22 | Número de centros: 22 |
Centros públicos: 12 | Centros públicos: 10 |
Centros de alta complejidad: 0 | Centros de alta complejidad: 0 |
Alumnado total en 4.º de ESO en 2019*: 1390 | Alumnado total en 4.º de ESO en 2019*: 1378 |
Alumnado total en 4.º de ESO en 2023*: 1604 | Alumnado total en 4.º de ESO en 2023*: 1384 |
*Incluimos el número de alumnos con el objetivo de mostrar que el tamaño de los centros en cada grupo es similar. El análisis, sin embargo, no se hace por alumnos sino a partir de la media de cada centro en los resultados de las pruebas de evaluación.
En primer lugar, nos aseguramos de la aleatoriedad de la muestra realizando una prueba Z, la cual confirma que tanto el grupo experimental (SB) como el grupo control (NO-SB) se pueden considerar muestras aleatorias de la población formada por todos los centros de Cataluña, en relación con las pruebas de diagnóstico de ciencias de 2019. De hecho, una prueba T de muestras independientes ratifica que no hay diferencias estadísticamente significativas entre los resultados de ambos grupos en estas pruebas, es decir, que parten del mismo resultado en 2019.
Las medias de cada grupo en los resultados de las pruebas de diagnóstico en 2019 y en 2023 son las siguientes:
Materia | 2019 | 2023 | Diferencia | |||
NO-SB | SB | NO-SB | SB | NO-SB | SB | |
Ciencias | 66,73 | 67,17 | 68,06 | 70,78 | 1,33 | 3,65 |
Matemáticas | 68,36 | 69,80 | 64,75 | 66,10 | −3,61 | −3,70 |
Catalán | 77,54 | 79,34 | 73,59 | 74,68 | −3,95 | −4,65 |
Castellano | 79,41 | 79,60 | 73,30 | 73,51 | −6,11 | −6,09 |
Inglés | 74,53 | 76,25 | 74,79 | 75,99 | 0,25 | −0,26 |
Materia | 2019 | 2023 | Diferencia | |||
NO-SB | SB | NO-SB | SB | NO-SB | SB | |
Ciencias | 66,73 | 67,17 | 68,06 | 70,78 | 1,33 | 3,65 |
Matemáticas | 68,36 | 69,80 | 64,75 | 66,10 | −3,61 | −3,70 |
Catalán | 77,54 | 79,34 | 73,59 | 74,68 | −3,95 | −4,65 |
Castellano | 79,41 | 79,60 | 73,30 | 73,51 | −6,11 | −6,09 |
Inglés | 74,53 | 76,25 | 74,79 | 75,99 | 0,25 | −0,26 |
A continuación, realizamos una prueba T de muestras emparejadas para comparar los resultados de cada centro en 2019 y en 2023, y para averiguar si se han producido diferencias significativas. Los resultados se presentan en la tabla siguiente (tabla 3):
Medida 2023 vs 2019 | T | df | p* | d de Cohen** |
Ciencias SB | 4,488 | 21 | 2,021e-4 | 0,957 |
Ciencias NO-SB | 1,597 | 21 | 0,125 | 0,341 |
Matemáticas SB | −3,246 | 21 | 0,004 | −0,692 |
Matemáticas NO-SB | −4,785 | 21 | 9,981e-5 | −1,020 |
Catalán SB | −4,542 | 21 | 1,778e-4 | −0,968 |
Catalán NO-SB | −5,892 | 21 | 7,547e-6 | −1,256 |
Castellano SB | −6,474 | 21 | 2,048e-6 | −1,380 |
Castellano NO-SB | −9,005 | 21 | 1,175e-8 | −1,920 |
Inglés SB | −0,233 | 21 | 0,818 | −0,050 |
Inglés NO-SB | 0,278 | 21 | 0,784 | 0,059 |
*Un valor p menor de 0,05 quiere decir que la diferencia en los resultados entre 2019 y 2023 es estadísticamente significativa.
**La d de Cohen indica el tamaño de la diferencia en número de desviaciones estándares. Si es positiva, indica que ha habido una mejora entre 2019 y 2023, y si es negativa, un empeoramiento.
Nota: Un test de normalidad (Shapiro-Wilk) corrobora que todas las muestras siguen una distribución normal, lo cual permite aplicar el test T con garantías.
Los resultados siguen avalando la eficacia de Science Bits
Los datos revelan que los centros experimentales presentan una mejora en los resultados de ciencias de 3,61 puntos, mientras que en los centros control la mejora es de 1,32 puntos (tabla 2). No obstante, el análisis estadístico nos indica que solo la diferencia en el grupo experimental es significativa (no la explicaría el azar, excepto en el 0,02% de las ocasiones), mientras que la diferencia del grupo control no lo es: se podría deber al azar (tabla 3). En cualquier caso, no sería extraño que ambos grupos mostraran diferencias entre 2019 y 2023 (como los resultados en las otras asignaturas reflejan). Al fin y al cabo, las diferencias entre un año y el otro se podrían deber a otros factores, como el hecho de que las pruebas de diagnóstico son diferentes y el alumnado también. Aun así, estas diferencias serían comunes a ambos grupos de centros, de manera que la mejora tres veces superior del grupo experimental respecto al control no se podría atribuir a estos factores, sino a un factor diferencial del primer grupo respecto al segundo. Puesto que la única variable que sabemos que distingue todos los centros del grupo experimental de todos los centros del grupo control es el uso del programa Science Bits, podemos considerar que estos resultados sugieren que la diferencia observada está relacionada con el uso de estos materiales.
Precisamente, realizar una comparativa de los resultados en las otras materias resulta muy informativo para descartar la posibilidad de que otros factores, como por ejemplo diferencias en la habilidad académica del alumnado de 2019 y 2023, se encuentren detrás de la diferencia en los resultados de ciencias. En este sentido, la tabla 3 nos muestra que las diferencias en los resultados de las otras materias fueron muy similares en ambos grupos, tanto en lenguas (con decrecimientos muy parecidos en catalán y castellano, y sin cambios en inglés) como en matemáticas. Merece la pena destacar el hecho de que en esta última materia la diferencia de resultados entre los dos grupos fue prácticamente la misma: un decrecimiento del alrededor de 3,6 puntos entre 2019 y 2023. Esto pone todavía más énfasis en un factor diferencial entre el grupo control y el grupo experimental que habría provocado las diferencias en la evolución de la materia de ciencias específicamente.
Todavía podemos profundizar algo más en el análisis y comparar estadísticamente las diferencias del grupo control y del grupo experimental, aplicando un test T de grupos independientes en que comparamos los cambios experimentados por los centros educativos en los resultados de 2019 y 2023. Los resultados se muestran a continuación:
T | df | p* | d de Cohen** | |
Dif. ciencias | −1,975 | 42 | 0,055 | −0,596 |
Dif. catalán | 0,066 | 42 | 0,948 | 0,020 |
Dif. castellano | 0,574 | 42 | 0,569 | 0,173 |
Dif. matemáticas | −0,020 | 42 | 0,984 | −0,006 |
Dif. inglés | 0,356 | 42 | 0,724 | 0,107 |
*Un valor p mayor de 0,05 quiere decir que las diferencias en las calificaciones obtenidas por los centros de cada grupo en las pruebas de diagnóstico pueden considerarse equivalentes.
**La d de Cohen indica en qué medida se distancian las diferencias en las calificaciones de cada materia, del grupo control respecto al experimental (cuando es negativa indica que la mejora del grupo experimental ha sido mayor).
Como se puede observar en la tabla 4, las diferencias observadas en los dos grupos de centros entre 2019 y 2023 se pueden considerar equivalentes en catalán, castellano, matemáticas e inglés. En cuanto a las ciencias, la diferencia está rozando la significación estadística (que se da, según el criterio que hemos asumido, cuando el valor p es inferior a 0,05). Esto quiere decir que hay una probabilidad del 94,5% de que la evolución del grupo experimental en ciencias sea efectivamente diferente (y en este caso, superior) a la del grupo control. De hecho, el tamaño del efecto, expresado por la d de Cohen es claramente relevante, del orden de d=0,596. Es decir, que la diferencia entre 2019 y 2023 lograda por los centros experimentales es 0,596 desviaciones estándares mayor que la lograda por los centros del grupo control. Esta diferencia puede considerarse muy relevante en el ámbito de las intervenciones educativas (Funder y Ozer, 2019).
Otro dato muy significativo que se obtiene al comparar el grupo experimental y el grupo control es el cambio de posición en el ránking de todos los centros en cuanto a los resultados de ciencias en las pruebas de competencias (tabla 5). Si ordenamos todos los centros educativos de Cataluña que imparten la ESO en orden descendente según sus resultados en ciencias (es decir, la primera posición para el centro con mejores resultados), la posición media de los centros del grupo experimental en 2019 es la 535, muy próxima a la del grupo control, 530. Sin embargo, la posición de los centros control baja hasta la 599 en 2023, mientras que la posición de los centros experimentales sube hasta la 500.
2019 | 2023 | |
Grupo control | Posición 530 | Posición 599 |
Grupo experimental | Posición 535 | Posición 500 |
El hecho de que el grupo control haya perdido tantas posiciones en el ránking hace sospechar, entre otros motivos, que no solo las haya cedido a los centros del grupo experimental considerado, sino también a otros centros que también adoptaron el programa Science Bits en años anteriores o posteriores a 2019. Por este motivo, a continuación replicamos el análisis del grupo experimental considerando los centros que en 2018 incorporaron Science Bits y que lo han usado en todos los cursos hasta la actualidad. Este segundo grupo experimental está formado también por 22 centros y tiene las características siguientes (tabla 6):
Grupo experimental 2 (adoptan SB en 2018) |
Número de centros: 22 |
Centros públicos: 12 |
Centros de alta complejidad: 0 |
Alumnado total de 4.º de ESO en 2019: 1198 |
Alumnado total de 4.º de ESO en 2023: 1334 |
En cuanto a los resultados de este grupo en las pruebas de competencias de 2019 y 2023, los datos se presentan en la tabla 7:
Materia | 2019 | 2023 | Diferencia |
Ciencias | 67,64 | 72,00 | 4,36 |
Matemáticas | 78,96 | 74,55 | −4,41 |
Catalán | 80,27 | 74,35 | −5,92 |
Castellano | 69,84 | 66,36 | −3,48 |
Inglés | 76,71 | 76,24 | −0,47 |
La prueba T de muestras emparejadas que compara los resultados de estos centros entre 2019 y 2023 ofrece resultados muy similares a los del grupo experimental anterior, y presentan una mejora en los resultados de ciencias del doble del grupo control, mientras que no se dan diferencias en las otras materias (hecho comprobado también con un test T de datos independientes):
Medida 2023 vs. 2019 | T | df | *p | **d de Cohen |
Ciencias | 2,946 | 21 | 0,008 | 0,628 |
Catalán | −4,669 | 21 | 1,313e-4 | −0,996 |
Castellano | −6,566 | 21 | 1,674e-6 | −1,400 |
Matemáticas | −2,550 | 21 | 0,019 | −0,544 |
Inglés | −0,298 | 21 | 0,768 | −0,064 |
*Un valor p menor de 0,05 quiere decir que la diferencia en los resultados entre 2019 y 2023 es estadísticamente significativa.
**La d de Cohen indica el tamaño de la diferencia en número de desviaciones estándares. Si es positiva, indica que ha habido una mejora entre 2019 y 2023, y si es negativa, un empeoramiento.
Nota: Un test de normalidad (Shapiro-Wilk) corrobora que la muestra sigue una distribución normal, lo cual posibilita aplicar el test T con garantías.
En cuanto a su evolución en el ránking, estos centros del segundo grupo experimental también escalan posiciones, de la 480 a la 454, lo que corrobora la tendencia al alza de los centros experimentales y apoya las sospechas en relación con la caída de posiciones del grupo control en favor de los centros de los grupos experimentales.
En definitiva, este análisis nos proporciona evidencias sólidas de que el programa Science Bits contribuye a mejorar los resultados en las pruebas oficiales de diagnóstico de 4.º de ESO. Según la investigación previa en el ámbito de la didáctica de las ciencias, esto no debería sorprendernos, puesto que los programas que proporcionan actividades diseñadas cuidadosamente para superar concepciones erróneas y lograr un aprendizaje con comprensión (y no únicamente contenidos explicativos y ejercicios), y que emplean el entorno digital de manera eficiente (proporcionando material multimedia de calidad, interactividad —como simuladores de laboratorio—, feedback e información para el profesorado sobre el logro del alumnado) han mostrado frecuentemente su superioridad respecto a materiales educativos convencionales, como por ejemplo los libros de texto tradicionales (Cheung et al., 2017; Roblin et al., 2018).
Así mismo, el modelo de enseñanza y aprendizaje en que se basa Science Bits, el modelo 5E, cuenta con numerosas evidencias en cuanto a su impacto en la mejora de la comprensión de las ideas científicas, la disminución de concepciones erróneas, el logro académico y mejoras en el interés del alumnado por la ciencia (incluyendo la elección de carreras científicas), su confianza en relación con el aprendizaje de la ciencia y sus actitudes hacia esta área del conocimiento (Bybee et al, 2006; Bybee, 2015). Cabe decir que a pesar de que este análisis se centra en comprobar el impacto del programa en los aprendizajes competenciales, también resulta importante valorar un material educativo por cómo contribuye a promover el interés por la ciencia.
Referencias:
- Bybee, R. W., Taylor, J. A., Gardner, A., Van Scotter, P., Powell, J. C., Westbrook, A., y Landes, N. (2006). The BSCS 5E instructional model: Origins and effectiveness. Colorado Springs, EE.UU.: BSCS.
- Bybee, R. W. (2015). The BSCS 5E instructional model: Creating teachable moments. Arlington, EE.UU.: NSTA Press.
- Cheung, A., Slavin, R. E., Kim, E., y Lake, C. (2017). Effective secondary science programs: A best‐evidence synthesis. Journal of Research in Science Teaching, 54(1), 58-81.
- Funder, D. C., y Ozer, D. J. (2019). Evaluating effect size in psychological research: Sense and nonsense. Advances in Methods and Practices in Psychological Science, 2(2), 156-168.
- Garcia Grau, F., Valls, C., Piqué, N., y Ruiz-Martín, H. (2021). The long-term effects of introducing the 5E model of instruction donde students’ conceptual learning. International Journal of Science Education, 43(9), 1441-1458
- Roblin, N. P., Schunn, C., y McKenney, S. (2018). What are critical features of science currículum materials that impact student and teacher outcomes?. Science Education, 102(2), 260-282.
¿Quieres aprender más sobre educación basada en la evidencia científica?
La International Science Teaching Foundation (ISTF) es una organización sin ánimo de lucro con sede en Londres, Reino Unido. Somos una entidad global comprometida con la mejora de la enseñanza de las materias STEM a escala planetaria. Colaboramos con docentes y educadores expertos en las materias científico-tecnológicas con diferentes bagajes. Nuestra intención es crear una comunidad internacional de profesionales de la educación STEM con dedicación activa y compromiso.
Deja una respuesta