La ley de los grandes números establece que la media de los resultados obtenidos a partir de un gran número de intentos debe estar cerca del valor esperado, y tenderá a estar más cerca a medida que se realizan más intentos.
El capítulo 10 de Pensar rápido, pensar despacio, de Daniel Kahneman, pone de relieve la que sería su contraparte, la ley de los pequeños números:
Un estudio sobre la incidencia de cáncer renal en los 3.141 condados de Estados Unidos revela una pauta sorprendente. Los condados en los que la incidencia de cáncer renal es más baja son en su mayoría rurales, con escasa densidad de población y pertenecientes a estados tradicionalmente republicanos del Medio Oeste, el Sur y el Oeste. ¿Qué se puede pensar de esto?
Cualquiera pensaría que la vida sana propia de la forma rural, sin contaminación y con acceso a alimentos sin aditivos es la causa de la baja incidencia del cáncer renal… y cualquiera se equivocaría.
Consideremos ahora los condados en los que la incidencia de cáncer renal es más alta. Estos condados tienden a ser en su mayoría rurales, con escasa densidad de población y pertenecientes a estados tradicionalmente republicanos del Medio Oeste, el Sur y el Oeste.
La explicación contraria también podría darla cualquiera: la pobreza, la ausencia de una buena atención médica, una dieta rica en grasas y un exceso de licor y cigarrillos podría explicarlo. Y, de nuevo, se equivocaría.
Volvemos con Kahneman:
Sin duda algo está mal aquí. La vida rural no puede explicar tanto la incidencia alta como la incidencia baja de cáncer renal.
El factor clave no es que los condados sean rurales o predominantemente republicanos. Es que los condados rurales tienen escasa población. Y la principal lección que hemos de aprender no es de epidemiología sino sobre la difícil relación que existe entre nuestra mente y la estadística.
La ley de los pequeños números, entonces, se puede definir así:
[L]os resultados extremos (altos y bajos) son más probables en muestras pequeñas que en muestras grandes.
De ahí la importancia de que cualquier muestra sea estadísticamente relevante y representativa.
Inferir una relación a partir de una pequeña muestra (que perfectamente puede ser azarosa) puede costarle muy caro a alguien, como explica Kahneman al final del capítulo, cuando explica un divertido artículo de Howard Wainer y Harris Zwerling:
Su ensayo se centraba en el caso de una gran inversión, de 1.700 millones de dólares, que la Fundación Gates hizo para seguir indagando en las características de los colegios que ofrecen mejor educación. Muchos investigadores han buscado el secreto del éxito en la educación identificando los mejores colegios con la esperanza de descubrir lo que los distingue de los demás. Una de las conclusiones del estudio era que la mayoría de estos colegios son, de promedio, pequeños. En un estudio de 1.662 colegios de Pensilvania, por ejemplo, 6 de los 50 mejores eran pequeños, lo que supone una sobrerrepresentación en factor de 4. Estos datos animaron a la Fundación Gates a hacer sustanciales inversiones en la creación de pequeños colegios, en ocasiones dividiendo colegios grandes en unidades más pequeñas. Al menos la mitad de una docena de otras instituciones destacadas, como la Fundación Annenberg y la Pew Charitable Trust, se unieron al esfuerzo, al igual que el programa de pequeñas comunidades educativas del Departamento de Educación de Estados Unidos.
Esto seguramente tendrá para muchos su sentido intuitivo. Es fácil construir una historia causal que explique por qué los colegios pequeños son capaces de proporcionar una educación mejor y formar colegiales de alto rendimiento, dándoles más atención personal y estímulo del que recibirían en los colegios grandes. Desafortunadamente, el análisis causal es inútil porque los hechos son falsos. Si los estadísticos que informaron a la Fundación Gates se hubieran preguntado por las características de los peores colegios, habrían encontrado que los malos colegios también tienden a ser más pequeños que la media. La verdad es que los colegios pequeños no son mejores por término medio; son simplemente más variables. Los colegios grandes, dicen Wainer y Zwerling, tienden a arrojar mejores resultados, especialmente en los grados superiores, donde se da una notable variedad de opciones curriculares.
Kahneman saca dos conclusiones pertinentes:
• Prestamos más atención al contenido de los mensajes que a la información sobre su fiabilidad, y como resultado terminamos adoptando una visión más simple del mundo (y que hallamos más coherente), de lo que justifican los datos.
• La estadística arroja muchas observaciones que parecen pedir explicaciones causales, pero que ellas mismas no nos guían hacia tales explicaciones.