El uso de herramientas sociales -redes como Twitter o buscadores como Google- para predecir el comportamiento de las masas se está desarrollando cada vez más en nuestros días. Empezó siendo una serie de experimentos en el ámbito académico pero ya se está trabajando con ellas desde numerosas empresas y organismos para aprovechar toda la sabiduría del big data: millones de internautas haciendo lo mismo a la vez tiene que indicar algo.
El problema es calibrar, ajustar lo que verdaderamente significa una avalancha de tuits o de búsquedas en un sentido, en un momento, en un lugar. La última herramienta en sumarse a la fiesta de los datos sociales ha sido la Wikipedia, después de que unos investigadores de la Escuela Médica de Harvard hayan determinado que su uso es capaz de predecir con precisión, en tiempo real, la llegada de los brotes de gripe en EEUU.
Dado que esta enciclopedia online está muy presente en nuestras vidas, parece lógico pensar que determinados picos o tendencias de uso pueden suponer que cuando el río suena, agua lleva. No en vano, la Wikipedia es ya la primera fuente de información médica entre los pacientes y los propios trabajadores sanitarios. Si en un determinado día se disparan significativamente las búsquedas sobre una dolencia contagiosa, esto debe suponer que hay una epidemia gestándose.
Los investigadores David McIver y John Brownstein se centraron en las visitas que recibieron 35 entradas de la Wikipedia en inglés relacionadas con la gripe: desde "resfriado común" hasta "fiebre" pasando por todas las variedades del virus conocidas (H1N1, H5N1, etc.) y remedios como el Tamiflu. Recogieron información de 294 semanas en las que, de media, se realizaban unas 30.000 consultas diarias, con picos de 334.000 visitas. Y cruzaron los datos con las estadísticas de los Centros para el Control y la Prevención de Enfermedades de EEUU (CDC): descubrieron que podían predecir con precisión el número de casos de gripe con una diferencia de apenas el 0,27% con respecto a los datos oficiales.
Y, lo más importante, podían ofrecer estos datos casi en tiempo real: dos semanas antes que las autoridades médicas, que tardan ese tiempo en elaborar sus predicciones a partir de sus sistemas propios de información. Todo gracias a que Wikipedia permite que se consulten las estadísticas de uso de cada entrada, y las actualiza a diario, lo que ofrece infinidad de datos a los investigadores que quieran usarlos.
"La principal ventaja de los datos de Wikipedia es que son completamente abiertos y para todos, por lo que cualquier persona puede crear sus propios modelos o mejorar el nuestro", explica a Materia David McIver, en referencia a Google Flu Trends (GFT), la herramienta que desarrolló el buscador para predecir los brotes de gripe y que ha generado un intenso debate académico tras comenzar a fallar. Los datos que usa Google solo los conocen ellos y los de la Wikipedia son de libre acceso, lo que permite hacer ciencia con ellos: reutilizarlos cuantas veces sea necesario para replicar resultados o mejorar los de otros.
Más fiable que Google
Uno de los puntos flacos de GFT era que se mostraba muy sensible a la influencia de los medios: las búsquedas relacionadas con la gripe no son únicamente personales, sino también influidas por el tsunami informativo, como en el caso de pandemias globales que ocupan portadas y telediarios. "Nuestro modelo ha demostrado que durante momentos de gran atención mediática, como la pandemia de la gripe porcina H1N1, los 35 artículos de la Wikipedia que estudiamos tuvieron mucho éxito a la hora de calcular de forma precisa las afecciones de gripe en esos momentos", asegura McIver.
Hasta ahora, las búsquedas en la Wikipedia han servido para tratar de hacer muchos tipos de predicciones, como por ejemplo los éxitos de taquilla midiendo la actividad en la entrada de una determinada película a punto de estrenarse. No obstante, en el caso de la gripe tiene una pega importante: no se puede localizar geográficamente la incidencia de la enfermedad. Google no hacía públicos sus datos, pero sabemos que usa las direcciones IP de los ordenadores de los usuarios para realizar predicciones específicas por países y regiones.
Si muchos usuarios consultan el artículo en alemán de una película de estreno en la Wikipedia, podemos suponer que tendrá éxito en Alemania. Pero cuando se trata de idiomas mucho más repartidos por el mundo, como el inglés o el español, las predicciones se complican. Estos investigadores de Harvard reconocen abiertamente que es una pega importante, y aún así consiguieron que su modelo de la gripe funcionara a pesar de que el 59% de las consultas de los artículos en inglés se realizan desde fuera de EEUU (11% desde el Reino Unido).
Las flaquezas de la Wikipedia
Por esta razón, ya se han realizado con relativo éxito distintos experimentos usando la red social Twitter, porque permite geolocalizar los mensajes, para predecir epidemias en tiempo real en lugares concretos al hacer un seguimiento de expresiones como "medicina", "fiebre" o "tos".
Por otro lado, los artículos de la Wikipedia no se libran de la influencia de la agenda informativa: el viernes pasado, al conocerse la muerte del entrenador de fútbol Tito Vilanova, las consultas de "parótida" (la glándula que tenía afectada de cáncer) se multiplicaron por más de 100 con respecto a la media diaria habitual. Lógicamente, un pico de visitas como este no siempre va a tener importancia epidemiológica: por eso, no hay que centrarse en los datos de esta herramienta (o de cualquier otra) de forma aislada, sino en conjunto con todas las que sean accesibles.
"El uso de este tipo de datos surgidos de medios de comunicación social o de otros sitios web para hacer estimaciones y predicciones es aún una ciencia que está en su infancia", reconoce McIver. Y añade: "Creemos que este tipo de datos representa una gran promesa debido a su tamaño, profundidad y la ubicuidad, pero todavía estamos creando modelos a medida que desarrollamos la disciplina".
Según este epidemiólogo, las predicciones sobre salud pública o enfermedades utilizando este tipo de datos se deben usar junto a las fuentes tradicionales de vigilancia, como los de los CDC o la Organización Mundial de la Salud: "No están diseñados reemplazarlos. El objetivo último es encontrar una forma de unir todas estas diferentes fuentes de datos para obtener la imagen más precisa y puntual de la salud pública que podamos conseguir".