«El big data no me da miedo, lo que me lo da es la falta de transparencia»

Pablo Batalla Cueto

ACTUALIDAD

Juan Luis Fernández
Juan Luis Fernández

El matemático asturiano Juan Luis Fernández defiende la utilidad de la gestión de la información en campos como la medicina, la viticultura o el márketing

19 mar 2017 . Actualizado a las 05:00 h.

Juan Luis Fernández Martínez es matemático y uno de los mayores expertos de Asturias en big data, eso que algunos llaman ya el petróleo del siglo XXI: una cantidad inmensa de datos que, si se refinan adecuadamente, pueden arrojar información utilísima sobre casi cualquier cosa. El big data ha sentado a Donald Trump en el despacho oval de la Casa Blanca y ha hecho más millonarios a muchos empresarios, pero también puede curar cánceres y cardiopatías. Las mismas técnicas de análisis que otros dedican a medir el riesgo bursátil o a diseñar programas de marketing personalizado, el propio Fernández las está aplicando en este momento, en el marco de un proyecto llamado Finisterrae y llevado a cabo en colaboración con el Hospital de Jove, para diseñar robots biomédicos que aumenten nuestro conocimiento sobre las enfermedades raras y neurodegenerativas y los tumores.

-¿De qué hablamos cuando hablamos de big data?

-El big data es un conjunto masivo de datos que viene de diferentes fuentes y que se suele utilizar para hacer deducciones y aprehender conocimiento con una serie de técnicas que surgieron en Estados Unidos. Sobre ese surgimiento se cita mucho un ejemplo en particular, que es el de cierto supermercado llamado Target. Hacia los años noventa, quisieron ser capaces de predecir cuáles de sus clientes mujeres estaban embarazadas, porque se habían dado cuenta de que cuando una mujer está embarazada aumenta su lista de la compra, y si eran capaces de predecirlo podrían hacer una campaña de marketing personalizada y en consecuencia vender mucho más. Pusieron a un grupo de estadísticos y de ingenieros de la computación a trabajar sobre el problema, les dieron una base de datos de compras de clientas y al cabo de unos meses ese equipo anunció que creía que ya lo tenía; que ya sabía cómo predecir, con una altísima probabilidad (estas cosas siempre tienen asociado un margen de incertidumbre, por pequeño que sea), qué clientas estaban embarazadas. Con esa información, Target lanzó una campaña de marketing personalizada de prueba y poco después comprobó que realmente funcionaba, porque los productos que ellos querían promocionar convenciendo a embarazadas de que los comprasen efectivamente aumentaron las ventas. Después pasó algo muy curioso.

-Cuéntenos.

-Al cabo de unas semanas, llegó un paisano mayor a uno de los supermercados Target para protestar: su mujer y él habían recibido una publicidad para mujeres embarazadas y aquello era inadmisible, porque además tenían una hija adolescente que tenía dieciséis años; ¿qué querían decir con eso? Bueno, el gerente de la tienda lo despachó muy cortésmente diciéndole I’m sorry, fue un error, etcétera y dándole un cheque regalo. El paisano se marchó contento, pero hete aquí que al cabo de tres o cuatro semanas volvió al centro. Cuando el gerente lo vio, le dijo: «¿Usted todavía por aquí?», y él le explicó que venía a disculparse. Su hija de dieciséis años estaba embarazada.

-Nuestros datos saben más cosas de nosotros que nosotros mismos.

-Hay datos que tienen información y datos que no la tienen, y si los datos no llevan información sobre la respuesta que tú quieres obtener no hay dato matemático capaz de proporcionártela. En realidad, el big data no existe, y me explico: el big data no existe porque tú no tiras información masiva a una máquina y la máquina decide, sino que primero se hace un minado. Es lo que yo llamo little big data. Es como un yacimiento de oro: tú no te pones a cavar por todas partes hasta que encuentras el oro, sino que primero detectas un yacimiento mediante una serie de procedimientos de prospección y predicción. Sólo entonces te pones a cavar, y después separas la mena de la ganga. Esto es igual: no todos los datos llevan información para la respuesta que tú quieres responder. En todo caso, sí, el ejemplo de Target es muy ilustrativo de lo que es el big data: algo capaz de desenmascarar información contenida en los datos y de proporcionar en función de ella una respuesta deseada.

-¿Para qué se utiliza hoy el big data?

-Para muchísimas disciplinas. Se está utilizando en medicina para analizar datos genéticos y, con la información así obtenida, predecir enfermedades y designar los tratamientos más adecuados. Se está utilizando en aseguradoras, que tienen bases de datos muy amplias de clientes y quieren ser capaces de predecir un impago o qué clientes van a tener más accidentes. Pero la vertiente más conocida y visible es el marketing. Un amigo mío ha montado una empresa que ha parametrizado y clasificado en base a diversos criterios todos los vinos del mundo y hace recomendaciones muy ajustadas y certeras a los clientes: «Me ha gustado tal vino de tal año, ¿qué otro vino se le parece?». También ofrece a empresarios vinícolas la posibilidad de seleccionar la zona óptima para producir un determinado tipo de vino. A través de la parametrización hecha por mi amigo, pueden descubrir en qué territorios hay tal clima, tal humedad, tales suelos, etcétera. Eso que mi amigo ha hecho con los vinos, se puede hacer con cualquier cosa, por ejemplo libros. Y algo parecido es lo que hace Google, que ve todo tu historial, sabe hasta qué correos electrónicos has enviado y sobre qué, y con eso deduce qué publicidad tiene que hacerte; qué banners tienen que salirte.

-Si Target pudo hacer aquella predicción sobre clientas embarazadas en la era pre-Internet, ¿qué no puede predecirse hoy que literalmente nos pasamos la vida volcando datos a la red?

-No todos son valiosos, pero el que los sabe minar obtiene una grandísima información. Parece ser que Donald Trump ganó las elecciones porque lo asistió una empresa de big data que se llama Cambridge Analytics. Esa empresa había trabajado para Ted Cruz, el otro candidato republicano, y Ted Cruz, que era desconocido, no ganó pero llegó muy lejos en las primarias republicanas. Cuando Cruz dijo que no se presentaba, Trump fichó a esa empresa, que unos años antes había copiado un algoritmo de un profesor polaco de Stanford y era capaz de, en función de los likes de Facebook, predecir con una altísima probabilidad de acierto la raza, la inclinación sexual y el voto. La raza creo que la predijeron con el noventa y tantos por ciento de acierto: ¡el mismo que tenemos nosotros en medicina con genes! Y el porcentaje de acierto en dilucidar si la persona en cuestión era votante demócrata o republicano creo que lo predijeron con un ochenta y cinco por ciento: un margen de error del quince por ciento. Pensemos en lo que significa para un partido político, comprándole a Facebook una base de datos de likes, saber dónde están sus votantes y dónde están los del contrario.

-Es como si el voto dejara de ser secreto.

-Pues casi, sí. Cambridge Analytics predijo barrio por barrio dónde estaban los votantes republicanos y dónde los demócratas, y con eso Trumo hizo a los republicanos una campaña para asegurar o reforzar el voto y a los demócratas otra para darles razones para no votar a Clinton. En un barrio de gente que venía de Haití, hizo publicidad de cuánto se habían gastado los demócratas en ayudas a Haití tras el terremoto: cero. En un barrio de afroamericanos, hizo publicidad de algo que había dicho Hillary de que los negros eran unos depravados sexuales. Y todo así. Una auténtica guerra de guerrillas electoral que dio a Trump los votos suficientes para auparse a la Casa Blanca. Éste sería un ejemplo del uso, vamos a decir, perverso del big data, aunque a mí hablar de usos buenos y malos me incomoda un tanto, porque, ¿queremos saber lo que quiere la ciudadanía o no? La mayor democracia es saber lo que opina la ciudadanía; otra cosa es que no nos guste. El big data también se utiliza mucho en finanzas, donde hay programas para que la gente mida más certeramente el riesgo de invertir en bolsa y gane más dinero: lo que normalmente se llama especular, que es una palabra que puede sonar mal y que nos plantea de nuevo un dilema ético. ¿Eso es bueno o malo? Pues no sé, yo no creo que las cosas se deban presentar en esos términos. La bolsa no deja de ser el lugar donde las empresas se financian, y si la bolsa funciona mejor... Lo peor para la bolsa es que no se mueva; que esté en situación de calmachicha. A mí, que un programa ayude a los usuarios a hacer inversiones no me parece mal.

-Extiéndase un poco los usos objetivamente buenos del big data.

-El mejor ejemplo que puedo ponerte es el mío propio: un proyecto que estamos haciendo con el equipo del doctor Francisco Vizoso en el Hospital de Jove y que consiste en analizar una base de datos que ellos tienen y, con ella, midiendo una serie de proteínas, ser capaces de predecir con un índice de fiabilidad altísimo, de más del noventa por ciento, si una determinada paciente con cáncer de mama va a desarrollar metástasis a diez años vista. Eso es muy importante, porque permite personalizar el tratamiento muy temprano y aumentar muchísimo el índice de supervivencia. En el futuro quizás se pueda diseñar un programa capaz de, a partir de las resonancias magnéticas de un enfermo, detectar el cáncer en fases muy precoces. La semana pasada implantaron un corazón artificial en el HUCA, y fíjate, en el diseño de ese corazón ya se estaba trabajando estando yo en Inglaterra en el año 1988. Un amigo mío del Imperial College hizo la tesis sobre eso, y treinta años después esos diseños están en el mercado. ¿Qué se hizo en esos treinta años? Pues analizar datos. Se estudiaron los corazones reales para comprobar cómo funcionaban y con los datos así obtenidos se creó un sistema matemático que los emulara. Eso también es big data: modelización e inteligencia artificial. ¿Cuántos años hace que no hay un gran terremoto en California? 

-Muchos, ciertamente.

-No es casualidad. California tiene invertidos millones de dólares en monitorizar y lubricar la falla de San Andrés y otras para que no suelten toda la energía de una vez y provoquen un terremoto gordísimo, sino que la vayan soltando gradualmente. También para predecir desastres. El tsunami de Japón estaba predicho: lo que pasó fue que hubo toda una serie de factores en contra que hicieron que los mecanismos de seguridad que se habían diseñado no funcionaran. En fin, hay muchas posibles aplicaciones del big data, pero todas se basan en lo mismo: en entender un fenómeno y poder predecirlo gracias a modelos matemáticos basados en datos. Otro uso positivo del big data es la predicción de ataques terroristas con datos obtenidos de las redes sociales y en los cruces de fronteras.

-Nuevo dilema ético: seguridad frente a privacidad. ¿Hasta qué punto es lícito perseguir un fin loable como evitar atentados terroristas con medios cuestionables como investigar a la gente sin su conocimiento?

- Bueno, claro, es que si tú quieres algo, tienes que tener algo también. Si estás en una situación extrema y te quieres proteger, tienes que poner en marcha mecanismos para separar el garbanzo negro del blanco. De todas maneras, sí, hay un debate muy vivo en materia de seguridad antiterrorista y demás, pero también en otros ámbitos. El biomédico, por ejemplo, donde los datos genéticos pueden utilizarse para curar cánceres pero también para que, como a los cincuenta y cinco años vas a desarrollar un cáncer de próstata, tu seguro privado te diga que no te asegura o te ponga el seguro carísimo. Hay esos usos perversos posibles de los datos que obligan, y obligan con razón, a que los datos que analizamos en las investigaciones biomédicas sean estrictamente anónimos, pero también hay una encuesta, la encuesta Vodafone sobre salud, que creo que es europea, que dice que el ochenta y seis por ciento de los pacientes están de acuerdo con que sus datos sean utilizados para curar a otros pacientes. Si se hacen las cosas bien, el análisis de datos es una herramienta de progreso valiosísima y no debe dar ningún miedo, al contrario. A mí lo que me da miedo es cuando los datos no se comparten y no se sabe si el pico de benceno está correlacionado con los nuevos casos de ELA. 

-Lo que debe dar miedo no es el big data, sino la falta de transparencia estatal y empresarial por un lado y el exceso de transparencia individual por el otro.

-Exactamente. Tiene que haber transparencia por un lado y por otro una buena ley de protección de datos, como parece ser que es el caso de España. No soy un experto en la cuestión, pero parece ser que España es uno de los países más avanzados en esta materia.  En cuanto a las redes sociales, yo creo que lo que tiene que haber es mucha más formación de los jóvenes y de la gente que las utiliza en general, porque muchas veces la gente no sabe que, cuando uno participa en una red social, está diciendo muchísimo de quién es. Sea como sea, el mundo va por ahí. Nos guste o no, va por ahí, y tenemos que ponernos las pilas y apostar por la parte buena del big data.