32C3

Errores del Big Data que debemos abordar

Ya sabemos que el Big Data es increíble, pero como cualquier otra tecnología, especialmente una nueva, tiene sus problemas. Veamos lo que podría ir mal con sus implementaciones.

Alex Drozhzhin
29 Mar 2016

En los últimos años ha habido muchas discusiones sobre el Big Data. Estas se han centrado en las increíbles oportunidades que proporciona esta nueva tecnología. La conclusión de estas discusiones es que el uso del Big Data puede ser algo preocupante. Aunque coincidimos con la opinión de que el Big Data es increíble, al igual que ocurre con cualquier nueva tecnología, esta tiene algunos fallos. En este post hablaremos de lo que podría salir mal con las implementaciones del Big Data.

big-data-dangers-featured

¡Sin privacidad para ti!

Normalmente, cuando la gente piensa sobre los posibles problemas del Big Data, lo primero y último en lo que suelen pensar es en la privacidad.

El nombre lo dice todo: el Big Data depende de la recopilación de mucha información, y cuanto más privada sea, mayor eficiencia tendrán los algoritmos para alcanzar conclusiones no tan obvias. En pocas palabras, la información privada es el polvo de hadas de la poderosa magia del Big Data.

Este polvo de hadas tiende a esparcirse con frecuencia y se queda por las oscuras esquinas. Sin embargo, es algo más que eso: hay toda una serie de cuestiones menos triviales vinculadas entre sí de forma complicada.

vía @KasperskyES Cómo protegerte del robo de datos en #icloud http://t.co/UppzYjHVOx http://t.co/MSPz7MFRc2 pic.twitter.com/tSNpSsc64k

— Guardia Civil (@guardiacivil) September 17, 2014

Es ciencia pura (en realidad, no)

La gente considera las soluciones del Big Data como una ciencia. Pero el problema es que los algoritmos son más bien como la ingeniería. Una gran diferencia.

Una buena comparación podría ser la física frente a los proyectiles. La física es sin duda una ciencia: cada parte de ella ha sido investigada y comprobada, tanto teóricamente como de forma experimental; por lo tanto, ha sido verificada por la comunidad científica, porque así es como funciona la ciencia.

Además, la ciencia siempre está abierta; por lo tanto, todo se puede volver a comprobar en cualquier momento por alguien que esté interesado. Y si aparece algún problema mayor o si surgen nuevas teorías, es siempre tema de discusión para la comunidad científica mundial.

Los proyectiles son básicamente estructuras de ingeniería basadas en ciertos principios físicos. Y, como ya sabes, en este tema las cosas se pueden venir abajo si el diseño no es lo suficientemente bueno o si las condiciones son “malas”, que es básicamente lo mismo, ya que significa que el diseño no es válido para estas condiciones.

El lado escalofriante del #BigData: así usan tus datos https://t.co/IDFZfTLOkl pic.twitter.com/4ETBwh9mWU

— Kaspersky España (@KasperskyES) August 27, 2015

Las matemáticas son indiscutibles, ¿no?

Una de las consecuencias de este malentendido es la falsa autoridad. La gente tiene que confiar en las decisiones de los algoritmos del Big Data, sin discusiones. Excepto en el caso de los profesionales matemáticos, que podrían desmentir uno u otro modelo de Big Data o uno u otro algoritmo, si tuvieran acceso a ellos. Pero, ¿realmente pueden?

La caja negra es muy negra

Aunque tengas un gran conocimiento y experiencia en matemáticas y quieras averiguar cómo funciona exactamente uno u otro algoritmo, no se suele conseguir el acceso. Esto se debe a que el software es comercial, y su código fuente es privado. Por lo general, los investigadores no suelen mostrar lo que hay bajo el capó privado. Algo como “gracias por su interés, buenas noches”.

En su plática sobre “Armas y destrucción matemática”, Cathy O´Neil, matemática y activista de derechos humanos, habla sobre el modelo de valor añadido, que es un algoritmo para la evaluación de los profesores en Estados Unidos:

“Mi amiga, que dirige una escuela en Nueva York, quería entender este algoritmo. Está en una escuela de matemáticas y ciencia, por lo que pensaba que podía entenderlo. Le pidió a su departamento de educación que le enviaran información al respecto. Le dijeron: “¡Oh, no quieres saber sobre el tema, son matemáticas!”

“Insistió y finalmente consiguió un informe técnico y me lo enseñó. Era demasiado abstracto como para ser útil. Así que presenté una solicitud de Ley por la Libertad de la Información para obtener el código fuente, y me la denegaron. Después me enteré de que el grupo de expertos en Madison, WI, que está a cargo de este modelo, tiene un contrato de licencia [que manifiesta] que nadie puede ver el interior del modelo”.

“Nadie del Departamento de Educación de Nueva York entiende este modelo, ningún profesor puede saber su puntuación, y tampoco la pueden mejorar porque nadie dice cómo hacerlo”.

Una cosa dentro, otra fuera

Como los algoritmos son opacos, los datos de entrada también lo son. Un operador de un software de Big Data no puede saber con seguridad qué datos ha procesado el algoritmo y cuáles no. Por lo tanto, algunos datos pueden impactar dos veces en los resultados, primero por el algoritmo y segundo por el operador. O, al contrario, puede que algún dato importante no quede reflejado si el operador cree, por error, que ya está incluido en el resultado, y en realidad no ha sido considerado por el algoritmo.

Por ejemplo, la policía entra a un barrio con un alto nivel de crimen. Su software les advierte que hay una probabilidad del 55 % de que el hombre que está frente a ellos sea un ladrón. El hombre tiene una maleta sospechosa, pero la policía no sabe si la herramienta de algoritmo ha tenido esto en cuenta o no. Ellos tienen que decidir si la maleta hace que el hombre sea más o menos sospechoso.

Por no hablar de que, simplemente, los datos de entrada pueden contener errores, o no contener información de vital importancia para conseguir la predicción correcta.

10 proyectos curiosos que usan #BigData que te sorprenderán https://t.co/OTIFtWKORp pic.twitter.com/q9m4Qz0RDn

— Kaspersky España (@KasperskyES) April 17, 2015

¿El vaso está medio lleno o medio vacío?

El resultado tampoco es muy transparente y puede ser malinterpretado. Los números pueden ser subjetivos y dos personas distintas pueden interpretarlos de forma completamente diferente. Por ejemplo, ¿qué es un 30 % de probabilidad? La interpretación puede variar desde “probablemente no” a “probablemente sí”, dependiendo de muchos factores que nunca puedes prever.

Aún peor, esta calificación de probabilidad puede ser utilizada como una forma de competición: a pesar de que, por ejemplo, la probabilidad de que una persona sea condenada a algún tipo de crimen, no sea suficiente como para ser considerada seriamente, en algunas circunstancias puede ser utilizada para aislar a ciertas personas.

Por ejemplo, en Estados Unidos utilizan tales algoritmos por seguridad, intentando predecir la probabilidad de que una persona pueda revelar información. Y ya que hay mucha gente compitiendo por trabajo, se encuentran muy cómodos prescindiendo de algunos bajo estos criterios, aunque la probabilidad no sea muy significativa, simplemente esté un poco por encima de la media.

Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky

— Kaspersky (@kaspersky) May 22, 2012

¿Sin prejuicios?

Considerando todos los problemas antes mencionados, podemos decir que una de las ventajas más promovidas del Big Data es que no tiene “prejuicios”, lo cual no es del todo cierto. Una decisión tomada por un humano basada en cálculos hechos por un algoritmo que ha diseñado un humano, no deja de ser una decisión tomada por un humano. Puede o no ser prejuiciosa. El problema es que, con un algoritmo oscuro y datos opacos, nunca se sabe. Y realmente no puedes cambiarlo, ya que está cifrado en un software.

Bienvenido al Lado oscuro, Anakin

La predicción de algoritmos también es vulnerable de recibir una retroalimentación que haga cumplir profecías. Por ejemplo, un algoritmo utilizado por el Departamento de Policía de Chicago puede tachar a un niño de ser una persona potencialmente peligrosa. Luego, la policía empieza a vigilarlo, a visitarlo, etc. El niño ve que la policía lo trata como un criminal a pesar de que no ha hecho nada, y empieza a actuar de acuerdo al trato que ha recibido. Entonces se convierte en un pandillero, solo por haber sido ofendido por la policía.

O, como dijo Whitney Merril en su plática de “Predicción del crimen en el mundo del Big Data” en el Chaos Communication Congress 32: “Si a un policía le toca hacer guardia en un área donde el algoritmo le dice: “Tienes un 70 % de probabilidades de encontrarte a un ladrón en esta zona”, ¿va a encontrarlo porque le dijeron que “tiene probabilidades de hacerlo?”.

Sin salida

Si cualquier organización gubernamental o comercial emplea algoritmos de Big Data y no te gusta, no puedes decir: “Hasta aquí, me voy”. Nadie te va a preguntar si quieres ser parte de la investigación del Big Data o no. O peor aún: no te van a decir si ya eres parte de ella.

Bueno, no me malinterpretéis: no me refiero a que todos los errores antes mencionados sean una buena razón para que la humanidad rechace los algoritmos de predicción avanzada. Obviamente, el Big Data está empezando y llegó para quedarse definitivamente. Pero tal vez es el momento perfecto para reflexionar sobre estos problemas, y que luego no sea demasiado tarde para solucionarlos.

Deberíamos crear algoritmos y datos de entrada más transparentes y protegidos, conceder a los investigadores independientes el acceso al código fuente, poner en orden la legislación, empezar a informar a la gente de lo que está pasando con este tema “matemático”. Y, definitivamente, tenemos que aprender de los errores del pasado.

Privacidad en Internet: el nuevo Barroco

A medida que el uso de las nuevas tecnologías se hace cada vez más generalizado, empezamos a reconsiderar nuestra visión de muchos aspectos.Alexander Erofeev, CMO de Kaspersky Lab, contempla la manera en la que Internet transforma nuestra forma de ver la privacidad.

Privacidad y niños

Errores del Big Data que debemos abordar

Los hackers del mundo real pueden imprimir tus llaves en 3D

Explicación de lo que pasó con el caso Dieselgate de Volkswagen

Privacidad en Internet: el nuevo Barroco

Consejos

Del CVSS a la RBVM: cómo priorizar correctamente las vulnerabilidades

Todo sobre el CVSS: la evolución de la puntuación de vulnerabilidades

Un crypto-robo de 500 millones de dólares

Llueven bitcoin: giveaway falso de Nvidia

Soluciones para el hogar

Empresas pequeñas

Empresas medianas

Corporativo

Securelist

Eugene Personal Blog