{"id":6890,"date":"2016-03-29T11:13:59","date_gmt":"2016-03-29T11:13:59","guid":{"rendered":"https:\/\/latam.kaspersky.com\/blog\/?p=6890"},"modified":"2017-11-07T12:24:32","modified_gmt":"2017-11-07T18:24:32","slug":"nine-big-data-issues","status":"publish","type":"post","link":"https:\/\/latam.kaspersky.com\/blog\/nine-big-data-issues\/6890\/","title":{"rendered":"Errores del Big Data que debemos abordar"},"content":{"rendered":"<p>En los \u00faltimos a\u00f1os ha habido muchas discusiones sobre el Big Data. Estas se han centrado en las incre\u00edbles oportunidades que proporciona esta nueva tecnolog\u00eda. La conclusi\u00f3n de estas discusiones es que el uso del Big Data puede ser algo preocupante. Aunque coincidimos con la opini\u00f3n de que el Big Data es incre\u00edble, al igual que ocurre con cualquier nueva tecnolog\u00eda, esta tiene algunos fallos. En este post hablaremos de lo que podr\u00eda salir mal con las implementaciones del Big Data.<\/p>\n<p><img decoding=\"async\" class=\"alignnone size-full wp-image-7815\" src=\"https:\/\/media.kasperskydaily.com\/wp-content\/uploads\/sites\/87\/2016\/03\/05195237\/big-data-dangers-featured-1.png\" alt=\"big-data-dangers-featured\" width=\"1280\" height=\"840\"><\/p>\n<p><strong>\u00a1Sin privacidad para ti!<\/strong><\/p>\n<p>Normalmente, cuando la gente piensa sobre los posibles problemas del Big Data, lo primero y \u00faltimo en lo que suelen pensar es en <strong>la privacidad.<\/strong><\/p>\n<p>El nombre lo dice todo: el Big Data depende de la recopilaci\u00f3n de mucha informaci\u00f3n, y cuanto m\u00e1s privada sea, mayor eficiencia tendr\u00e1n los algoritmos para alcanzar conclusiones no tan obvias. En pocas palabras, la informaci\u00f3n privada es el polvo de hadas de la poderosa <strong>magia del<\/strong> <strong>Big Data.<\/strong><\/p>\n<p>Este polvo de hadas tiende a esparcirse con frecuencia y se queda por las oscuras esquinas. Sin embargo, es algo m\u00e1s que eso: hay toda una serie de cuestiones menos triviales vinculadas entre s\u00ed de forma complicada.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"es\" dir=\"ltr\">v\u00eda <a href=\"https:\/\/twitter.com\/KasperskyES?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">@KasperskyES<\/a> C\u00f3mo protegerte del robo de datos en <a href=\"https:\/\/twitter.com\/hashtag\/icloud?src=hash&amp;ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">#icloud<\/a> <a href=\"http:\/\/t.co\/UppzYjHVOx\" target=\"_blank\" rel=\"noopener nofollow\">http:\/\/t.co\/UppzYjHVOx<\/a>  <a href=\"http:\/\/t.co\/MSPz7MFRc2\" target=\"_blank\" rel=\"noopener nofollow\">http:\/\/t.co\/MSPz7MFRc2<\/a> <a href=\"http:\/\/t.co\/tSNpSsc64k\" target=\"_blank\" rel=\"noopener nofollow\">pic.twitter.com\/tSNpSsc64k<\/a><\/p>\n<p>\u2014 Guardia Civil (@guardiacivil) <a href=\"https:\/\/twitter.com\/guardiacivil\/status\/512337770266640384?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">September 17, 2014<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>Es ciencia pura (en realidad, no)<\/strong><\/p>\n<p>La gente considera las soluciones del Big Data como una ciencia. Pero el problema es que los algoritmos son m\u00e1s bien como la ingenier\u00eda. Una gran diferencia.<\/p>\n<p>Una buena comparaci\u00f3n podr\u00eda ser la f\u00edsica frente a los proyectiles. La f\u00edsica es sin duda una ciencia: cada parte de ella ha sido investigada y comprobada, tanto te\u00f3ricamente como de forma experimental; por lo tanto, ha sido verificada por la comunidad cient\u00edfica, porque as\u00ed es como funciona la ciencia.<\/p>\n<p>Adem\u00e1s, la ciencia siempre est\u00e1 abierta; por lo tanto, todo se puede volver a comprobar en cualquier momento por alguien que est\u00e9 interesado. Y si aparece alg\u00fan problema mayor o si surgen nuevas teor\u00edas, es siempre tema de discusi\u00f3n para la comunidad cient\u00edfica mundial.<\/p>\n<p>Los proyectiles son b\u00e1sicamente estructuras de ingenier\u00eda basadas en ciertos principios f\u00edsicos. Y, como ya sabes, en este tema las cosas se pueden venir abajo si el dise\u00f1o no es lo suficientemente bueno o si las condiciones son \u201cmalas\u201d, que es b\u00e1sicamente lo mismo, ya que significa que el dise\u00f1o no es v\u00e1lido para estas condiciones.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"es\" dir=\"ltr\">El lado escalofriante del <a href=\"https:\/\/twitter.com\/hashtag\/BigData?src=hash&amp;ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">#BigData<\/a>: as\u00ed usan tus datos <a href=\"https:\/\/t.co\/IDFZfTLOkl\" target=\"_blank\" rel=\"noopener nofollow\">https:\/\/t.co\/IDFZfTLOkl<\/a> <a href=\"http:\/\/t.co\/4ETBwh9mWU\" target=\"_blank\" rel=\"noopener nofollow\">pic.twitter.com\/4ETBwh9mWU<\/a><\/p>\n<p>\u2014 Kaspersky Espa\u00f1a (@KasperskyES) <a href=\"https:\/\/twitter.com\/KasperskyES\/status\/636841094093910016?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">August 27, 2015<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>Las matem\u00e1ticas son indiscutibles, \u00bfno?<\/strong><\/p>\n<p>Una de las consecuencias de este malentendido es la falsa autoridad. La gente tiene que confiar en las decisiones de los algoritmos del Big Data, sin discusiones. Excepto en el caso de los profesionales matem\u00e1ticos, que podr\u00edan desmentir uno u otro modelo de Big Data o uno u otro algoritmo, si tuvieran acceso a ellos. Pero, \u00bfrealmente pueden?<\/p>\n<p><strong>La caja negra es muy negra<\/strong><\/p>\n<p>Aunque tengas un gran conocimiento y experiencia en matem\u00e1ticas y quieras averiguar c\u00f3mo funciona exactamente uno u otro algoritmo, no se suele conseguir el acceso. Esto se debe a que el software es comercial, y su c\u00f3digo fuente es privado. Por lo general, los investigadores no suelen mostrar lo que hay bajo el cap\u00f3 privado. Algo como \u201cgracias por su inter\u00e9s, buenas noches\u201d.<\/p>\n<p>En su pl\u00e1tica sobre \u201cArmas y destrucci\u00f3n matem\u00e1tica\u201d, Cathy O\u00b4Neil, matem\u00e1tica y activista de derechos humanos, habla sobre el <a href=\"https:\/\/en.wikipedia.org\/wiki\/Value-added_modeling\" target=\"_blank\" rel=\"noopener nofollow\">modelo de valor a\u00f1adido<\/a>, que es un algoritmo para la evaluaci\u00f3n de los profesores en Estados Unidos:<\/p>\n<p>\u201cMi amiga, que dirige una escuela en Nueva York, quer\u00eda entender este algoritmo. Est\u00e1 en una escuela de matem\u00e1ticas y ciencia, por lo que pensaba que pod\u00eda entenderlo. Le pidi\u00f3 a su departamento de educaci\u00f3n que le enviaran informaci\u00f3n al respecto. Le dijeron: \u201c\u00a1Oh, no quieres saber sobre el tema, son matem\u00e1ticas!\u201d<\/p>\n<p><span class=\"embed-youtube\" style=\"text-align:center; display: block;\"><iframe class=\"youtube-player\" type=\"text\/html\" width=\"640\" height=\"390\" src=\"https:\/\/www.youtube.com\/embed\/gdCJYsKlX_Y?version=3&amp;rel=1&amp;fs=1&amp;showsearch=0&amp;showinfo=1&amp;iv_load_policy=1&amp;wmode=transparent\" frameborder=\"0\" allowfullscreen=\"true\"><\/iframe><\/span><\/p>\n<p>\u201cInsisti\u00f3 y finalmente consigui\u00f3 un informe t\u00e9cnico y me lo ense\u00f1\u00f3. Era demasiado abstracto como para ser \u00fatil. As\u00ed que present\u00e9 una solicitud de Ley por la Libertad de la Informaci\u00f3n para obtener el c\u00f3digo fuente, y me la denegaron. Despu\u00e9s me enter\u00e9 de que el grupo de expertos en Madison, WI, que est\u00e1 a cargo de este modelo, tiene un contrato de licencia [que manifiesta] que nadie puede ver el interior del modelo\u201d.<\/p>\n<p>\u201cNadie del Departamento de Educaci\u00f3n de Nueva York entiende este modelo, ning\u00fan profesor puede saber su puntuaci\u00f3n, y tampoco la pueden mejorar porque nadie dice c\u00f3mo hacerlo\u201d.<\/p>\n<p><strong>Una cosa dentro, otra fuera<\/strong><\/p>\n<p>Como los algoritmos son opacos, los datos de entrada tambi\u00e9n lo son. Un operador de un software de Big Data no puede saber con seguridad qu\u00e9 datos ha procesado el algoritmo y cu\u00e1les no. Por lo tanto, algunos datos pueden impactar dos veces en los resultados, primero por el algoritmo y segundo por el operador. O, al contrario, puede que alg\u00fan dato importante no quede reflejado si el operador cree, por error, que ya est\u00e1 incluido en el resultado, y en realidad no ha sido considerado por el algoritmo.<\/p>\n<p>Por ejemplo, la polic\u00eda entra a un barrio con un alto nivel de crimen. Su software les advierte que hay una probabilidad del 55 % de que el hombre que est\u00e1 frente a ellos sea un ladr\u00f3n. El hombre tiene una maleta sospechosa, pero la polic\u00eda no sabe si la herramienta de algoritmo ha tenido esto en cuenta o no. Ellos tienen que decidir si la maleta hace que el hombre sea m\u00e1s o menos sospechoso.<\/p>\n<p>Por no hablar de que, simplemente, los datos de entrada pueden contener errores, o no contener informaci\u00f3n de vital importancia para conseguir la predicci\u00f3n correcta.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"es\" dir=\"ltr\">10 proyectos curiosos que usan <a href=\"https:\/\/twitter.com\/hashtag\/BigData?src=hash&amp;ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">#BigData<\/a> que te sorprender\u00e1n <a href=\"https:\/\/t.co\/OTIFtWKORp\" target=\"_blank\" rel=\"noopener nofollow\">https:\/\/t.co\/OTIFtWKORp<\/a> <a href=\"http:\/\/t.co\/q9m4Qz0RDn\" target=\"_blank\" rel=\"noopener nofollow\">pic.twitter.com\/q9m4Qz0RDn<\/a><\/p>\n<p>\u2014 Kaspersky Espa\u00f1a (@KasperskyES) <a href=\"https:\/\/twitter.com\/KasperskyES\/status\/589054566857121792?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">April 17, 2015<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>\u00bfEl vaso est\u00e1 medio lleno o medio vac\u00edo?<\/strong><\/p>\n<p>El resultado tampoco es muy transparente y puede ser malinterpretado. Los n\u00fameros pueden ser subjetivos y dos personas distintas pueden interpretarlos de forma completamente diferente. Por ejemplo, \u00bfqu\u00e9 es un 30 % de probabilidad? La interpretaci\u00f3n puede variar desde \u201cprobablemente no\u201d a \u201cprobablemente s\u00ed\u201d, dependiendo de muchos factores que nunca puedes prever.<\/p>\n<p>A\u00fan peor, esta calificaci\u00f3n de probabilidad puede ser utilizada como una forma de competici\u00f3n: a pesar de que, por ejemplo, la probabilidad de que una persona sea condenada a alg\u00fan tipo de crimen, no sea suficiente como para ser considerada seriamente, en algunas circunstancias puede ser utilizada para aislar a ciertas personas.<\/p>\n<p>Por ejemplo, en Estados Unidos utilizan tales algoritmos por seguridad, intentando predecir la probabilidad de que una persona pueda revelar informaci\u00f3n. Y ya que hay mucha gente compitiendo por trabajo, se encuentran muy c\u00f3modos prescindiendo de algunos bajo estos criterios, aunque la probabilidad no sea muy significativa, simplemente est\u00e9 un poco por encima de la media.<\/p>\n<blockquote class=\"twitter-tweet\" data-width=\"500\" data-dnt=\"true\">\n<p lang=\"en\" dir=\"ltr\">Why Eugene Kaspersky has big problems with big data <a href=\"http:\/\/t.co\/QPaWyddi\" target=\"_blank\" rel=\"noopener nofollow\">http:\/\/t.co\/QPaWyddi<\/a> via <a href=\"https:\/\/twitter.com\/itworldca?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">@itworldca<\/a> cc: <a href=\"https:\/\/twitter.com\/e_kaspersky?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">@e_kaspersky<\/a><\/p>\n<p>\u2014 Kaspersky (@kaspersky) <a href=\"https:\/\/twitter.com\/kaspersky\/status\/205027979355627520?ref_src=twsrc%5Etfw\" target=\"_blank\" rel=\"noopener nofollow\">May 22, 2012<\/a><\/p><\/blockquote>\n<p><script async src=\"https:\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><\/p>\n<p><strong>\u00bfSin prejuicios?<\/strong><\/p>\n<p>Considerando todos los problemas antes mencionados, podemos decir que una de las ventajas m\u00e1s promovidas del Big Data es que no tiene \u201cprejuicios\u201d, lo cual no es del todo cierto. Una decisi\u00f3n tomada por un humano basada en c\u00e1lculos hechos por un algoritmo que ha dise\u00f1ado un humano, no deja de ser una decisi\u00f3n tomada por un humano. Puede o no ser prejuiciosa. El problema es que, con un algoritmo oscuro y datos opacos, nunca se sabe. Y realmente no puedes cambiarlo, ya que est\u00e1 cifrado en un software.<\/p>\n<p><strong>Bienvenido al Lado oscuro, Anakin<\/strong><\/p>\n<p>La predicci\u00f3n de algoritmos tambi\u00e9n es vulnerable de recibir una retroalimentaci\u00f3n que haga cumplir profec\u00edas. Por ejemplo, un algoritmo utilizado por el <a href=\"http:\/\/www.theverge.com\/2014\/2\/19\/5419854\/the-minority-report-this-computer-predicts-crime-but-is-it-racist\" target=\"_blank\" rel=\"noopener nofollow\">Departamento de Polic\u00eda de Chicago<\/a> puede tachar a un ni\u00f1o de ser una persona potencialmente peligrosa. Luego, la polic\u00eda empieza a vigilarlo, a visitarlo, etc. El ni\u00f1o ve que la polic\u00eda lo trata como un criminal a pesar de que no ha hecho nada, y empieza a actuar de acuerdo al trato que ha recibido. Entonces se convierte en un pandillero, solo por haber sido ofendido por la polic\u00eda.<\/p>\n<p>O, como dijo Whitney Merril en su pl\u00e1tica de \u201cPredicci\u00f3n del crimen en el mundo del Big Data\u201d en el <a href=\"https:\/\/latam.kaspersky.com\/blog\/tag\/32c3\/\" target=\"_blank\" rel=\"noopener\">Chaos Communication Congress 32<\/a>: \u201cSi a un polic\u00eda le toca hacer guardia en un \u00e1rea donde el algoritmo le dice: \u201cTienes un 70 % de probabilidades de encontrarte a un ladr\u00f3n en esta zona\u201d, \u00bfva a encontrarlo porque le dijeron que \u201ctiene probabilidades de hacerlo?\u201d.<\/p>\n<p><span class=\"embed-youtube\" style=\"text-align:center; display: block;\"><iframe class=\"youtube-player\" type=\"text\/html\" width=\"640\" height=\"390\" src=\"https:\/\/www.youtube.com\/embed\/wIQ2Xhov7D4?version=3&amp;rel=1&amp;fs=1&amp;showsearch=0&amp;showinfo=1&amp;iv_load_policy=1&amp;wmode=transparent\" frameborder=\"0\" allowfullscreen=\"true\"><\/iframe><\/span><\/p>\n<p><strong>Sin salida<\/strong><\/p>\n<p>Si cualquier organizaci\u00f3n gubernamental o comercial emplea algoritmos de Big Data y no te gusta, no puedes decir: \u201cHasta aqu\u00ed, me voy\u201d. Nadie te va a preguntar si quieres ser parte de la investigaci\u00f3n del Big Data o no. O peor a\u00fan: no te van a decir si ya eres parte de ella.<\/p>\n<p>Bueno, no me malinterpret\u00e9is: no me refiero a que todos los errores antes mencionados sean una buena raz\u00f3n para que la humanidad rechace los algoritmos de predicci\u00f3n avanzada. Obviamente, el Big Data est\u00e1 empezando y lleg\u00f3 para quedarse definitivamente. Pero tal vez es el momento perfecto para reflexionar sobre estos problemas, y que luego no sea demasiado tarde para solucionarlos.<\/p>\n<p>Deber\u00edamos crear algoritmos y datos de entrada m\u00e1s transparentes y protegidos, conceder a los investigadores independientes el acceso al c\u00f3digo fuente, poner en orden la legislaci\u00f3n, empezar a informar a la gente de lo que est\u00e1 pasando con este tema \u201cmatem\u00e1tico\u201d. Y, definitivamente, tenemos que aprender de los errores del pasado.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ya sabemos que el Big Data es incre\u00edble, pero como cualquier otra tecnolog\u00eda, especialmente una nueva, tiene sus problemas. Veamos lo que podr\u00eda ir mal con sus implementaciones. <\/p>\n","protected":false},"author":421,"featured_media":6891,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2737],"tags":[2280,2442,1792,2444,2443,37,2441],"class_list":{"0":"post-6890","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-privacy","8":"tag-32c3","9":"tag-algoritmos","10":"tag-big-data","11":"tag-mine-ria-de-datos","12":"tag-prediccion-de-crimen","13":"tag-privacidad","14":"tag-software-de-prediccion"},"hreflang":[{"hreflang":"es-mx","url":"https:\/\/latam.kaspersky.com\/blog\/nine-big-data-issues\/6890\/"},{"hreflang":"en-us","url":"https:\/\/usa.kaspersky.com\/blog\/nine-big-data-issues\/6929\/"},{"hreflang":"es","url":"https:\/\/www.kaspersky.es\/blog\/nine-big-data-issues\/8022\/"},{"hreflang":"it","url":"https:\/\/www.kaspersky.it\/blog\/nine-big-data-issues\/7813\/"},{"hreflang":"ru","url":"https:\/\/www.kaspersky.ru\/blog\/nine-big-data-issues\/11411\/"},{"hreflang":"x-default","url":"https:\/\/www.kaspersky.com\/blog\/nine-big-data-issues\/11673\/"},{"hreflang":"fr","url":"https:\/\/www.kaspersky.fr\/blog\/nine-big-data-issues\/5450\/"},{"hreflang":"pt-br","url":"https:\/\/www.kaspersky.com.br\/blog\/nine-big-data-issues\/6271\/"},{"hreflang":"de","url":"https:\/\/www.kaspersky.de\/blog\/nine-big-data-issues\/7425\/"},{"hreflang":"ja","url":"https:\/\/blog.kaspersky.co.jp\/nine-big-data-issues\/10862\/"},{"hreflang":"ru-kz","url":"https:\/\/blog.kaspersky.kz\/nine-big-data-issues\/11411\/"},{"hreflang":"en-au","url":"https:\/\/www.kaspersky.com.au\/blog\/nine-big-data-issues\/11673\/"},{"hreflang":"en-za","url":"https:\/\/www.kaspersky.co.za\/blog\/nine-big-data-issues\/11673\/"}],"acf":[],"banners":"","maintag":{"url":"https:\/\/latam.kaspersky.com\/blog\/tag\/32c3\/","name":"32C3"},"_links":{"self":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/6890","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/users\/421"}],"replies":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/comments?post=6890"}],"version-history":[{"count":1,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/6890\/revisions"}],"predecessor-version":[{"id":9680,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/posts\/6890\/revisions\/9680"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media\/6891"}],"wp:attachment":[{"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/media?parent=6890"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/categories?post=6890"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/latam.kaspersky.com\/blog\/wp-json\/wp\/v2\/tags?post=6890"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}