Cada año, MIT Technology Review hace una selección de tecnologías emergentes. ¿Esa selección funciona? Bueno, en la lista de 2001 tenemos por un lado la minería de datos, que ahora está empezando a darnos dolores de cabeza a los ciudadanos y cuya relevancia solo puede seguir creciendo en el futuro, junto a los sistemas DRM, que parece que han fracasado completamente. En la lista de 2013 tenemos los implantes de memoria; veremos en 2025 qué tal va ese tema.
10 Breakthrough technologies 2013
Antes del verano dedicaron un monográfico a la confluencia de la creciente potencia de la minería de datos y la creciente abundancia de datos de carácter personal que se acumulan en algún servidor...
Big data gets personal
en el que es imprescindible lectura el siguiente artículo:
Patrick Tucker (2013). Has big data made anonymity impossible? MIT Technology Review, 7 de mayo de 2013.
La idea con la que uno tiene que quedarse es que "anonimizar" los datos eliminando las referencias personales (nombre, dirección, etc.) es ya inútil, puesto que, cuando los datos generados por un individuo son suficientemente complejos, cobran vida propia y autoconsciencia y... No, no cobran vida propia pero sí ocurre que los datos de cada persona se hacen característicamente únicos y distinguibles de los de cualquier otra.
Por ejemplo, lo más probable es que ninguna otra persona sea miembro de exactamente los mismos grupos de Facebook que tú. Así que esa lista de grupos te identifica igual que tu nombre. Si Facebook vende datos sobre tu uso de la red social, ¿qué más da que no divulgue a quién corresponden, si el propio contenido de los datos identifica a una única persona entre los mil millones de usuarios?
Much of this data is invisible to people and seems impersonal. But it’s not. What modern data science is finding is that nearly any type of data can be used, much like a fingerprint, to identify the person who created it: your choice of movies on Netflix, the location signals emitted by your cell phone, even your pattern of walking as recorded by a surveillance camera. In effect, the more data there is, the less any of it can be said to be private, since the richness of that data makes pinpointing people “algorithmically possible,” says Princeton University computer scientist Arvind Narayanan.
We’re well down this path already. The types of information we’ve thought of as personal data in the past—our name, address, or credit card records—are already bought and sold by data brokers like Acxiom, a company that holds an average of 1,500 pieces of information on more than 500 million consumers around the world.
Para redondear la cuestión, el siguiente artículo deja claro que la imaginación es el único límite a lo que se puede extraer de un conjunto de datos suficientemente grande. En este caso, se han tomado todas las fotos subidas a Instagram en varias ciudades del mundo en cierto periodo de tiempo (más de dos millones de fotos). A partir de ahí, es un ejercicio de "limón+exprimidor=zumo".
Nadav Hochman, Lev Manovich (2013). Zooming into an Instagram City: Reading the local through social media. First Monday 18(7).
Desgraciadamente, echar un ojo casual a los dibujitos no basta para tener claro qué información hay en ellos. Por ejemplo, la figura 7 implica que se puede averiguar automáticamente en qué ciudad se ha tomado un conjunto de fotos, sin necesidad de identificar los lugares que aparecen retratados. La figura 15.(a) significa que se puede detectar automáticamente que un día se han hecho muchas más fotos de noche, aun sin saber la hora a la que se hizo cada foto (esa información sí se usa en la figura 14). En la figura 20 tenemos los movimientos por Tel-Aviv de personas individuales que, imagino, se pondrían nerviosas si vieran ese gráfico.
Yo me pondría.