El RGPD se refiere en varias ocasiones a la seudonimización y a la anonimización como técnicas para garantizar la seguridad de los datos personales, pero no basta con implementarlas, los riesgos de reidentificación deben revisarse. Una de las técnicas para gestionar estos riesgos es el análisis de la K-Anonimidad.

Qué es la K-anonimidad

En palabras de la AEPD, la K-Anonimidad es “una propiedad de los datos anonimizados que permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes en un conjunto de datos en el que se han eliminado los identificadores. Dicho de otro modo, es una medida del riesgo de que agentes externos puedan obtener información de carácter personal a partir de datos anonimizados”.

Para valorar la K-Anonimidad de un registro, es necesario distinguir en ese registro entre los siguientes tipos de datos:

  1. Atributos clave o identificadores: son esos campos que incluyen datos que identifican directamente a los sujetos (nombre, DNI, nº de pasaporte, …).
  2. Cuasi-identificadores: son campos que por sí solos no identifican a un individuo pero que, al ser combinados con otros cuasi-identificadores, sí son capaces de señalar forma unívoca a un sujeto (edad, localidad, código postal, nacionalidad, …).
  3. Atributos sensibles: son campos que incluyen datos que pueden tener un mayor impacto en la privacidad de un individuo concreto, e incluye aunque no se limita a las categorías especiales de datos del artículo 9 del RGPD.

Los identificadores deben ser removidos del registro para anonimizarlo, mientras que los atributos sensibles pueden constar, si son objeto de estudio (principio de minimización), pero completamente disociados del sujeto.

La K-anonimidad estudia la fuerza de los cuasi-identificadores en un conjunto de datos y puede incrementarse generalizando o eliminando registros.

Se trata de una propiedad presente en los datos anónimos y mide que cada atributo cuasi-identificador tenga otros atributos idénticos en el mismo conjunto de datos. Por ejemplo, si existe un segundo atributo idéntico para cada registro, la solución estará 2-anonimizada.

Por el contrario, si un cuasi-identificador es único en el registro, el valor de “K” será 1 y ello implica que el individuo sea perfectamente identificable dentro de su grupo. A mayor número de cuasi-identificadores idénticos, mayor valor de “K” y mayores garantías de privacidad.

Código postalEdadColesterol
3700340S
2810844S
2470037N
2470037N
3700340S
2810844S

Difícilmente los registros de un conjunto de datos vayan a presentar semejantes coincidencias y ser K-anónimos. Es por ello que la K-anonimidad se consigue transformando los datos.

Cómo hacer una solución K-anónima

Dos técnicas ampliamente utilizadas para incrementar el valor de K en un conjunto de datos son la generalización y la eliminación.

Generalización

La generalización logra incrementar la “K” transformando los cuasi-identificadores a otro valor, incluyéndolos dentro de un intervalo o jerarquía. Un ejemplo de la aplicación de la generalización por intervalos sería reemplazar, en la tabla anterior, todos los valores de edad entre 40 y 49 años por un rango “40 – 49”.

La jerarquía, por otro lado, es útil cuando existe un elemento jerárquico superior común al que poder recurrir. Así, en la tabla anterior se puede transformar el código postal para que solo refleje la provincia.

Aplicando ambas técnicas, la tabla anterior quedaría así:

Código postalEdadColesterol
37***40 – 49S
28***40 – 49S
24***30 – 49N
24***30 – 49N
37***40 – 49S
28***40 – 49S

Eliminación

El otro método para implementar la K-anonimidad es la eliminación, que es la adecuada cuando existen registros que se alejan demasiado del rango. Por ejemplo, si la tabla anterior incluyese otro registro con los cuasi-identificadores código postal “50011” y edad “13”, tratar de incluir estos atributos en un rango o jerarquía para conseguir mayor K-anonimidad podría llevar a una pérdida de precisión tan acusada que los datos dejarían de ser útiles. Por ello, la solución adecuada pasa por combinar la eliminación con la generalización.

Además, como bien indica la AEPD, es conveniente eliminar los registros con valores muy poco usuales pues estos aumentan significativamente la probabilidad de reidentificación.

Garantías y vulnerabilidades de la K-anonimización

Un referente en técnicas de anonimización es la Opinión 5/2014 sobre técnicas de anonimización, de 10 de abril de 2014, del GT29. En este, el GT29 indicó que, para que una solución sea anónima, esta “[debe impedir] a todos singularizar a una persona en un conjunto de datos, vincular dos registros en un conjunto de datos (o dos registros pertenecientes a conjuntos diferentes) e inferir cualquier tipo de información a partir de dicho conjunto”.

Para que una solución sea anónima, esta debe ofrecer resistencia a la singularización, vinculabilidad e inferencia.

La K-anonimidad es útil para resolver el problema de la singularidad, pues los mismos atributos son compartidos por K usuarios y por lo tanto no es posible señalar unívocamente a un individuo dentro de un grupo de K usuarios.

En una solución K-anónima la vinculabilidad está limitada, pero aún es posible vincular registros a través de los grupos de K usuarios. En este caso, dentro de cada grupo existiría una probabilidad de que dos registros correspondan a los mismos cuasi-identificadores de 1/K.

La principal vulnerabilidad que presenta la K-anonimidad es que no presenta ningún tipo de resistencia frente a ataques por inferencia. Al estar todos los individuos K en un mismo grupo, si el atacante conoce a qué grupo pertenece un individuo le será fácil extraer valor de esta identificación.

En el ejemplo anterior, si el atacante conoce que un individuo de 40 años de edad, con residencia en Madrid, fue incluido en ese estudio, sabrá con absoluta certeza que se encuentra en el rango de 40-49 y, por tanto, tiene colesterol.

Errores comunes al implementar técnicas de K-anonimidad

En el citado dictamen, el GT29 también advierte sobre los errores comunes al implementar este tipo de técnica:

  1. No considerar todos los cuasi-identificadores: un error habitual es incrementar artificialmente el valor de K reduciendo el grupo de cuasi-identificadores, lo que hace más fácil crear grupos de usuarios K debido al poder inherente de identificación que pueden tener los atributos sensibles.
  2. Buscar un valor de K muy pequeño: si el valor de K es demasiado pequeño, el peso que tiene cualquier individuo en el grupo es demasiado insignificante y los ataques por inferencia tendrán más probabilidad de éxito.
  3. No dar a los grupos el mismo peso: que unos individuos tengan demasiada representación en un grupo y otros demasiado poca puede ser problemático, por ello es recomendable que K sea suficientemente alto.

Una solución K-anónima no es necesariamente anónima

Como se ha dicho, una solución anónima debe impedir a cualquiera singularizar a un individuo en un conjunto de datos, vincular dos registros en un mismo conjunto (o entre dos conjuntos de datos separados) e inferir cualquier información a partir de dicho conjunto.

Debido a que la K-anonimidad mediante técnicas de generalización o eliminación no trata el riesgo de que se infiera información a partir del conjunto de datos, esta técnica, por sí sola, no será suficiente para anonimizar un conjunto de datos. Dicho esto, lo más normal es que las herramientas que anonimizan conjuntos de datos apliquen no se limiten a aplicar únicamente técnicas de K-anonimidad.

Con todo, la AEPD finaliza con una buena y breve conclusión su nota técnica, señalando:

La K-anonimidad es una técnica orientada a prevenir la reidentificación de un sujeto concreto dentro de un grupo, ya sea mediante generalización de los atributos cuasi-identificadores o la eliminación de registros fuera de rango, sin embargo, no ofrece garantías para evitar que sea posible, conocida la pertenencia de un sujeto a dicho grupo, inferir información de carácter sensible que tenga asociada.

Quizás también te interese…

Entidades y empresas obligadas a cumplir con el RGPD
Representante del RGPD en la UE. Protección de datos personales y privacidad. Unión Europea
Delegado de protección de datos en el RGPD (DPO - DPD). Cuando debe designarse, requisitos, funciones y salario.
Cómo transferir datos fuera de la UE transferencias internacionales de datos
Principios de protección de datos en el RGPD
Guía del registro de actividades del tratamiento del RGPD
Datos sensibles en el RGPD
Cómo atender los derechos del RGPD
Evaluación de impacto de protección de datos en el RGPD. EIPD o DPIA.
Requisitos de seguridad de la información en el RGPD
Multas y sanciones del rgpd
RGPD y blockchain, problemas y soluciones para el cumplimiento normativo