PROTECCIÓN DATA

BLOG

El conocimiento es poder (Francis Bacon)

Blog
Compartir Facebook Twitter Linkedin
JAVIER CASAL TAVASCI

Anonimización de datos personales

La anonimización es una técnica aplicada a los datos personales para obtener una desidentificación irreversible, según el Dictamen 05/2014 sobre técnicas de anonimización del Grupo de Trabajo sobre Protección de Datos del Artículo 29.

La anonimización es el resultado de un tratamiento de datos personales destinado a impedir de forma irreversible la identificación del interesado; es decir, se parte de datos personales para convertirlos en anónimos y que pierdan su vínculo con la persona a la que se refiere, garantizando además que dicho proceso no supondrá una distorsión de los datos reales. Dicha definición se alinea con el RGPD, que considera los datos anonimizados como no personales, siempre que no sea posible reidentificar a los individuos mediante medios razonables.

Existen diversas técnicas de anonimización; lo ideal es la combinación de varias para asegurar una anonimización más completa y transversal. El RGPD no establece normas prescriptivas sobre técnicas concretas, otorgando al responsable del tratamiento libertad para seleccionar las técnicas de anonimización que considere más adecuada para el caso concreto.

Es fundamental entender que no existen técnicas de anonimización infalibles. Se trata de dificultar al máximo la reidentificación de los afectados, de forma que el esfuerzo de reidentificación conlleve un coste elevado para que no pueda ser abordado en términos de relación esfuerzo–beneficio; es decir, que la reidentificación implique un esfuerzo considerable, hasta tal punto que el posible beneficio a obtener pueda llegar a ser despreciable, o bien que dicho esfuerzo no sea asumible por la persona o entidad con acceso a la información anonimizada.

En el diseño del proceso de anonimización, es esencial prever las consecuencias de una eventual reidentificación, que podría causar perjuicios o vulnerar los derechos de los interesados. Esto incluye riesgos derivados de negligencias, como fugas de información por personal no capacitado, ausencia de políticas adecuadas o revelaciones intencionadas que expongan claves o variables de identificación. Para mitigarlos, se recomienda implementar medidas como la segregación de entornos, controles de acceso estrictos y revisiones periódicas del riesgo residual, integrando principios de privacidad por diseño y por defecto del RGPD, así como auditorías éticas y pruebas de penetración.

Técnicas de anonimización

Entre las diversas técnicas de anonimización de datos, destacan las basadas en algoritmos, como los algoritmos de hash, cuya utilidad es incuestionable, pues generan una «huella digital» única e irreversible para reemplazar datos reales. Sin embargo, un algoritmo de hash por sí solo no resulta suficiente para hacer irreversible la anonimización. Si lo que queremos es garantizar la irreversibilidad del proceso de anonimización se puede aplicar una anonimización por capas, es decir, crear una segunda anonimización de los datos ya anonimizados o combinar varios algoritmos de hash con claves secretas no triviales.   

Aparte de los algoritmos de hash, destacan los algoritmos de cifrado, que permiten descifrar los valores cifrados al usuario que disponga de la correspondiente clave. No son tan efectivos como los de hash, pero ofrecen un grado de seguridad aceptable. No constituyen anonimización verdadera, sino más bien una forma de seudonimización o protección temporal. Ofrecen seguridad aceptable en contextos controlados, pero no eliminan el riesgo de reidentificación si la clave se compromete, como se aclara en las directrices 01/2025 del CEPD, sobre seudonimización.

La anonimización basada en algoritmos es la técnica más avanzada y recomendada, si bien existen otras, que pueden ser empleadas para la anonimización de datos menores como la generalización, la aleatorización, la permutación, la generación de datos sintéticos y la privacidad diferencial. Estas deben combinarse para minimizar riesgos, y se distinguen de la seudonimización, que no es anonimización ya que mantiene la posibilidad de reversión.

La generalización convierte datos individuales en categorías más genéricas, en los que no quepa solo un individuo, sino un grupo de ellos, haciendo imposible identificar a uno de ellos por separado. Se trata de convertir un dato específico en uno genérico. Por ejemplo, en lugar de un salario exacto (3.600 euros), se usa un intervalo (entre 3.000 y 4.000 euros), o se agrupa en rangos (20-29 años). 

La aleatorización modifica la veracidad de los datos para romper el vínculo existente entre los datos y la persona. La teoría es que si los datos se hacen suficientemente ambiguos no será fácil identificar al sujeto. Por ejemplo, aunque la altura de una persona se mida originalmente hasta el centímetro más próximo, el conjunto de datos anonimizado puede contener valores con una exactitud de ± 10 cm. Si se utiliza esta técnica de manera competente, un tercero no podrá identificar a una persona y tampoco debería ser capaz de restaurar los datos o de averiguar cómo se han modificado. Esta técnica se conoce como «adición de ruido». El nivel de ruido dependerá de la cantidad y el tipo de información que se requiera, así como del impacto que tenga la revelación de los atributos protegidos en la privacidad de las personas.

La permutación es una técnica que consiste en el intercambio de valores contenidos en el conjunto de datos, trasladándolos de un registro a otro. Por ejemplo, en un conjunto de datos médicos, como «centro hospitalario», «razón de la hospitalización» y «síntomas», se intercambian los datos contenidos en cada categoría por los de otra. En la mayoría de los casos, existe una relación lógica entre los valores; de modo que si se llevara a cabo la permutación en uno solo de estos valores, esta técnica será fácilmente detectada, incluso podría revertirse. Al igual que ocurre con la adición de ruido, la permutación por sí sola no permite obtener la anonimización, por lo que debe combinarse con el procedimiento de eliminación de atributos obvios (como nombres o DNI) o cuasi-identificadores (como combinaciones de edad y género).

La seudonimización no es una técnica de anonimización, sino una medida de seguridad que sustituye datos personales por identificadores artificiales o pseudónimos, manteniendo la posibilidad de reidentificación con información adicional como una clave. Un ejemplo es la sustitución del nombre de usuario por un pseudónimo o código de cliente. Según las directrices 01/2025 del CEPD, los datos seudonimizados siguen siendo personales bajo el RGPD, a diferencia de los anonimizados, y requieren medidas como almacenamiento separado de claves y controles de acceso.

Más información

Guía básica de anonimización

Guía de orientaciones y garantías en los procedimientos de anonimización de datos personales  

Diez malentendidos relacionados con la anonimización 

La adopción de técnicas de seudonimización. El caso del sector sanitario

 

error: El contenido del blog está protegido por derechos de propiedad intelectual mediante su registro en Safe Creative. Queda prohibida la reproducción, distribución, transformación, transcripción, almacenamiento o recuperación total o parcial de este contenido, sin el permiso previa y expreso del titular de los derechos. La infracción de los derechos puede constituir un delito contra la propiedad intelectual (artículo 270 y ss. del CP). Para requerir la autorización pueden dirigirse al titular enviando un correo electrónico a info@protecciondata.es