Protección Data

BLOG

El conocimiento es poder (Francis Bacon)

Blog
Compartir Facebook Twitter Linkedin
JAVIER CASAL TAVASCI

Datos sintéticos

Entrenar a los algoritmos requiere una gran cantidad de datos, pero conseguirlos no siempre es fácil.

En ocasiones, los datos necesarios son inaccesibles por razones de privacidad o seguridad. También puede que no existan suficientes datos disponibles porque el uso ocurre con escasa frecuencia o que se encuentran tan fragmentados que no sea posible tener una visión clara de lo que ocurre con ellos en el seno de una organización o en relación a un producto o proceso o que adquirirlos salga tan caro que resulte antieconómico. Ante este panorama, ¿qué se puede hacer? Recurrir a los datos sintéticos.

Los «datos sintéticos» son datos generados artificialmente que se pueden utilizar para entrenar modelos de inteligencia artificial cuando los datos reales carecen de calidad, volumen o variedad. Creados desde cero o a partir de datos reales, los datos sintéticos deben reproducir las características y la estructura de los datos reales, permitiendo sacar conclusiones similares. La síntesis de los datos puede llevarse a cabo mediante algoritmos de «deep learning», modelados diferenciales o árboles de decisión, entre otros.

Cuando tratamos con datos reales el proceso de tratamiento es largo, pues hay que recopilarlos, etiquetarlos, procesarlos y superar los controles de cumplimiento. Con datos sintéticos, los modelos de inteligencia artificial se pueden desarrollar, probar y validar antes de que los datos del mundo real estén disponibles.

También pueden ser empleados como tecnología de privacidad mejorada, pues permiten la aplicación de un enfoque de protección de datos desde el diseño cuando se trata de casos de uso que necesitan procesar datos personales. Para la AEPD, los datos sintéticos representan «una poderosa herramienta para implementar el enfoque de protección de datos desde el diseño, ya que los datos personales no están expuestos y pueden usarse en múltiples aplicaciones».

Los datos sintéticos han ayudado, por ejemplo, a desarrollar sistemas de comprensión del lenguaje natural, algoritmos de visión para sistemas de vehículos autónomos o modelos de detección de fraude para instituciones financieras, entre otras aplicaciones.

También son útiles para simular eventos de «cisne negro». Se trata de escenarios que rara vez ocurren pero que podrían tener un fuerte impacto de ocurrir. Por  su rareza no suele haber datos históricos reales, de ahí la puesta en valor de los datos sintéticos, que pueden ayudar a simular esas situaciones, a fin de modelar una respuesta.

Herramientas de datos sintéticos

En la actualidad, existen herramientas de código abierto que están disponibles para aquellas organizaciones interesadas en generar sus propios datos sintéticos. Las siguientes son algunas de las más populares:

  • GPT-J: alternativa de código abierto a la herramienta de generación de textos GPT de OpenAI.
  • Synthea: habitual en el campo sanitario.
  • SymPy: se utiliza para crear conjuntos de datos sintéticos más personalizados, en respuesta a necesidades más específicas.
  • Synthpop: permite generar datos demográficos sintéticos.
  • faker: puede generar datos sintéticos como nombres, direcciones, correos electrónicos, números de seguridad social y otros datos.
  • SDV: permite generar tablas, bases de datos relacionales y modelos de series temporales.

Si quieren ejemplos de empresas que emplean datos sintéticos, entre otras, cabría citar:

Conclusión 

La creación de datos sintéticos puede resultar de gran utilidad, por ejemplo, para realizar pruebas de seguridad y detección de fraudes, pruebas de rendimiento y estrés y para el aprendizaje automático de sistemas de inteligencia artificial.

En cualquier caso, si emplean datos sintéticos han de anunciarlo expresamente en un ejercicio de transparencia, siendo conscientes del margen de error que éstos pueden entrañar.

A la hora de elaborar este artículo me he documentado a través de diversas fuentes, entre ellas, les recomiendo el siguiente vídeo que me parece muy ilustrativo.

error: Contenido protegido por derechos de propiedad intelectual. Se prohíbe su reproducción, transformación, distribución y comunicación pública a título lucrativo por cualquier medio y soporte. Advertir que la infracción de los derechos relativos a la propiedad intelectual es constitutiva de delito (arts. 270 y ss. CP).