Entrenar algoritmos de inteligencia artificial requiere una gran cantidad de datos de calidad, pero conseguirlos no siempre es fácil.
También puede que no existan suficientes datos reales porque ciertos eventos o usos son muy infrecuentes, o que los datos están tan fragmentados y dispersos que resulta imposible obtener una visión integrada y útil dentro de una organización, producto o proceso, o que adquirirlos salga tan caro que resulte antieconómico. Entonces, ¿qué se puede hacer? Recurrir a los datos sintéticos.
Los «datos sintéticos» son datos generados artificialmente que se pueden utilizar para entrenar modelos de inteligencia artificial cuando los datos reales carecen de calidad, volumen o variedad. Creados desde cero o a partir de datos reales, los datos sintéticos deben reproducir las características y la estructura de los datos reales, permitiendo sacar conclusiones similares. La síntesis de los datos puede llevarse a cabo mediante algoritmos de «deep learning», modelos probabilísticos, modelos estadísticos avanzados, entre otros.
A diferencia del tratamiento de datos reales que implica recopilación, anonimización, etiquetado, procesamiento y estrictos controles de cumplimiento normativo, los datos sintéticos permiten desarrollar, probar y validar modelos de inteligencia artificial de forma mucho más ágil, incluso antes de disponer de datos reales suficientes.
También pueden ser empleados como tecnología de privacidad mejorada, pues permiten la aplicación de un enfoque de protección de datos desde el diseño cuando se trata de casos de uso que necesitan procesar datos personales. Para la AEPD, los datos sintéticos representan «una poderosa herramienta para implementar el enfoque de protección de datos desde el diseño, ya que los datos personales no están expuestos y pueden usarse en múltiples aplicaciones».
Los datos sintéticos han ayudado, por ejemplo, a desarrollar sistemas de comprensión del lenguaje natural, algoritmos de visión para sistemas de vehículos autónomos o modelos de detección de fraude para instituciones financieras, entre otras aplicaciones.
También son útiles para simular eventos de «cisne negro», es decir, escenarios que rara vez ocurren pero que, de producirse, podrían tener un fuerte impacto. Debido a su rareza, no suelen existir datos históricos reales, de ahí la importancia de los datos sintéticos, que pueden ayudar a simular esas situaciones con el fin de modelar una respuesta adecuada.
La AEPD ha publicado la traducción al español de la Guía sobre generación de datos sintéticos, un documento elaborado por la Autoridad Nacional de Protección de Datos de Singapur (PDPC) por su valor didáctico y especial interés para responsables, encargados de tratamientos y delegados de protección de datos, a quienes puede proporcionar orientación práctica y técnica.
Herramientas de datos sintéticos
Existen numerosas herramientas, tanto de código abierto como comerciales. Las más populares son:
- Faker: Genera datos comunes y variados, como nombres, direcciones, correos electrónicos o números de seguridad social falsos. Es muy popular para hacer pruebas en aplicaciones sin usar datos reales.
- Synthea: Diseñada para el sector sanitario, es capaz de crear datos sintéticos de pacientes, historiales médicos y tratamientos ficticios para investigaciones y desarrollo de soluciones médicas sin poner en riesgo datos reales de personas.
- Synthpop: Se utiliza para crear datos demográficos ficticios, como información sobre edades, género o características sociales de una población. Es ideal para estudios sociales o para probar programas que manejan datos de personas.
- SDV (Synthetic Data Vault): Crea datos sintéticos en forma de tablas, bases de datos y series temporales (datos que cambian con el tiempo). Lo mejor es que mantiene las relaciones entre los datos para que sean realistas y útiles para entrenar modelos de IA.
- Gretel AI: Ofrece modelos y servicios para crear datos sintéticos de forma flexible y personalizada. Es ideal para desarrolladores que quieren adaptar los datos a sus necesidades específicas y escalar la generación cuando lo necesiten.
- Mostly AI: Es una de las soluciones más precisas para crear datos sintéticos realistas, especialmente en sectores como finanzas y seguros. Además, permite automatizar la generación de datos en la nube para facilitar su uso continuo.
Conclusión
Los datos sintéticos se han convertido en una herramienta esencial para acelerar el desarrollo de la inteligencia artificial, mejorar la privacidad, reducir costes y habilitar casos de uso que de otro modo serían inviables.
Son especialmente útiles en pruebas de seguridad, detección de fraudes, pruebas de estrés y rendimiento, simulación de escenarios extremos y entrenamiento de modelos de machine learning. No obstante, si emplean datos sintéticos conviene indicarlo en un ejercicio de transparencia.
A la hora de elaborar este artículo me he documentado a través de diversas fuentes, entre ellas, les recomiendo el siguiente vídeo que me parece muy ilustrativo.


