En febrero de 2024, 404 Media reveló que Automattic (dueña de WordPress y Tumblr) vendía a empresas de IA cerca de un millón de posts diarios de usuarios para entrenar sus modelos.
En una publicación interna, Cyle Gage, gerente de producto de Tumblr, reconoció que recopilaron una gran cantidad de publicaciones de usuarios para enviarlas a OpenAI y Midjourney, con el objetivo de entrenar sus modelos generativos. Entre la documentación recopilada por Automattic —sin autorización de los usuarios de sus plataformas— se encontraba:
- Publicaciones privadas en blogs públicos.
- Publicaciones en blogs eliminados o suspendidos.
- Preguntas sin respuesta (normalmente no son públicas hasta que se responden).
- Respuestas privadas (estas solo se muestran al receptor y no son públicas).
- Contenidos de blogs de socios premium (blogs de marcas reconocidas).
Automattic recopiló publicaciones de usuarios en WordPress y Tumblr para venderlas, es decir, para lucrarse a costa de los autores, lo que supone una violación de las reglas de juego. Los acuerdos con OpenAI y Midjourney son confidenciales, o sea, que no se sabrá nada al respecto.
Nota de prensa
Tras la publicación de la noticia, Automattic publicó una nota de prensa.
En la nota afirman: «estamos trabajando directamente con empresas seleccionadas de inteligencia artificial, siempre que sus planes se alineen con lo que le importa a nuestra comunidad: atribución, exclusión voluntaria y control». Argumentan que «solo compartiremos contenido público alojado en WordPress.com y Tumblr, y únicamente de sitios que no hayan optado por no participar. No incluimos contenido de sitios alojados en otros lugares, incluso si utilizan complementos de Automattic como Jetpack o WooCommerce. Nuestras colaboraciones respetarán todas las opciones de cancelación de suscripción. También planeamos ir un paso más allá e informar periódicamente a nuestros colaboradores sobre las personas que cancelan su suscripción recientemente y solicitar que su contenido se elimine de fuentes anteriores y de futuras capacitaciones».
Los usuarios de WordPress.com y Tumblr pueden optar por excluirse, pero ¿por qué no poner por defecto que los contenidos no se compartan con terceros?
Varias plataformas en línea han hecho acuerdos similares con empresas de inteligencia artificial. En 2023, Shutterstock firmó un acuerdo de licencia de contenido con OpenAI con una duración de seis años. Reddit celebró un acuerdo con Alphabet, propietaria de Google, por valor de 60 millones de dólares al año.
Conclusión
Este blog lo hago en WordPress y comparto su contenido gratuitamente porque quiero; eso sí, me reservo los derechos de autor para el caso de que alguien haga un uso lucrativo del mismo, o sea, si yo no me lucro por las visitas al blog –lógicamente– no voy a dejar que otros lo hagan.
La cuestión es que cualquier información publicada en Internet es susceptible de ser usada para entrenar a la inteligencia artificial, es decir, creamos contenido, lo compartimos gratis y las empresas que nos dan soporte para nuestras publicaciones se lucran a cuenta de nuestro esfuerzo.
Esta es una muestra más del abuso de las grandes compañías que campan a sus anchas en Internet, tratando con datos personales o derechos de autor como si fueran propios. Lo peor es que siempre se amparan en acuerdos de confidencialidad para evitar informar a los afectados. Nos enteramos por las filtraciones internas, sino no sabríamos nada.
Creaciones generadas por la inteligencia artificial. Retos legales


