- The New York Times es el primero de los grandes medios que busca resguardar su contenido de la inteligencia artificial (IA).
- Es la primera respuesta de un medio grande a la tendencia de recolección de datos por parte de bots de entrenamiento de modelos de generación de texto generativo.
- Cambiaron los términos y habla de que sus textos no pueden ser empleados sin el permiso por escrito de la publicación.
En lo que podría considerarse como un movimiento preventivo ante la avanzada de las nuevas tecnologías, The New York Times busca evitar que su contenido sea empleado en el entrenamiento de modelos de inteligencia artificial (IA).
De acuerdo con lo informado por Adweek este lunes 14 de agosto, el 3 de agosto pasado el NYT actualizó sus “Términos de servicio” para prohibir que su material, incluyendo texto, imágenes, clips de audio/video, metadatos y compilaciones sean utilizados en el desarrollo de “cualquier programa de software, incluyendo pero no limitado al entrenamiento de sistemas de aprendizaje automático o inteligencia artificial (IA)”.
Estas actualizaciones ahora también detallan que herramientas automatizadas, como rastreadores de sitios web diseñados para acceder o recolectar dicho contenido, no pueden ser empleadas sin el permiso por escrito de la publicación.
No cumplir con estas restricciones podría acarrear multas o sanciones, aunque estas no han sido detalladas.
A pesar de estas nuevas disposiciones, el archivo robots.txt del NYT, que instruye a los motores de búsqueda qué URLs pueden acceder y cuáles no, aparentemente no fueron alteradas, dice The Verge.
Los medios, el contenido y la IA
Esta medida podría ser una respuesta a la reciente actualización de la política de privacidad de Google, que dejó en evidencia su nueva capacidad para recolectar datos públicos de la web con fines de entrenar sus diversas soluciones de IA, como Bard o Cloud AI.
Muchos de los modelos de lenguaje que impulsan populares servicios de IA, como ChatGPT de OpenAI, se entrenan con grandes conjuntos de datos que podrían contener material protegido por derechos de autor extraído de la web (sin permiso, obviamente).
A pesar de esto, en febrero, el NYT firmó un acuerdo de 100 millones de dólares con Google, permitiendo que este presente contenido del Times en sus plataformas durante los próximos tres años.
Ambas compañías colaborarán en la distribución de contenido, suscripciones, publicidad y experimentación, lo que sugiere que estos cambios en los términos de servicio podrían apuntar a otras empresas como OpenAI o Microsoft.
OpenAI anunció la semana anterior que los operadores de sitios web pueden bloquear su rastreador web GPTBot para evitar el raspado de sus páginas.
Microsoft también ha añadido nuevas restricciones a sus propios términos y condiciones, prohibiendo el uso de sus productos de IA para mejorar otros servicios de IA, y prohibiendo el raspado de datos de sus herramientas de IA.
A principios de agosto, varias organizaciones de noticias, incluyendo The Associated Press y el Consejo Europeo de Editores, emitieron una carta abierta pidiendo a legisladores en todo el mundo que establezcan reglas que exijan transparencia en los conjuntos de datos de entrenamiento y el consentimiento de los titulares de derechos antes de emplear esos datos en capacitación.
Ahora lee:
Wendy Guevara gana, pero ¿Para qué usara el dinero?
Wendy Guevara se corona como ganadora de La Casa de los Famosos México