-
Los videos usados incluían contenido de youtubers famosos como MrBeast, PewDiePie y MKBHD.
-
Las empresas de IA requieren grandes cantidades de texto de alta calidad para construir modelos que imiten el habla y la escritura humana.
-
Apple, NVIDIA, Anthropic y Salesforce usan videos de YouTube para entrenar sus sistemas de inteligencia artificial.
Se ha dado a conocer en una reciente investigación la noticia de que empresas influyentes en el mercado como lo es Apple o NVIDIA hicieron uso de los videos de YouTube como parte fundamental del entrenamiento de sus sistemas de inteligencia artificial (IA).
En ese sentido, las empresas tecnológicas que desarrollan inteligencia artificial (IA) enfrentan un desafío crucial: la necesidad de grandes cantidades de texto de alta calidad para entrenar modelos que puedan imitar el habla y la escritura humana con precisión. Este requisito es fundamental para el avance de la esta herramienta, ya que la calidad y cantidad de los datos de entrenamiento determinan la eficacia y precisión de los modelos desarrollados.
Y es que un desafío significativo es la obtención de estos datos sin infringir derechos de autor. A menudo, el contenido utilizado proviene de fuentes accesibles públicamente, pero no siempre con el consentimiento explícito de los creadores originales. Esto ha generado controversias sobre la ética y legalidad del uso de dichos datos.
Investigación revela que Apple y NVIDIA entrenan su IA con videos de YouTube
Una investigación reciente ha revelado que tanto Apple como NVIDIA están utilizando videos de YouTube para entrenar sus sistemas de inteligencia artificial (IA). La investigación de ProofNews encontró que estas compañías, junto con Anthropic y Salesforce, han empleado contenido no autorizado para este fin.
Las empresas han entrenado sus modelos de lenguaje utilizando subtítulos de videos de youtubers famosos como MrBeast, PewDiePie y MKBHD. De hecho, se apoyaron en un conjunto de datos que incluye subtítulos de 173,536 videos provenientes de más de 48,000 canales de YouTube. Esta práctica resalta la dependencia de estas empresas en grandes volúmenes de datos de alta calidad para mejorar la capacidad de sus modelos de IA de imitar el habla y la escritura humana.
La investigación realizada por Proof News determinó que, el proceso de identificar la fuente exacta de los videos en el conjunto de datos fue complejo, en donde usaron identificaciones de video del conjunto de datos, además de consultar herramientas de acceso público de YouTube para obtener metadatos detallados como títulos, canales y categorías. Si bien las empresas como Anthropic y Salesforce han confirmado el uso de conjuntos de datos de entrenamiento como Pile, que incluye subtítulos de videos de YouTube, niegan haber actuado de manera irregular. En contraste, representantes de Nvidia optaron por no hacer comentarios, mientras que Apple, Databricks y Bloomberg tampoco respondieron a las solicitudes de comentarios.
Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids “fault” here because they’re not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024
Este descubrimiento resalta la creciente dependencia de la industria de la IA en grandes cantidades de datos de alta calidad para entrenar modelos que imiten el lenguaje humano. A menudo, estos datos provienen de una variedad de fuentes, incluidos libros, blogs, y, en este caso, contenido de plataformas de video populares como YouTube, a menudo sin el conocimiento explícito de los creadores originales.
Y es que recientemente YouTube declaró que no quiere que OpenAI use sus vídeos para entrenar a su modelo de inteligencia artificial Sora.