En medio del auge de la Inteligencia Artificial (IA), surge una pregunta que casi nunca encuentra respuesta satisfactoria. ¿Cómo entrenan las empresas a sus modelos de lenguaje? ¿Qué información utilizan? Allí hay una brecha que, seguramente, esconde varias ilegalidades. Como muestra, Proof News reveló una investigación que asegura que Apple, Nvidia y Anthropic usaron transcripciones de más de 170,000 videos de Youtube sin permiso para entrenar sus IA.
Por donde analicemos esta situación, las compañías señaladas parecen condenadas a defenderse en los tribunales. La investigación reafirma una de las preocupaciones constantes de las empresas que albergan contenido o de los propios creadores. Existe la creencia de que una gran mayoría de las herramientas de IA están siendo entrenadas con datos desviados sin que los autores del material sean conscientes o expidan su consentimiento para ello.
El caso no morirá en el archivero (de eso estamos seguros). El escenario más probable es que Google tome acciones legales contra las empresas involucradas. Previamente, ejecutivos de Youtube habían dicho que el uso no autorizado del material de la plataforma para entrenar modelos de IA era una violación flagrante de derechos de autor y la propiedad. Para ser honestos, creemos que todavía hay muchos de estos comportamientos no éticos escondidos bajo la arena.
¿Qué dice la investigación de Proof News?
De acuerdo con la investigación de Proof News, el material que usó Apple, Nvidia y Anthropic de Youtube para entrenar su IA se compone de alrededor de 172,535 videos. Todos estos clips habrían sido desviados de un total de más de 48,000 canales, entre los cuales aparecen nombres de algunos de los youtubers e influencers más importantes del mundo.
Por ejemplo, las transcripciones de videos incluyen material de MKBHD, un canal que tiene alrededor de 19 millones de suscriptores. También sobresale el nombre de MrBeast, un creador de contenido que tiene cerca de 289 millones de seguidores en la plataforma de videos. Lo mismo ocurre con Jacksepticeyey (31 millones), PewDiePie (111 millones), Stephen Colbert, John Oliver, Jimmy Kimmel y más.
La violación contra el material de Youtube y los creadores ocurrió cuando las empresas usaron una base de datos llamada Pile, la cual es accesible a cualquier persona que tenga Internet. No parece que ninguna de estas empresas vaya a salvarse, pues hay declaraciones de los acusados donde reconocen haber empleado ese conjunto de datos. Por ejemplo, Apple la empleó para el entrenamiento de OpenELM, lanzado el pasado mes de abril.
La investigación advierte sobre el comportamiento poco ético y descuidado por parte de las grandes tecnológicas.
“Las empresas de IA suelen ser reservadas sobre sus fuentes de datos de entrenamiento, pero una investigación de Proof News descubrió que algunas de las empresas de IA más ricas del mundo han utilizado material de miles de videos de Youtube para entrenar a la IA. Las empresas lo hicieron a pesar de las reglas de Youtube contra la recolección de materiales de la plataforma sin permiso”.
Los creadores y medios afectados
Un aspecto importante que debemos aclarar es que la base de datos utilizada no incluye ningún video o imagen de Youtube. En cambio, solo se tratan de transcripciones de clips alojados en la plataforma. Además de los creadores de contenido como Marques Brownlee y MrBeast, también hay grandes medios afectados. Entre ellos, se encuentran The New York Times, BBC y ABC News.
Por la dimensión del caso, era un hecho que no iba a pasar de largo para los creadores y youtubers más prominentes. Aquí podría haber varios millones de dólares en juego. En su cuenta de X, antes Twitter, el usuario Marques Brownlee escribió:
“Apple ha obtenido datos para su IA de varias empresas (…) Uno de ellos extrajo toneladas de datos / transcripciones de videos de Youtube, incluido el mío (…) Este va a ser un problema en evolución durante mucho tiempo”.
Por el momento, ninguna de las empresas infractoras ha emitido un mensaje, ni respondido a las solicitudes de los medios de comunicación. Podemos jurar que ya tienen a su equipo legal trabajando en el caso para tratar de resolverlo de la mejor manera posible.
Reflexión Editorial: ¿Defender lo indefendible?
A nuestros ojos, las bases de datos usadas para entrenar tecnologías de IA no pueden usarse con total libertad y a placer. Es un activo valioso de cada plataforma, además de que todo se vuelve más complejo cuando se involucra material de creadores independientes.
El reciente caso anticipa un conflicto entre Apple y Nvidia contra Youtube, debido a un criticable comportamiento para entrenar modelos de IA. Sin embargo, no es ni será el único caso que se presente y acabe en tribunales. Actualmente, las compañías de tecnología tienen un apetito voraz por datos de entrenamiento que les permitan desarrollar modelos de Inteligencia Artificial cada vez más capaces.
En última instancia, este caso es un llamado a la responsabilidad y la ética en la industria de la IA. Las empresas deben adoptar prácticas más transparentes y respetuosas de los derechos de autor, y trabajar en estrecha colaboración con los creadores de contenido para desarrollar modelos de IA que beneficien a todos los involucrados. Solo así podremos asegurar un futuro en el que la inteligencia artificial se desarrolle de manera sostenible y con el debido respeto a los derechos de los individuos.
¿Cómo crees que termine este caso y quién ganará? ¡Te leemos!