Apple, NVIDIA y Anthropic usaron miles de transcripciones de videos de YouTube para entrenar IA

Apple, NVIDIA y Anthropic fueron descubiertas utilizando transcripciones de YouTube —sin permiso— para entrenar modelos de IA. Esto fue presentado gracias a una investigación reciente de Proof News, demostrando que estas empresas ocuparon un dataset creado por «EleutherAI» que incluía transcripciones de más de 173.000 videos de YouTube, extraídas de más de 48.000 canales.

Sin el consentimiento de los creadores, este dataset conocido como «YouTube Subtitles», contiene transcripciones de videos de canales educativos como Khan Academy, MIT y Harvard, así como de medios de comunicación como NPR y BBC. Incluso de famosos youtubers como MrBeast, Marques Brownlee y PewDiePie.

El uso de transcripciones de YouTube ha generado controversia entre los creadores de contenido. David Pakman, anfitrión de un canal político en YouTube, declaró que casi 160 de sus videos fueron utilizados sin su conocimiento, destacando que esta práctica afecta su sustento. Similarmente, Julia Walsh, CEO de la productora Complexly, expresó su frustración por el uso no autorizado de su contenido educativo.

RELACIONADO:

YouTube endurece sus reglas contra el «AI slop» y restringe su monetización

Apple confirma un nuevo acuerdo con Broadcom para fabricar más de 15.000 millones de chips

Anthropic evalúa crear su propio chip de IA y Samsung podría hacerlo

¿Qué dicen del ‘robo’ de transcripciones?

Los representantes de las compañías implicadas, como Apple, Nvidia y EleutherAI, no han proporcionado comentarios específicos sobre esta investigación. Por otro lado, Jennifer Martinez, portavoz de Anthropic, afirmó que el dataset utilizado es sólo una pequeña parte de los subtítulos de YouTube y no viola directamente los términos de servicio de YouTube.

Sin embargo, Google ha tomado medidas para prevenir el scraping no autorizado de datos, aunque no entregaron detalles de cómo lo hacen. De igual forma, recordemos que en abril pasado el CEO de YouTube, Neal Mohan, emitió una advertencia —en aquel entonces— a OpenAI respecto al uso de los videos de la plataforma. Dejando en claro que los términos de servicio de la plataforma de videos prohíben explícitamente la descarga de transcripciones o fragmentos de clips.

El dataset «YouTube Subtitles» forma parte de «The Pile», una colección más amplia de datos accesibles y utilizados tanto por grandes corporaciones como por desarrolladores independientes. Esta práctica ha sido criticada anteriormente y ha llevado a demandas legales por violaciones de derechos de propiedad intelectual, aunque estas demandas aún no se han resuelto en los tribunales.

Mira más sobre: Anthropic Apple NVIDIA YouTube

Apple, NVIDIA y Anthropic usaron miles de transcripciones de videos de YouTube para entrenar IA

Y esta no es la primera vez que descubren el scraping no autorizado de videos.

YouTube endurece sus reglas contra el «AI slop» y restringe su monetización

Apple confirma un nuevo acuerdo con Broadcom para fabricar más de 15.000 millones de chips

Anthropic evalúa crear su propio chip de IA y Samsung podría hacerlo

LO ÚLTIMO

YouTube endurece sus reglas contra el «AI slop» y restringe su monetización

El tráiler de Avengers: Doomsday deja ver el choque que cambiará el futuro del MCU

Multa histórica a AliExpress: 550 millones de euros por vender productos ilegales

Samsung despide personal en EE. UU. mientras el negocio de teléfonos pierde impulso

Una chaqueta de cuero del CEO de Nvidia, Jensen Huang, se vendió por $960.000 USD

Hackearon Suno y descubrieron cómo usó música de YouTube y Deezer para entrenar su IA

LO ÚLTIMO

YouTube endurece sus reglas contra el «AI slop» y restringe su monetización

El tráiler de Avengers: Doomsday deja ver el choque que cambiará el futuro del MCU

Multa histórica a AliExpress: 550 millones de euros por vender productos ilegales

Samsung despide personal en EE. UU. mientras el negocio de teléfonos pierde impulso

Una chaqueta de cuero del CEO de Nvidia, Jensen Huang, se vendió por $960.000 USD

Hackearon Suno y descubrieron cómo usó música de YouTube y Deezer para entrenar su IA

OHMYGEEK! TV

Redacción OhMyGeek!

ESTO TE INTERESARÁ

YouTube endurece sus reglas contra el «AI slop» y restringe su monetización

Multa histórica a AliExpress: 550 millones de euros por vender productos ilegales

Hackearon Suno y descubrieron cómo usó música de YouTube y Deezer para entrenar su IA

Codex Micro: el primer hardware de OpenAI es un teclado y te decimos para qué sirve

Starlink V5: así cambia la nueva antena de Internet satelital frente al modelo anterior

Corfo mató el programa de hidrógeno verde en Magallanes y cambió su estrategia