A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

RELACIONADO:

Codex Micro: el primer hardware de OpenAI es un teclado y te decimos para qué sirve

OpenAI libera GPT-5.6 después de superar la revisión del gobierno de Estados Unidos

Anthropic evalúa crear su propio chip de IA y Samsung podría hacerlo

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Mira más sobre: Anthropic OpenAI Web

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Codex Micro: el primer hardware de OpenAI es un teclado y te decimos para qué sirve

OpenAI libera GPT-5.6 después de superar la revisión del gobierno de Estados Unidos

Anthropic evalúa crear su propio chip de IA y Samsung podría hacerlo

LO ÚLTIMO

Vmake Labs agregó borrado de marcas de agua en videos a su plataforma de edición con IA

Apple Upgrade: qué es el nuevo sistema de arriendo de equipos que lanzó Apple

Xbox explicó qué provocó la caída que dejó a miles de usuarios sin poder jugar

Air Zoom Hyperslide: Nike presenta unas sandalias con calor y vibración para la recuperación

Paramount retrasa la compra de Warner Bros. Discovery y acepta esperar el juicio antimonopolio

PlayStation Network se cayó y dejó a miles sin acceso a sus juegos: esto fue lo que ocurrió

LO ÚLTIMO

Vmake Labs agregó borrado de marcas de agua en videos a su plataforma de edición con IA

Apple Upgrade: qué es el nuevo sistema de arriendo de equipos que lanzó Apple

Xbox explicó qué provocó la caída que dejó a miles de usuarios sin poder jugar

Air Zoom Hyperslide: Nike presenta unas sandalias con calor y vibración para la recuperación

Paramount retrasa la compra de Warner Bros. Discovery y acepta esperar el juicio antimonopolio

PlayStation Network se cayó y dejó a miles sin acceso a sus juegos: esto fue lo que ocurrió

OHMYGEEK! TV

Redacción OhMyGeek!

ESTO TE INTERESARÁ

Vmake Labs agregó borrado de marcas de agua en videos a su plataforma de edición con IA

xAI demanda por primera vez a un usuario de Grok por generar imágenes con su IA

OpenAI libera GPT-5.6 después de superar la revisión del gobierno de Estados Unidos

El nuevo modelo de imagen Muse, puede hacer fotos IA con tu perfil de Instagram

Anthropic evalúa crear su propio chip de IA y Samsung podría hacerlo

Tidal cambia sus reglas: dejará de pagar por la música creada completamente con IA