• Acerca de OhMyGeek!
  • Contacto
OhMyGeek!
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • Express en Canal 13C
    • OhMyGeek! en Radio Futuro
    • Spotify
    • Los Resistidos
    • Contáctanos
Sin resultados
Mira todos los resultados
OhMyGeek!
Menú
OhMyGeek!
Menú
Inicio Tecnologí­as Inteligencia Artificial

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Por OhMyGeek!
24 de junio de 2024
Ia Chatbot Robots.txt
EnvíaloTuitéaloCompártelo

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

CONTENIDO RELACIONADO

GPT-4.1 ya está disponible en ChatGPT para usuarios pagos y reemplaza al modelo mini anterior

Claude, el chatbot IA de Anthropic, ahora puede buscar en la Web

OpenAI lanza «o3-mini», su nuevo modelo de razonamiento y en respuesta a DeepSeek

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Etiquetas: AnthropicOpenAIWeb

Síguenos en Google News:

Síguenos en:

Google News

Suscríbete a nuestro canal de WhatsApp:

Suscríbete en:

WhatsApp

ESTO TE INTERESARÁ

Adobe Firefly App - Firefly

Firefly ya tiene App móvil: Adobe lanza su generador de imágenes y videos para iOS y Android

17 de junio de 2025
Quitar Ai Overviews De Google - AI Overviews

Cómo ocultar los resultados con AI Overviews en Google: tres métodos que funcionan

14 de junio de 2025
Wikipedia Web

Wikipedia cancela las pruebas de resúmenes con IA tras críticas de editores

13 de junio de 2025
Gabriel Boric Anuncio Ia Supercomputo - supercómputo, Chile

Chile destina 14 millones de dólares al desarrollo de IA con centros de supercómputo

1 de junio de 2025
OhMyGeek!

OhMyGeek! es un Web blog de tecnología, innovación y cultura Geek/Pop, con shows en televisión y radio. OhMyGeek! es una marca registrada de Producciones Medialabs Ltda.

(CC) 2025 OhMyGeek! Algunos derechos reservados.

  • RSS Feed
  • Acerca de OhMyGeek!
  • Contacto

Acerca de OhMyGeek!   /   Contacto

Sin resultados
Mira todos los resultados
  • Inicio
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • Express en Canal 13C
    • OhMyGeek! en Radio Futuro
    • Spotify
    • Los Resistidos
    • Contáctanos

Acerca de OhMyGeek!   /   Contacto