• Acerca de OhMyGeek!
  • Contacto
OhMyGeek!
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • Express en Canal 13C
    • OhMyGeek! en Radio Futuro
    • Spotify
    • Contáctanos
Sin resultados
Mira todos los resultados
OhMyGeek!
Menú
OhMyGeek!
Menú
Inicio Tecnologí­as Inteligencia Artificial

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Por OhMyGeek!
24 de junio de 2024
Ia Chatbot Robots.txt
EnvíaloTuitéaloCompártelo

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

CONTENIDO RELACIONADO

GPT-4.1 ya está disponible en ChatGPT para usuarios pagos y reemplaza al modelo mini anterior

Claude, el chatbot IA de Anthropic, ahora puede buscar en la Web

OpenAI lanza «o3-mini», su nuevo modelo de razonamiento y en respuesta a DeepSeek

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Etiquetas: AnthropicOpenAIWeb

Síguenos en Google News:

Síguenos en:

Google News

Suscríbete a nuestro canal de WhatsApp:

Suscríbete en:

WhatsApp

VIDEOS DESTACADOS

ESTO TE INTERESARÁ

OpenAI

GPT-4.1 ya está disponible en ChatGPT para usuarios pagos y reemplaza al modelo mini anterior

14 de mayo de 2025
Christopher Pelkey Victima Ia

Víctima de asesinato es recreado con IA por su familia para usarlo en el juicio

8 de mayo de 2025
Gemini App Ipad - Gemini

Google lanza la App de Gemini optimizada para iPad con funciones exclusivas y multitarea

7 de mayo de 2025
Anthropic Claude Busqueda Web - Claude

Claude, el chatbot IA de Anthropic, ahora puede buscar en la Web

20 de marzo de 2025
OhMyGeek!

OhMyGeek! es un Web blog de tecnología, innovación y cultura Geek/Pop, con shows en televisión y radio. OhMyGeek! es una marca registrada de Producciones Medialabs Ltda.

(CC) 2025 OhMyGeek! Algunos derechos reservados.

  • RSS Feed
  • Acerca de OhMyGeek!
  • Contacto

Acerca de OhMyGeek!   /   Contacto

Sin resultados
Mira todos los resultados
  • Inicio
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • Express en Canal 13C
    • OhMyGeek! en Radio Futuro
    • Spotify
    • Contáctanos

Acerca de OhMyGeek!   /   Contacto