• Acerca de OhMyGeek!
  • Contacto
OhMyGeek!
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast
Sin resultados
Mira todos los resultados
OhMyGeek!
Menú
OhMyGeek!
Menú
Inicio Tecnologí­as Inteligencia Artificial

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Redacción OhMyGeek! Por Redacción OhMyGeek!
24 junio 2024
Ia Chatbot Robots.txt
EnvíaloTuitéaloCompártelo

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

RELACIONADO:

GPT-5.6 solo para algunos: OpenAI limita su acceso inicial por culpa del gobierno estadounidense

Jalapeño: así es el primer chip de OpenAI diseñado para correr ChatGPT y otros modelos

¿Por qué Anthropic fue obligado a apagar Mythos 5 y Fable 5 por el gobierno de EE. UU.?

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Mira más sobre: AnthropicOpenAIWeb

Síguenos en Google News:

Síguenos en:

Google News

Suscríbete a nuestro canal de WhatsApp:

Suscríbete en:

WhatsApp

LO ÚLTIMO

Galaxy Z Fold 8 Fold 8 Ultra y Flip 8
Dispositivos

Galaxy Z Fold 8, Fold 8 Ultra y Flip 8, completamente filtrados en imágenes

Por Felipe Ovalle
30 junio 2026

Lee másDetails

StanbyME 2 Max: la nueva pantalla portátil de LG con más pulgadas, resolución y batería

Tidal cambia sus reglas: dejará de pagar por la música creada completamente con IA

¡Por fin! WhatsApp te deja usar un nombre de usuario para no dar tu número de teléfono

El primer MacBook con pantalla táctil de Apple no usaría los chips que muchos esperaban

Adiós, Notion Mail: la app cierra a un año de su lanzamiento y te decimos qué pasará con tus correos

LO ÚLTIMO

Galaxy Z Fold 8 Fold 8 Ultra y Flip 8

Galaxy Z Fold 8, Fold 8 Ultra y Flip 8, completamente filtrados en imágenes

30 junio 2026
LG StanbyME 2 Max

StanbyME 2 Max: la nueva pantalla portátil de LG con más pulgadas, resolución y batería

30 junio 2026

Tidal cambia sus reglas: dejará de pagar por la música creada completamente con IA

29 junio 2026

¡Por fin! WhatsApp te deja usar un nombre de usuario para no dar tu número de teléfono

29 junio 2026

El primer MacBook con pantalla táctil de Apple no usaría los chips que muchos esperaban

28 junio 2026

Adiós, Notion Mail: la app cierra a un año de su lanzamiento y te decimos qué pasará con tus correos

26 junio 2026

OHMYGEEK! TV

Redacción OhMyGeek!

Redacción OhMyGeek!

Equipo editorial de OhMyGeek!. Cubrimos los lanzamientos globales más relevantes en ciencia, tecnología y cultura digital.

ESTO TE INTERESARÁ

Tidal Musica con IA

Tidal cambia sus reglas: dejará de pagar por la música creada completamente con IA

29 junio 2026
OpenAI GPT-5.6

GPT-5.6 solo para algunos: OpenAI limita su acceso inicial por culpa del gobierno estadounidense

26 junio 2026
Jalapeño Procesador IA OpenAI

Jalapeño: así es el primer chip de OpenAI diseñado para correr ChatGPT y otros modelos

24 junio 2026
Claude Flable Mythos 5 Prohibidos

¿Por qué Anthropic fue obligado a apagar Mythos 5 y Fable 5 por el gobierno de EE. UU.?

13 junio 2026
MSI MEG Vision X2 AI+

MSI convierte su nuevo PC gamer en un asistente con avatar: así es el MEG Vision X2 AI+

3 junio 2026
Papa León XIV Inteligencia Artificial

Papa León XIV llama a regular la inteligencia artificial para «proteger la dignidad humana»

25 mayo 2026
OhMyGeek!

OhMyGeek! es un Web blog de tecnología, innovación y cultura Geek/Pop, con shows en televisión y radio. OhMyGeek! es una marca registrada de Producciones Medialabs Ltda.

(CC) 2026 OhMyGeek! Algunos derechos reservados.

  • RSS Feed
  • Acerca de OhMyGeek!
  • Contacto

Acerca de OhMyGeek!   /   Contacto

Sin resultados
Mira todos los resultados
  • Inicio
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Noticias los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast

Acerca de OhMyGeek!   /   Contacto