• Acerca de OhMyGeek!
  • Contacto
OhMyGeek!
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast
Sin resultados
Mira todos los resultados
OhMyGeek!
Menú
OhMyGeek!
Menú
Inicio Tecnologí­as Inteligencia Artificial

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Redacción OhMyGeek! Por Redacción OhMyGeek!
24 junio 2024
Ia Chatbot Robots.txt
EnvíaloTuitéaloCompártelo

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

RELACIONADO:

Probamos Independent Analytics junto a GA4 y terminamos eliminando Google Analytics

Elon Musk pierde juicio contra OpenAI y anticipa nueva batalla legal

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Mira más sobre: AnthropicOpenAIWeb

Síguenos en Google News:

Síguenos en:

Google News

Suscríbete a nuestro canal de WhatsApp:

Suscríbete en:

WhatsApp

LO ÚLTIMO

Facebook Instagram WhatsApp Plus
Internet

WhatsApp Plus, Instagram Plus y Facebook Plus ya son oficiales por parte Meta

Por Felipe Ovalle
27 mayo 2026

Lee másDetails

Sony lanza sus primeros televisores True RGB y promete acercarse a los monitores de cine

Sony anuncia los juegos de PlayStation Plus para junio de 2026 y mantiene EA Sports FC 26

Ministra de Medio Ambiente, Francisca Toledo, evita responder si el cambio climático es causado por el ser humano

Este es el Ferrari Luce: el primer auto eléctrico de Ferrari diseñado por el ex Apple Jony Ive

Unreal Engine 6 debutó con Rocket League y no con Fortnite: así fue la primera demostración pública

LO ÚLTIMO

Facebook Instagram WhatsApp Plus

WhatsApp Plus, Instagram Plus y Facebook Plus ya son oficiales por parte Meta

27 mayo 2026
Sony BRAVIA 9 II True RGB

Sony lanza sus primeros televisores True RGB y promete acercarse a los monitores de cine

27 mayo 2026

Sony anuncia los juegos de PlayStation Plus para junio de 2026 y mantiene EA Sports FC 26

26 mayo 2026

Ministra de Medio Ambiente, Francisca Toledo, evita responder si el cambio climático es causado por el ser humano

26 mayo 2026

Este es el Ferrari Luce: el primer auto eléctrico de Ferrari diseñado por el ex Apple Jony Ive

26 mayo 2026

Unreal Engine 6 debutó con Rocket League y no con Fortnite: así fue la primera demostración pública

25 mayo 2026

OHMYGEEK! TV

Redacción OhMyGeek!

Redacción OhMyGeek!

Equipo editorial de OhMyGeek!. Cubrimos los lanzamientos globales más relevantes en ciencia, tecnología y cultura digital.

ESTO TE INTERESARÁ

Papa León XIV Inteligencia Artificial

Papa León XIV llama a regular la inteligencia artificial para «proteger la dignidad humana»

25 mayo 2026
Google Busquedas 2026 IA

Las búsquedas de Google como las conocemos murieron y ahora será todo con IA

19 mayo 2026
Empleado empresa tech como Amazon o Meta

Empleados de Amazon usan IA en tareas innecesarias para parecer más dependientes de esta

16 mayo 2026
Medicamentos y ChatGPT

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

14 mayo 2026
Oscar No actores IA AI

Actores y guiones generados con IA no pueden ganar un Premio Oscar

2 mayo 2026
ChatGPT Images 2.0 Ejemplo

ChatGPT lanza Images 2.0 con mejoras en texto, diseño y coherencia visual en imágenes

21 abril 2026
OhMyGeek!

OhMyGeek! es un Web blog de tecnología, innovación y cultura Geek/Pop, con shows en televisión y radio. OhMyGeek! es una marca registrada de Producciones Medialabs Ltda.

(CC) 2026 OhMyGeek! Algunos derechos reservados.

  • RSS Feed
  • Acerca de OhMyGeek!
  • Contacto

Acerca de OhMyGeek!   /   Contacto

Sin resultados
Mira todos los resultados
  • Inicio
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Noticias los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast

Acerca de OhMyGeek!   /   Contacto