• Acerca de OhMyGeek!
  • Contacto
OhMyGeek!
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Todos los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast
Sin resultados
Mira todos los resultados
OhMyGeek!
Menú
OhMyGeek!
Menú
Inicio Tecnologí­as Inteligencia Artificial

A las empresas de IA no les importa el ‘robots.txt’ de tu Web e igual te robarán todo el contenido

La histórica instrucción de evitar el rastreado no es suficiente contra los chatbots.

Redacción OhMyGeek! Por Redacción OhMyGeek!
24 junio 2024
Ia Chatbot Robots.txt
EnvíaloTuitéaloCompártelo

Múltiples empresas de inteligencia artificial, incluidas Perplexity, OpenAI y Anthropic, han sido descubiertas ignorando la instrucción explícita y escrita en los archivos robots.txt, diseñado para permitir —o evitar— que los rastreadores Web accedan a ciertas partes de los sitios.

Perplexity, un motor de búsqueda de IA gratuito, ha sido acusada de rastrear contenido de medios como Forbes y Wired, ignorando las instrucciones de sus robots.txt. Según Reuters, Tollbit, una startup que conecta a editores con empresas de IA para acuerdos de licencia, advirtió a los editores sobre múltiples agentes de IA que evitan el protocolo robots.txt para recopilar contenido y entrenar sus tecnologías y modelos de IA.

Controversias con Perplexity, OpenAI y Anthropic

Wired descubrió que una máquina en un servidor de Amazon, operada probablemente por Perplexity, estaba ignorando las instrucciones de su archivo robots.txt. La investigación de Wired involucró proporcionar a la herramienta de Perplexity titulares y descripciones, lo que resultó en artículos parafraseados con mínima atribución y, en ocasiones, resúmenes inexactos.

RELACIONADO:

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

OpenAI confirma robo de credenciales tras ataque a biblioteca de código abierto

Falla en cPanel permitió ataques masivos de ransomware en cientos de miles de sitios

OpenAI y Anthropic, desarrolladores de los chatbots ChatGPT y Claude, respectivamente, también han sido implicados en ignorar el protocolo robots.txt. A pesar de sus declaraciones públicas de respetar estas señales, se ha informado que ambas compañías han ignorado o eludido tales bloqueos para rastrear contenido para sus modelos. Business Insider informó que los hallazgos de Tollbit indican que estas prácticas están extendidas entre las empresas de IA.

El archivo robots.txt ha sido un estándar desde 1994, proporcionando a los desarrolladores Web una forma de gestionar el acceso de los rastreadores a sus sitios. Sin embargo, el cumplimiento es voluntario, y el auge de la IA generativa ha intensificado la necesidad de datos de entrenamiento de alta calidad, lo que lleva a algunas empresas de IA a ignorar estas instrucciones. Esta situación ha generado un debate sobre las responsabilidades legales y éticas de las empresas de IA en sus prácticas de recopilación de datos.

Mira más sobre: AnthropicOpenAIWeb

Síguenos en Google News:

Síguenos en:

Google News

Suscríbete a nuestro canal de WhatsApp:

Suscríbete en:

WhatsApp

LO ÚLTIMO

Medicamentos y ChatGPT
Inteligencia Artificial

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

Por Felipe Ovalle
14 mayo 2026

Lee másDetails

¿Cómo desactivar los Instants de Instagram? Así encuentras la opción en la aplicación

OpenAI confirma robo de credenciales tras ataque a biblioteca de código abierto

Android Show 2026: esto fue todo lo que Google presentó en su evento online previo al I/O

«Parece juego de Play»: esto pasó con la cara de Punisher en aquella escena viral de One Last Kill

Así es Alpha 7R VI: la nueva cámara de Sony que aumenta resolución, velocidad y autonomía

LO ÚLTIMO

Medicamentos y ChatGPT

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

14 mayo 2026
Desactivar Instagram Instants

¿Cómo desactivar los Instants de Instagram? Así encuentras la opción en la aplicación

14 mayo 2026

OpenAI confirma robo de credenciales tras ataque a biblioteca de código abierto

14 mayo 2026

Android Show 2026: esto fue todo lo que Google presentó en su evento online previo al I/O

14 mayo 2026

«Parece juego de Play»: esto pasó con la cara de Punisher en aquella escena viral de One Last Kill

13 mayo 2026

Así es Alpha 7R VI: la nueva cámara de Sony que aumenta resolución, velocidad y autonomía

13 mayo 2026

OHMYGEEK! TV

Redacción OhMyGeek!

Redacción OhMyGeek!

Equipo editorial de OhMyGeek!. Cubrimos los lanzamientos globales más relevantes en ciencia, tecnología y cultura digital.

ESTO TE INTERESARÁ

Medicamentos y ChatGPT

Familia demanda a OpenAI por respuestas de ChatGPT que habrían llevado a una muerte por sobredosis

14 mayo 2026
Oscar No actores IA AI

Actores y guiones generados con IA no pueden ganar un Premio Oscar

2 mayo 2026
ChatGPT Images 2.0 Ejemplo

ChatGPT lanza Images 2.0 con mejoras en texto, diseño y coherencia visual en imágenes

21 abril 2026
Analisis de datos Inteligencia Artificial SEC

SEC usa inteligencia artificial para detectar productos sin certificación eléctrica en Chile

21 abril 2026
Claude Design

Claude Design: la nueva apuesta de Anthropic para automatizar el diseño visual

17 abril 2026
Perplexity Personal Computer

Así funciona «Personal Computer», el asistente de Perplexity que ya funciona en Mac

16 abril 2026
OhMyGeek!

OhMyGeek! es un Web blog de tecnología, innovación y cultura Geek/Pop, con shows en televisión y radio. OhMyGeek! es una marca registrada de Producciones Medialabs Ltda.

(CC) 2026 OhMyGeek! Algunos derechos reservados.

  • RSS Feed
  • Acerca de OhMyGeek!
  • Contacto

Acerca de OhMyGeek!   /   Contacto

Sin resultados
Mira todos los resultados
  • Inicio
  • Noticias
    • Ciencia
    • Dispositivos
    • Hardware
    • Inteligencia Artificial
    • Internet
    • Robótica
    • Seguridad
    • Software
    • Verdes
  • Acerca de
    • Apple
    • Eventos
    • Google
    • Industria
    • Microsoft
    • Redes 5G
    • Samsung
    • Transportes
    • Tutoriales
  • Entretenimiento
    • Cultura Pop
    • Música
    • No-Noticia
    • Películas
    • Series
    • Videojuegos
  • Videos
    • Noticias los videos
    • YouTube
    • Instagram
    • TikTok
  • OhMyGeek!
    • Análisis
    • ECHO
    • Express en Canal 13C
    • Los Resistidos
    • Podcast

Acerca de OhMyGeek!   /   Contacto