A startup de IA Perplexity está rastejando e eliminando o conteúdo de websites que indicaram explicitamente que não querem ser raspados, de acordo com o fornecedor de infraestrutura da Web Cloudflare.
Na segunda -feira, Cloudflare Pesquisa publicada Dizendo que observou a startup da IA ignorar os blocos e esconder suas atividades de rastejamento e raspagem. A gigante da infraestrutura de rede acusou a perplexidade de obscurecer sua identidade ao tentar raspar as páginas da internet “na tentativa de contornar as preferências do web site”, escreveram os pesquisadores da Cloudflare.
Os produtos de IA como os oferecidos pela perplexidade dependem de grandes quantidades de dados da Web, e as startups de IA têm texto, imagens e vídeos há muito tempo, sem permissão para fazer seus produtos funcionarem. Nos últimos tempos, os websites tentaram revidar usando o arquivo robots.txt padrão da internet, que informa aos mecanismos de pesquisa e empresas de IA que podem ser indexadas e que não deveriam, os esforços que viram resultados mistos até agora.
A perplexidade parece estar contornando de bom grado esses blocos alterando seus bots “agente do usuário”, o que significa um sinal que identifica um visitante do web site pelo seu dispositivo e tipo de versão; Além de alterar suas redes de sistemas autônomas, ou ASN, essencialmente um número que identifica grandes redes na Web, de acordo com o Cloudflare.
“Essa atividade foi observada em dezenas de milhares de domínios e milhões de solicitações por dia. Conseguimos impressão digital esse rastreador usando uma combinação de aprendizado de máquina e sinais de rede”, leu a postagem do Cloudflare.
O porta -voz da Perplexity, Jesse Dwyer, descartou a postagem do weblog da Cloudflare como um “discurso de vendas”, adicionando um e-mail ao TechCrunch que as capturas de tela do put up “mostram que nenhum conteúdo foi acessado”. Em um e-mail de acompanhamento, Dwyer reivindicou o bot mencionado no weblog Cloudflare “não é nosso”.
A Cloudflare disse que primeiro notou o comportamento depois que seus clientes se queixaram de que a perplexidade estava rastejando e raspando seus websites, mesmo depois de adicionar regras ao arquivo de robôs e para bloquear especificamente os bots conhecidos da perplexidade. Cloudflare disse que realizou testes para verificar e confirmou que a perplexidade estava contornando esses blocos.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
“Observamos que a perplexidade usa não apenas o agente do usuário declarado, mas também um navegador genérico destinado a se passar por Google Chrome no macOS quando seu rastreador declarado foi bloqueado”, de acordo com o Cloudflare.
A empresa também disse que listou os bots da Perplexity de sua lista verificada e adicionou novas técnicas para bloqueá-las.
A Cloudflare assumiu recentemente uma posição pública contra os rastreadores da AI. No mês passado, a Cloudflare anunciou o lançamento de um mercado, permitindo que os proprietários e editores de websites cobrem os raspadores da IA que visitam seus websites. CEO da Cloudflare, Matthew Prince soou o alarme Na época, dizendo que a IA está quebrando o modelo de negócios da Web, principalmente os editores. No ano passado, a CloudFlare também lançou uma ferramenta gratuita para impedir que os bots raspassem websites para treinar a IA.
Esta não é a primeira vez que a perplexidade é acusada de raspar sem autorização.
No ano passado, meios de comunicação, como conectadoalegada perplexidade estava plagiando seu conteúdo. Semanas depois, o CEO da Perplexity, Aravind Srinivas, não conseguiu responder imediatamente quando solicitado a fornecer a definição de plágio da empresa durante uma entrevista à Devin Colcewey da TechCrunch na conferência Disrupt 2024.