Pay per Crawl: Cloudflare cria forma de sites cobrarem pelo acesso de crawlers de IA

A Cloudflare lançou o Pay per Crawl, um marketplace para que os donos de sites possam cobrar pelo acesso dos inevitáveis e onipresentes crawlers de IA. Essa é uma solução muito elegante e bem interessante para um problema sério, que ameaça a existência e viabilidade de alguns dos nossos sites favoritos.
Hoje em dia, muitos dos sites que a gente mais usa gastam boa parte dos seus recursos de hospedagem e distribuição para servir conteúdo a crawlers de IA, e não usuários de verdade. Mas, como isso pode ameaçar o futuro de alguns dos nossos sites favoritos na internet? É bem simples, e eu vou explicar melhor abaixo.
Eu uso a Wikipédia praticamente todos os dias, mas a organização Wikimedia Foundation está ameaçada pelo uso de scrapers e crawlers usados para treinamento de modelos de inteligência artificial. Como eles citam nesse post, a demanda pelo conteúdo criado pela comunidade de voluntários da organização cresceu significativamente desde o começo de 2024, especialmente pelos 144 milhões de imagens, vídeos e outros arquivos do Wikimedia Commons.
Cada empresa lida da sua maneira com esse uso cada vez maior de conteúdos online para treinamento de IAs, e com resultados variados. Alguns anos atrás, o The New York Times processou a Amazon e a Microsoft por usarem seu conteúdo para treinamento de modelos de IA. Recentemente, o NYT fechou um acordo com a Amazon liberando seu conteúdo para ser usado no treinamento dos LLMs da Amazon.
Como funciona o Pay per Crawl do Cloudflare
Com o novo recurso Pay per Crawl, os usuários do Cloudflare podem deixar os bots e AI crawlers entrarem no site definindo um micropagamento por cada vasculhada que derem. Além disso, é possível deixar os crawlers rasparem o conteúdo do site de graça, ou simplesmente bloquearem o seu acesso.
Vale lembrar que, além do recurso Pay per Crawl, a empresa vem lançando várias soluções para lidar com o problema dos bots e crawlers de IA, como o Cloudflare AI Labyrinth, sobre o qual falei aqui no AI Drops em março. A Cloudflare serve 20% do tráfego da internet, assim não é exagero dizer que essas inciativas podem realmente impactar as empresas de IA, que estão acostumadas a usar conteúdos sem que precisem pagar por eles.
Em um post chamado de Dia da Independência do Conteúdo, publicado no blog no Cloudflare, a empresa conta que os acessos vindos do Google estão caindo pela primeira vez na história, e sendo substituídos pela IA. O próprio Google também criou os AI Overviews, que muitas vezes, resolvem as dúvidas dos usuários de uma forma abrangente, e assim, ele acaba não entrando no seu site.
Como cita o TechCrunch, vários clientes da Cloudflare, incluindo grandes grupos de mídia como a Condé Nast, Time, The Associated Press, The Atlantic, AdWeek e Fortune, já estão usando as ferramentas da Cloudflare para bloquearem o acesso de crawlers de IA.
Vamos aguardar para ver quais serão as cenas dos próximos capítulos dessa novela que é uma grande disputa que pode definir o futuro da internet como a conhecemos.