Bloccare i Crawler AI: come impedire che il tuo sito venga utilizzato per l’addestramento dell’intelligenza artificiale

da | Mar 3, 2025

Sapevi che i motori di ricerca e altri servizi online utilizzano spesso i crawler AI per controllare cosa c’è sul tuo sito?

Questi crawler, implementati da giganti come OpenAI e Google, raccolgono dati per addestrare i loro modelli di intelligenza artificiale (AI) in evoluzione.

Se si desidera esercitare un maggiore controllo su chi può vedere e utilizzare i tuoi contenuti, ti guiderò su come regolare il file robot.txt del tuo sito per respingere questi web crawler AI.

PREMESSA

Il file robots.txt è un file che si trova nel dominio principale.

Si tratta di un semplice file di testo il cui scopo principale è quello di dire ai web crawler e ai robot da quali file e cartelle stare alla larga.

I bot generalmente controllano il file robots.txt prima di visitare il tuo sito. Lo fanno per vedere se sono autorizzati a eseguire la scansione del sito e se ci sono cose che dovrebbero evitare.

Il robots.txt deve essere inserito nella directory di primo livello del tuo dominio, ad esempio sitoweb.com/robots.txt.

Il modo migliore per modificarlo è accedere all’host web tramite un client FTP, quindi modificare il file con un editor di testo come Blocco note.

CONFIGURAZIONE PER IMPEDIRE L’UTILIZZO DI TUTTI I ROBOT

Se si vuole istruire tutti i robot a stare lontani dal tuo sito, allora questo è il codice che dovresti inserire nel file robots.txt per non consentire tutto:

La parte “User-agent: *” significa che si applica a tutti i robot.

La parte “Disallow: /” significa che si applica all’intero sito web.

In effetti, questo dirà a tutti i robot e ai web crawler che non sono autorizzati ad accedere o eseguire la scansione del sito.

ATTENZIONE: L’esclusione di tutti i robot su un sito Web attivo può comportare la rimozione del sito dai motori di ricerca e può comportare una perdita di traffico.

CONFIGURAZIONE PER IMPEDIRE LA SCANSIONE DEL SITO AI CRAWLER AI

Per impedire ai crawler di scansionare il sito inserire le seguenti righe:

In questo caso inibiremo la scansione al sito al Crawler di Google GPTBot

E’ possibile utilizzare la direttiva nel tuo file per consentire al crawler di OpenAI di accedere a pagine specifiche del tuo sito web.

LISTA DEI CRAWLER AI (AGGIORNATA A GENNAIO 2025)

Anthropic-AI

Anthropic è, come afferma il loro sito web, “una società di ricerca e sicurezza sull’intelligenza artificiale con sede a San Francisco”. TechTarget afferma di questa società “Anthropic – fondata da ex membri del laboratorio di ricerca sull’intelligenza artificiale sostenuto da Microsoft e fornitore OpenAI – ha introdotto Claude 2 l’11 luglio. Claude 2 è la seconda iterazione di Claude, la versione aggiornata del suo assistente AI basata sulla ricerca di Anthropic.

Apple

Apple ha recentemente annunciato che sta puntando tutto sull’intelligenza artificiale. Per il sito web di Apple, “I dati sottoposti a scansione da Applebot vengono utilizzati per alimentare varie funzionalità, come la tecnologia di ricerca integrata in molte esperienze utente nell’ecosistema Apple, tra cui Spotlight, Siri e Safari. L’abilitazione di Applebot in robots.txt consente ai contenuti dei siti Web di apparire nei risultati di ricerca per gli utenti Apple di tutto il mondo in questi prodotti”.

Bytespider

Dal Darkvisitors.com, “Bytespider è un web crawler gestito da ByteDance, il proprietario cinese di TikTok. Presumibilmente viene utilizzato per scaricare i dati di addestramento per i suoi LLM (Large Language Model), compresi quelli che alimentano il concorrente di ChatGPT Doubao”.

CCBot

Come indicato sul loro sito web, CCBot proviene da Common Crawl, che è una “fondazione senza scopo di lucro fondata con l’obiettivo di democratizzare l’accesso alle informazioni web producendo e mantenendo un repository aperto di dati di scansione web che sia universalmente accessibile e analizzabile da chiunque”. I dati scansionati da CCBot dal tuo sito potrebbero essere utilizzati da un’altra parte per scopi di addestramento dei dati AI, quindi se questo è il tuo problema, aggiungi CCBot alla tua lista di non consenti.

ChatGPT User

Una descrizione utente di GPTBot. Potrebbe essere deprecato a partire da ora e potrebbe invece utilizzare l’agente utente GPTBot principale.

Cohere AI

Dal loro sito web, “Cohere fornisce modelli linguistici di grandi dimensioni (LLM) leader del settore e funzionalità RAG su misura per soddisfare le esigenze dei casi d’uso aziendali che risolvono problemi del mondo reale”.

Diffbot

Diffbot automatizza l’estrazione dei dati web da qualsiasi sito web utilizzando l’intelligenza artificiale, la visione artificiale e l’apprendimento automatico

Facebook/Meta

FacebookBot esegue la scansione delle pagine Web pubbliche per migliorare i modelli linguistici per la nostra tecnologia di riconoscimento vocale

GoogleOther

Utilizzato da Google per eseguire la scansione per la ricerca e lo sviluppo interni. Non si sa cosa comporti esattamente, ma si tratta di un agente utente generico che viene utilizzato quando non è disponibile alcun altro agente utente appropriato.

Google-Extended

Un nuovo agente utente che fornisce dati a Bard (il loro prodotto per motori di ricerca AI) e alle API generative Vertex AI. Ciò include anche i modelli futuri di questi.

GPTBot

Il web crawler di OpenAI, noto anche come l’azienda dietro ChatGPT.

ImagesiftBot

ImagesiftBot è presentato come uno strumento di ricerca inversa di immagini, ma è associato a The Hive, un’azienda che produce modelli per la generazione di immagini

PerplexityBot

Perplexity è un motore di ricerca AI gratuito che fornisce risposte affidabili a qualsiasi domanda.

Webz.io

Il bot di Webz.io che a volte può essere utilizzato per vendere i dati scansionati alle società LLM.

Articoli Recenti

Veeam Backup

Monitoring

Friends

  • My English Lab  English School
  • ChrSystem   Servizi ICT
  • Since 01  Kreative Graphics

Database

Networking

Autori

  • Raffaele Chiatto  Amministratore
  • Marco Valle  Autore
  • Angelo Lauria  Autore
  • Edoardo Prot  Autore
  • Davide D’Urso  Autore
Raffaele Chiatto

Raffaele Chiatto

Sono Raffaele Chiatto, un appassionato di informatica a 360 gradi. Tutto è iniziato nel 1996, quando ho scoperto il mondo dell'informatica grazie a Windows 95, e da quel momento non ho più smesso di esplorare e imparare. Ogni giorno mi dedico con curiosità e passione a scoprire le nuove frontiere di questo settore in continua evoluzione.

Related Post

Installazione e Configurazione Base di CentOS Stream 10

  CentOS Stream 10 è l'ultima versione della distribuzione Linux rolling-release basata su Red Hat Enterprise Linux (RHEL), progettata per offrire un flusso di aggiornamenti continuo e un'anteprima delle future release di RHEL. Grazie alla sua stabilità e...

leggi tutto

Installazione e Configurazione di oVirt Node 4.5.5

oVirt è una piattaforma di virtualizzazione open source che fornisce la gestione centralizzata di server virtuali, host e desktop in uno o più data center aziendali. oVirt si basa sul sistema operativo Linux, sulla tecnologia KVM (Kernel-based Virtual Machine) e su...

leggi tutto

0 commenti

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Virtualizzazione

Linux

Microsoft

Apple

Backup

Database

Security

Automazione