Bloccare i Crawler AI: come impedire che il tuo sito venga utilizzato per l’addestramento dell’intelligenza artificiale

da Raffaele Chiatto | Mar 3, 2025

Sapevi che i motori di ricerca e altri servizi online utilizzano spesso i crawler AI per controllare cosa c’è sul tuo sito?

Questi crawler, implementati da giganti come OpenAI e Google, raccolgono dati per addestrare i loro modelli di intelligenza artificiale (AI) in evoluzione.

Se si desidera esercitare un maggiore controllo su chi può vedere e utilizzare i tuoi contenuti, ti guiderò su come regolare il file robot.txt del tuo sito per respingere questi web crawler AI.

PREMESSA

Il file robots.txt è un file che si trova nel dominio principale.

Si tratta di un semplice file di testo il cui scopo principale è quello di dire ai web crawler e ai robot da quali file e cartelle stare alla larga.

I bot generalmente controllano il file robots.txt prima di visitare il tuo sito. Lo fanno per vedere se sono autorizzati a eseguire la scansione del sito e se ci sono cose che dovrebbero evitare.

Il robots.txt deve essere inserito nella directory di primo livello del tuo dominio, ad esempio sitoweb.com/robots.txt.

Il modo migliore per modificarlo è accedere all’host web tramite un client FTP, quindi modificare il file con un editor di testo come Blocco note.

CONFIGURAZIONE PER IMPEDIRE L’UTILIZZO DI TUTTI I ROBOT

Se si vuole istruire tutti i robot a stare lontani dal tuo sito, allora questo è il codice che dovresti inserire nel file robots.txt per non consentire tutto:

User-agent: *
Disallow: /

0 1	User-agent: * Disallow: /

La parte “User-agent: *” significa che si applica a tutti i robot.

La parte “Disallow: /” significa che si applica all’intero sito web.

In effetti, questo dirà a tutti i robot e ai web crawler che non sono autorizzati ad accedere o eseguire la scansione del sito.

ATTENZIONE: L’esclusione di tutti i robot su un sito Web attivo può comportare la rimozione del sito dai motori di ricerca e può comportare una perdita di traffico.

CONFIGURAZIONE PER IMPEDIRE LA SCANSIONE DEL SITO AI CRAWLER AI

Per impedire ai crawler di scansionare il sito inserire le seguenti righe:

User-agent: GPTBot
Disallow: /

0 1	User-agent: GPTBot Disallow: /

In questo caso inibiremo la scansione al sito al Crawler di Google GPTBot

E’ possibile utilizzare la direttiva nel tuo file per consentire al crawler di OpenAI di accedere a pagine specifiche del tuo sito web.

User-agent: GPTBot
Allow: /Cartella-1/
Disallow: /Cartella-2/

User-agent: GPTBot

Allow: /Cartella-1/

Disallow: /Cartella-2/

LISTA DEI CRAWLER AI (AGGIORNATA A GENNAIO 2025)

Anthropic-AI

Anthropic è, come afferma il loro sito web, “una società di ricerca e sicurezza sull’intelligenza artificiale con sede a San Francisco”. TechTarget afferma di questa società “Anthropic – fondata da ex membri del laboratorio di ricerca sull’intelligenza artificiale sostenuto da Microsoft e fornitore OpenAI – ha introdotto Claude 2 l’11 luglio. Claude 2 è la seconda iterazione di Claude, la versione aggiornata del suo assistente AI basata sulla ricerca di Anthropic.

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: anthropic-ai

Disallow: /

User-agent: Claude-Web

Disallow: /

Apple

Apple ha recentemente annunciato che sta puntando tutto sull’intelligenza artificiale. Per il sito web di Apple, “I dati sottoposti a scansione da Applebot vengono utilizzati per alimentare varie funzionalità, come la tecnologia di ricerca integrata in molte esperienze utente nell’ecosistema Apple, tra cui Spotlight, Siri e Safari. L’abilitazione di Applebot in robots.txt consente ai contenuti dei siti Web di apparire nei risultati di ricerca per gli utenti Apple di tutto il mondo in questi prodotti”.

User-agent: Applebot-Extended
Disallow: /

0 1	User-agent: Applebot-Extended Disallow: /

Bytespider

Dal Darkvisitors.com, “Bytespider è un web crawler gestito da ByteDance, il proprietario cinese di TikTok. Presumibilmente viene utilizzato per scaricare i dati di addestramento per i suoi LLM (Large Language Model), compresi quelli che alimentano il concorrente di ChatGPT Doubao”.

User-agent: Bytespider
Disallow: /

0 1	User-agent: Bytespider Disallow: /

CCBot

Come indicato sul loro sito web, CCBot proviene da Common Crawl, che è una “fondazione senza scopo di lucro fondata con l’obiettivo di democratizzare l’accesso alle informazioni web producendo e mantenendo un repository aperto di dati di scansione web che sia universalmente accessibile e analizzabile da chiunque”. I dati scansionati da CCBot dal tuo sito potrebbero essere utilizzati da un’altra parte per scopi di addestramento dei dati AI, quindi se questo è il tuo problema, aggiungi CCBot alla tua lista di non consenti.

User-agent: CCBot
Disallow: /

0 1	User-agent: CCBot Disallow: /

ChatGPT User

Una descrizione utente di GPTBot. Potrebbe essere deprecato a partire da ora e potrebbe invece utilizzare l’agente utente GPTBot principale.

User-agent: ChatGPT-User
Disallow: /

0 1	User-agent: ChatGPT-User Disallow: /

Cohere AI

Dal loro sito web, “Cohere fornisce modelli linguistici di grandi dimensioni (LLM) leader del settore e funzionalità RAG su misura per soddisfare le esigenze dei casi d’uso aziendali che risolvono problemi del mondo reale”.

User-agent: cohere-ai
Disallow: /

0 1	User-agent: cohere-ai Disallow: /

Diffbot

Diffbot automatizza l’estrazione dei dati web da qualsiasi sito web utilizzando l’intelligenza artificiale, la visione artificiale e l’apprendimento automatico

User-agent: Diffbot
Disallow: /

0 1	User-agent: Diffbot Disallow: /

Facebook/Meta

FacebookBot esegue la scansione delle pagine Web pubbliche per migliorare i modelli linguistici per la nostra tecnologia di riconoscimento vocale

User-agent: FacebookBot
Disallow: /

0 1	User-agent: FacebookBot Disallow: /

GoogleOther

Utilizzato da Google per eseguire la scansione per la ricerca e lo sviluppo interni. Non si sa cosa comporti esattamente, ma si tratta di un agente utente generico che viene utilizzato quando non è disponibile alcun altro agente utente appropriato.

User-agent: GoogleOther
Disallow: /

0 1	User-agent: GoogleOther Disallow: /

Google-Extended

Un nuovo agente utente che fornisce dati a Bard (il loro prodotto per motori di ricerca AI) e alle API generative Vertex AI. Ciò include anche i modelli futuri di questi.

User-agent: Google-Extended
Disallow: /

0 1	User-agent: Google-Extended Disallow: /

GPTBot

Il web crawler di OpenAI, noto anche come l’azienda dietro ChatGPT.

User-agent: GPTBot
Disallow: /

0 1	User-agent: GPTBot Disallow: /

ImagesiftBot

ImagesiftBot è presentato come uno strumento di ricerca inversa di immagini, ma è associato a The Hive, un’azienda che produce modelli per la generazione di immagini

User-agent: ImagesiftBot
Disallow: /

0 1	User-agent: ImagesiftBot Disallow: /

PerplexityBot

Perplexity è un motore di ricerca AI gratuito che fornisce risposte affidabili a qualsiasi domanda.

User-agent: PerplexityBot
Disallow: /

0 1	User-agent: PerplexityBot Disallow: /

Webz.io

Il bot di Webz.io che a volte può essere utilizzato per vendere i dati scansionati alle società LLM.

User-agent: OmigiliBot
Disallow: /

User-agent: Omigili
Disallow: /

User-agent: OmigiliBot

Disallow: /

User-agent: Omigili

Disallow: /

Articoli Recenti

Veeam Backup

Restore di una VM da VmWare ESXi a Proxmox con Veeam Backup and Replication

Upgrade di Veeam Backup & Replication dalla versione 12.0.0.1402 alla versione 12.1.1.56

Upgrade di Veeam Backup & Replication dalla versione 11 alla versione 12

Veeam Backup & Replication: Configurazione del Repository Google Cloud Storage

Configuration Backup in Veeam: Error Could not load file or assembly Microsoft.SqlServer.BatchParser

Aggiornamento della versione Microsoft SQL Server in Veeam Backup & Replication

Monitoring

phpIPAM: Please disable installation scripts: config.php: $disable_installer = true; docker: env IPAM_DISABLE_INSTALLER=1

LibreNMS Error: Composer detected issues in your platform: Your Composer dependencies require a PHP version “>= 8.2.0”

LibreNMS: FAIL: Failed to fetch version from local git: fatal: detected dubious ownership in repository at ‘/opt/librenms’ To add an exception for this directory, call: git config –global –add safe.directory /opt/librenms

Warning LibreNMS: Aggiornamento alla versione PHP 8.3 su Ubuntu 24.04 basato su web server Nginx o web server Apache

Errore in LibreNMS: Python3 module issue found: ‘Required packages: [‘PyMySQL!=1.0.0’, ‘python-dotenv’, ‘redis>=4.0’, ‘setuptools’, ‘psutil>=5.6.0’, ‘command_runner>=1.3.0’]

Installazione e Configurazione Base di Prometheus su Ubuntu Server 22.04

Friends

My English Lab English School

ChrSystem Servizi ICT

Since 01 Kreative Graphics

Database

Installazione e Configurazione base di Nextcloud Community Edition su Ubuntu Server 24.04

Aggiornamento di MongoDB dalla versione 3.6 alla versione 7.0 su UniFi Network Server

Installazione e configurazione di Puppet server, PuppetDB e PostgreSQL su containers LXC con Debian 11

Installazione e Configurazione base di MySQL Server su Microsoft Windows Server 2022

Installazione e Configurazione base di Moodle 4.0.5 su Ubuntu Server 22.04

Aggiornamento PostgreSQL dalla versione 14 alla versione 15 in OpenVAS su Kali Linux. ERROR: The default postgresql version is not the one used for gvmd compilation: (14, need 15)

Networking

Prima configurazione di Unifi Dream Machine Pro in Modalità Offline

Configurazione ATA Grandstream HT802 per il funzionamento di telefoni analogici con VoIP FTTH di TIM

Lista di tutti i comandi utili per la gestione in SSH dei devices Unifi

Configurazione della Connessione FTTH di TIM su Unifi Dream Machine Pro

Installazione e Configurazione del demone SNMP su Unifi Dream Machine Pro

Configurazione del DNS Dinamico su Unifi Dream Machine Pro

Autori

Raffaele Chiatto Amministratore

Marco Valle Autore

Angelo Lauria Autore

Edoardo Prot Autore

Davide D’Urso Autore

Raffaele Chiatto

Sono Raffaele Chiatto, un appassionato di informatica a 360 gradi. Tutto è iniziato nel 1996, quando ho scoperto il mondo dell'informatica grazie a Windows 95, e da quel momento non ho più smesso di esplorare e imparare. Ogni giorno mi dedico con curiosità e passione a scoprire le nuove frontiere di questo settore in continua evoluzione.

← Articoli precedenti Next →

Tag: Crawler | google | robots.txt | Wordpress

Categorie: Crawler | Wordpress

Errore Aggiornamento TSPlus: TSPlus the previous installation/update was not completed

Apr 14, 2025

Se stai cercando di aggiornare TSPlus e ti sei imbattuto nel messaggio di errore "The previous installation/update was not completed. You will need to restart your computer to complete that installation", sappi che non sei solo. Questo problema è piuttosto...

Installazione e Configurazione di Homebridge su Ubuntu Server 24.04

Apr 10, 2025

Se possiedi dispositivi smart home non compatibili con Apple HomeKit, Homebridge è la soluzione perfetta per integrarli nel tuo ecosistema Apple. Homebridge è un server leggero basato su Node.js che funge da ponte tra accessori domotici e HomeKit, permettendoti di...

Risoluzione dell’Errore nei Servizi VCSA dopo il cambio del DNS

Apr 7, 2025

Quando si cambiano i DNS nella VCSA, nel nostro user case v7 ma succede lo stesso sulla v8, può succedere che si creino dei problemi sui certificati legati al SSO che rendono impossibile il Login alla management (porta 5480) e nell'interfaccia della VCSA non è...

Bloccare i Crawler AI: come impedire che il tuo sito venga utilizzato per l’addestramento dell’intelligenza artificiale

PREMESSA

CONFIGURAZIONE PER IMPEDIRE L’UTILIZZO DI TUTTI I ROBOT

CONFIGURAZIONE PER IMPEDIRE LA SCANSIONE DEL SITO AI CRAWLER AI

LISTA DEI CRAWLER AI (AGGIORNATA A GENNAIO 2025)

Anthropic-AI

Apple

Bytespider

CCBot

ChatGPT User

Cohere AI

Diffbot

Facebook/Meta

GoogleOther

Google-Extended

GPTBot

ImagesiftBot

PerplexityBot

Webz.io

Articoli Recenti

Veeam Backup

Monitoring

Friends

Database

Networking

Autori

Raffaele Chiatto

Related Post

0 commenti

Invia un commento

Virtualizzazione

Linux

Microsoft

Apple

Backup

Database

Security

Automazione