Sapevi che i motori di ricerca e altri servizi online utilizzano spesso i crawler AI per controllare cosa c’è sul tuo sito?
Questi crawler, implementati da giganti come OpenAI e Google, raccolgono dati per addestrare i loro modelli di intelligenza artificiale (AI) in evoluzione.
Se si desidera esercitare un maggiore controllo su chi può vedere e utilizzare i tuoi contenuti, ti guiderò su come regolare il file robot.txt del tuo sito per respingere questi web crawler AI.
PREMESSA
Il file robots.txt è un file che si trova nel dominio principale.
Si tratta di un semplice file di testo il cui scopo principale è quello di dire ai web crawler e ai robot da quali file e cartelle stare alla larga.
I bot generalmente controllano il file robots.txt prima di visitare il tuo sito. Lo fanno per vedere se sono autorizzati a eseguire la scansione del sito e se ci sono cose che dovrebbero evitare.
Il robots.txt deve essere inserito nella directory di primo livello del tuo dominio, ad esempio sitoweb.com/robots.txt.
Il modo migliore per modificarlo è accedere all’host web tramite un client FTP, quindi modificare il file con un editor di testo come Blocco note.
CONFIGURAZIONE PER IMPEDIRE L’UTILIZZO DI TUTTI I ROBOT
Se si vuole istruire tutti i robot a stare lontani dal tuo sito, allora questo è il codice che dovresti inserire nel file robots.txt per non consentire tutto:
0 1 |
User-agent: * Disallow: / |
La parte “User-agent: *” significa che si applica a tutti i robot.
La parte “Disallow: /” significa che si applica all’intero sito web.
In effetti, questo dirà a tutti i robot e ai web crawler che non sono autorizzati ad accedere o eseguire la scansione del sito.
ATTENZIONE: L’esclusione di tutti i robot su un sito Web attivo può comportare la rimozione del sito dai motori di ricerca e può comportare una perdita di traffico.
CONFIGURAZIONE PER IMPEDIRE LA SCANSIONE DEL SITO AI CRAWLER AI
Per impedire ai crawler di scansionare il sito inserire le seguenti righe:
0 1 |
User-agent: GPTBot Disallow: / |
In questo caso inibiremo la scansione al sito al Crawler di Google GPTBot
E’ possibile utilizzare la direttiva nel tuo file per consentire al crawler di OpenAI di accedere a pagine specifiche del tuo sito web.
0 1 2 |
User-agent: GPTBot Allow: /Cartella-1/ Disallow: /Cartella-2/ |
LISTA DEI CRAWLER AI (AGGIORNATA A GENNAIO 2025)
Anthropic-AI
Anthropic è, come afferma il loro sito web, “una società di ricerca e sicurezza sull’intelligenza artificiale con sede a San Francisco”. TechTarget afferma di questa società “Anthropic – fondata da ex membri del laboratorio di ricerca sull’intelligenza artificiale sostenuto da Microsoft e fornitore OpenAI – ha introdotto Claude 2 l’11 luglio. Claude 2 è la seconda iterazione di Claude, la versione aggiornata del suo assistente AI basata sulla ricerca di Anthropic.
0 1 2 3 4 |
User-agent: anthropic-ai Disallow: / User-agent: Claude-Web Disallow: / |
Apple
Apple ha recentemente annunciato che sta puntando tutto sull’intelligenza artificiale. Per il sito web di Apple, “I dati sottoposti a scansione da Applebot vengono utilizzati per alimentare varie funzionalità, come la tecnologia di ricerca integrata in molte esperienze utente nell’ecosistema Apple, tra cui Spotlight, Siri e Safari. L’abilitazione di Applebot in robots.txt consente ai contenuti dei siti Web di apparire nei risultati di ricerca per gli utenti Apple di tutto il mondo in questi prodotti”.
0 1 |
User-agent: Applebot-Extended Disallow: / |
Bytespider
Dal Darkvisitors.com, “Bytespider è un web crawler gestito da ByteDance, il proprietario cinese di TikTok. Presumibilmente viene utilizzato per scaricare i dati di addestramento per i suoi LLM (Large Language Model), compresi quelli che alimentano il concorrente di ChatGPT Doubao”.
0 1 |
User-agent: Bytespider Disallow: / |
CCBot
Come indicato sul loro sito web, CCBot proviene da Common Crawl, che è una “fondazione senza scopo di lucro fondata con l’obiettivo di democratizzare l’accesso alle informazioni web producendo e mantenendo un repository aperto di dati di scansione web che sia universalmente accessibile e analizzabile da chiunque”. I dati scansionati da CCBot dal tuo sito potrebbero essere utilizzati da un’altra parte per scopi di addestramento dei dati AI, quindi se questo è il tuo problema, aggiungi CCBot alla tua lista di non consenti.
0 1 |
User-agent: CCBot Disallow: / |
ChatGPT User
Una descrizione utente di GPTBot. Potrebbe essere deprecato a partire da ora e potrebbe invece utilizzare l’agente utente GPTBot principale.
0 1 |
User-agent: ChatGPT-User Disallow: / |
Cohere AI
Dal loro sito web, “Cohere fornisce modelli linguistici di grandi dimensioni (LLM) leader del settore e funzionalità RAG su misura per soddisfare le esigenze dei casi d’uso aziendali che risolvono problemi del mondo reale”.
0 1 |
User-agent: cohere-ai Disallow: / |
Diffbot
Diffbot automatizza l’estrazione dei dati web da qualsiasi sito web utilizzando l’intelligenza artificiale, la visione artificiale e l’apprendimento automatico
0 1 |
User-agent: Diffbot Disallow: / |
Facebook/Meta
FacebookBot esegue la scansione delle pagine Web pubbliche per migliorare i modelli linguistici per la nostra tecnologia di riconoscimento vocale
0 1 |
User-agent: FacebookBot Disallow: / |
GoogleOther
Utilizzato da Google per eseguire la scansione per la ricerca e lo sviluppo interni. Non si sa cosa comporti esattamente, ma si tratta di un agente utente generico che viene utilizzato quando non è disponibile alcun altro agente utente appropriato.
0 1 |
User-agent: GoogleOther Disallow: / |
Google-Extended
Un nuovo agente utente che fornisce dati a Bard (il loro prodotto per motori di ricerca AI) e alle API generative Vertex AI. Ciò include anche i modelli futuri di questi.
0 1 |
User-agent: Google-Extended Disallow: / |
GPTBot
Il web crawler di OpenAI, noto anche come l’azienda dietro ChatGPT.
0 1 |
User-agent: GPTBot Disallow: / |
ImagesiftBot
ImagesiftBot è presentato come uno strumento di ricerca inversa di immagini, ma è associato a The Hive, un’azienda che produce modelli per la generazione di immagini
0 1 |
User-agent: ImagesiftBot Disallow: / |
PerplexityBot
Perplexity è un motore di ricerca AI gratuito che fornisce risposte affidabili a qualsiasi domanda.
0 1 |
User-agent: PerplexityBot Disallow: / |
Webz.io
Il bot di Webz.io che a volte può essere utilizzato per vendere i dati scansionati alle società LLM.
0 1 2 3 4 |
User-agent: OmigiliBot Disallow: / User-agent: Omigili Disallow: / |
0 commenti