Come disattivare i bot di formazione AI di Google Bard e OpenAI ChatGPT
Pubblicato: 2023-11-13Poiché l’intelligenza artificiale ha appena iniziato a stravolgere gran parte della vita su Internet (e normale), molti stanno sollevando questioni etiche su come le aziende che sviluppano l’intelligenza artificiale ottengono i dati che vengono utilizzati per addestrare questo software. Per rispondere a queste preoccupazioni, sia OpenAI che Google hanno adottato misure per fornire agli editori un’opzione per escludere che i loro contenuti vengano utilizzati per addestrare i robot AI.
Gli editori web preoccupano i robot IA
Gli editori hanno ragione a essere preoccupati per il ruolo che i loro contenuti hanno nella formazione dell’intelligenza artificiale e potrebbero essere preoccupati per diversi motivi.
Copyright dei contenuti e guadagni
Creatori ed editori hanno il diritto di guadagnare entrate dai contenuti che rendono disponibili. Chiunque detenga il diritto d'autore dovrebbe trarre vantaggio dall'uso dei propri contenuti. Ciò solleva due preoccupazioni specifiche per gli editori.
In primo luogo, le aziende che sviluppano programmi di intelligenza artificiale utilizzano i contenuti degli editori senza compensi. Sebbene questo sia un utilizzo precedentemente non comune, i programmi di formazione rappresentano un modo in cui è possibile utilizzare i contenuti. Gli editori dovrebbero, quindi, avere il controllo su se permetteranno questo (e forse se faranno pagare).
"milioni di immagini protette da copyright sono state copiate e elaborate illegalmente"
- Causa Getty Images
Questo è esattamente ciò che Getty Images, uno dei maggiori fornitori di foto e video online, ha accusato OpenAI. Getty Images afferma che le sue 12 milioni di immagini sono state utilizzate "senza permesso... o compenso". La causa include numerosi esempi di immagini che presentano una filigrana Getty Images sfocata.
Un'ulteriore causa di Getty Images afferma che Stability AI "ha copiato ed elaborato illegalmente milioni di immagini protette da copyright", con esempi di file prodotti con loghi Getty alterati dall'intelligenza artificiale.

Confronto di foto presente su The Verge
Cambiamenti nel settore degli editori portati dall’intelligenza artificiale
Alcuni editori potrebbero considerare l’intelligenza artificiale come una minaccia nel loro settore. Anche se accettano che il loro modello di business dovrà prima o poi cambiare a causa delle capacità dell’intelligenza artificiale, potrebbero non voler accelerare lo sviluppo del software.
Anche se impedire alle società di intelligenza artificiale di accedere a un editore specifico potrebbe avere un effetto trascurabile sullo sviluppo, alcuni editori potrebbero opporsi a ciò per principio.
Protezione dei contenuti unici
Alcuni editori potrebbero sperare di mantenere unici i propri contenuti impedendo all’intelligenza artificiale di copiarli (o creare qualcosa di simile). Questa non è una sfida nuova per gli editori online, poiché gli scraper vengono utilizzati da tempo per raccogliere dati dai siti web. Si tratta però di un altro aspetto che potrebbe essere rilevante in nicchie altamente specializzate o per le piattaforme di notizie.
Opzioni per disattivare la formazione sull'intelligenza artificiale
Senza regolamentazione, gli editori devono rinunciare manualmente allo sviluppo di ciascuna società di intelligenza artificiale. I due principali da cui rinunciare sono OpenAI (creatore di ChatGPT) e Google (che ha Bard e Vertex AI).
Alcuni nel settore dell'editoria online vedono questa come un'opzione nominale, con un dirigente che afferma: “È un gesto simbolico… penso che sia stato uno sforzo inutile da parte mia. È inevitabile che queste cose vengano ingerite, strisciate e da cui si impari.
Tuttavia, gli editori ora hanno la possibilità di rinunciare.
Come disattivare ChatGPT
Alcuni siti non devono preoccuparsi che il crawler di OpenAI raccolga informazioni dai loro contenuti.
L'azienda afferma di non raccogliere dati da contenuti che si trovano dietro un paywall o un modulo che richiede informazioni personali. Inoltre, non esegue la scansione dei siti che non sono in linea con le linee guida sui contenuti di OpenAI. Tutti questi vengono filtrati automaticamente.

Gli editori che hanno contenuti che non vengono preclusi automaticamente (che include la maggior parte degli editori) possono bloccare il GPTBot aggiungendo il codice di base al file robots.txt del loro sito web.
Il GPTBot è identificato all'interno di un file robots.txt come:
Token agente utente: GPTBot
Stringa completa dell'agente utente: Mozilla/5.0 AppleWebKit/537.36
(KHTML, come Gecko; compatibile; GPTBot/1.0;
+https://openai.com/gptbot)
Per bloccare del tutto il GPTBot, aggiungi quanto segue al file robots.txt del tuo sito:
Agente utente: GPTBot
Non consentire: /
Per bloccare selettivamente il GPTBot da contenuti specifici, utilizzare l'esempio seguente per selezionare a quali cartelle è possibile e non è possibile accedere:
Agente utente: GPTBot
Consenti: /directory-1/
Non consentire: /directory-2/
È molto simile a impedire ai crawler di Google o di un altro motore di ricerca di accedere a un sito Web o a cartelle.
Come disattivare Google Bard
Google ha reso disponibile la disattivazione per Bard AI e Vertex AI nel settembre 2023. La disattivazione viene eseguita più o meno allo stesso modo della disattivazione di OpenAI.
Per bloccare il crawler AI di Google, aggiungi il seguente codice al file robots.txt del tuo sito:
Agente utente: Google esteso
Non consentire: /
Come con il bot di OpenAI, potresti anche concedere a Google un accesso parziale ma non totale:
Agente utente: Google esteso
Consenti: /directory-1/
Non consentire: /directory-2/
"Trattano tutto come un unico grande prodotto di ricerca."
- Matt Rogerson, Il guardiano
Prima di rinunciare, i webmaster e gli editori devono essere consapevoli che ciò probabilmente significherà che un sito non verrà nemmeno sottoposto a scansione per l'indicizzazione della ricerca. Come ha affermato Matt Rogerson del The Guardian, questi sono “raschiatori in bundle”. Ha spiegato: “Trattano tutto come un unico grande prodotto di ricerca. Dicono: "No, non hai la scelta della granularità". Ti diamo la possibilità di rinunciare.' Ma ovviamente non vogliamo rinunciare a tutta la scansione del web."
Blocca i bot di formazione AI dai tuoi contenuti
Questa soluzione non è perfetta. Finora si rivolge solo a due sviluppatori di intelligenza artificiale (ad esempio non Microsoft) e tutte le aziende in questo campo hanno già raccolto grandi quantità di dati. Come ha scritto Google, “Con l’espansione delle applicazioni AI, gli editori web dovranno affrontare la crescente complessità della gestione di diversi usi su larga scala”.
Tuttavia, queste sono due semplici azioni che i webmaster e gli editori online possono intraprendere.
Se sei un editore online e sei preoccupato di come i tuoi contenuti potrebbero essere utilizzati per la formazione sull'intelligenza artificiale, esegui queste due semplici azioni per impedire a Chat GPT di OpenAI, Bard di Google e Vertex AI di Google di accedere al tuo sito web.
Sei interessato a come viene utilizzata l'intelligenza artificiale dagli editori?
Ecco alcuni articoli aggiuntivi sull'intelligenza artificiale per gli editori digitali:
- In che modo i principali pub multimediali utilizzano l'intelligenza artificiale per la produzione di contenuti
- 6 modi in cui l'intelligenza artificiale può aumentare gli abbonamenti
- Megalist di strumenti AI per editori
- Altri articoli sull'intelligenza artificiale per gli editori
La soluzione Visitor Relationship Management (VRM) di Admiral sfrutta l'intelligenza artificiale e l'apprendimento automatico in diversi modi e continua a innovare gli strumenti per automatizzare la crescita delle relazioni e delle entrate dei visitatori. Gli esempi includono l'integrazione di ChatGPT per automatizzare la generazione di CTA per favorire le conversioni e trigger in tempo reale basati sui picchi di traffico dei visitatori con Surge Targeting.
Scopri come VRM può aiutarti a incrementare le relazioni e le entrate lungo il percorso del visitatore.

