Vizien
Door augustus 11, 2023 3 min

GPTBot buitenhouden? OpenAI gaat verbod op crawling in robots.txt respecteren

Het verbod op crawling, het proces waarbij een zoekmachine of een chatbot als ChatGPT een website afspeurt naar nieuwe informatie, wordt vanaf nu gerespecteerd door OpenAI. De crawler van OpenAI laat een website met rust wanneer een regel in het robots.txt-bestand van een website aangeeft dat de crawler niet welkom is. In dit blog vertellen wij je hier graag meer over.

GPTBot is de crawler van OpenAI. Deze crawler verzamelt gegevens over een website door de inhoud, titels, afbeeldingen, hyperlinks, zoekwoorden en alt tags te scannen. Hierdoor kunnen AI-modellen getraind worden en worden de mogelijkheden ervan verbeterd.

Geen crawling in robots.txt meer: dit houdt het in

De crawler van OpenAI liet webpagina’s met paywalls, persoonlijke informatie en content die voorwaarden overschrijden al met rust, maar door dit verbod kan de crawler ook weg worden gehouden bij andere content.

Hoe dit precies werkt? Door een tekst toe te voegen aan het robots.txt-bestand. Dit bestand is onderdeel van webstandaarden en geeft instructies aan niet-menselijke bezoekers, zoals crawlers. Deze tekst vertelt zoekmachines dat de content van één of meerdere pagina’s niet gebruikt mag worden in de previews van zoekresultaten. Hierdoor wordt dus ook de GPTBot buitengehouden, waardoor content niet meer gebruikt mag worden door OpenAI. Het opvolgen van deze instructies gebeurt vrijwillig door OpenAI, zij respecteren deze tekst namelijk.

GPTBot niet toestaan? Zo doe je dat!

Wil je voorkomen dat de GPTBot toegang krijgt tot de content die op jouw website staat? Dan geef je dit eenvoudig aan door onderstaande tekst toe te voegen aan het robots.txt-bestand van jouw website:

User-agent: GPTBot
Disallow: /

Wil je de GPTBot toegang geven tot slechts een deel van jouw website? Ook dit kun je eenvoudig aangeven in het robots.txt-bestand. Dit doe je door het volgende toe te voegen:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Conclusie

Hoewel de GPTBot content van jouw website goed kan gebruiken om zichzelf, mogelijkheden van AI én de veiligheid ervan te verbeteren, is het ook mogelijk om de crawler weg te houden van jouw content. Ondanks dat de GPTBot webpagina’s met paywalls, persoonlijke informatie en content die in strijd is met hun beleid al met rust laat, is het vanaf nu ook mogelijk om zelf te kiezen welke delen van jouw website overgeslagen moeten worden door de crawler. Dit doe je door een bepaald stukje tekst toe te voegen aan het robots.txt-bestand.

Wil jij dat OpenAI’s GPTBot bepaalde content van jouw website met rust laat, zodat het niet wordt gebruikt voor AI-modellen? Geef dit dan aan in het robots.txt-bestand van jouw website. Heb je hier hulp bij nodig? Neem gerust contact met ons op. Wij helpen je hier graag mee!


Koffietje?

Ben jij op zoek naar een zoekmachine marketingbureau dat wél waarmaakt wat ze zeggen? Dan ben jij onze klant. Zin om samen te werken? Wij maken graag kennis met jou en je bedrijf.

Neem contact op
Manon van den Beuken, Founder & Commercieel directeur
Manon van den Beuken Founder & Commercieel directeur
Geen bullshit, gewoon
goede search marketing?