Door 11 augustus 2023 3 min
Anouk Verbeek Contentspecialist

Sinds juli 2022 werkt Anouk als contentspecialist bij Vizien. Het schrijven van variërende teksten voor verschillende klanten is precies wat Anouk graag doet. Dit valt dan ook samen met haar doel: bezoekers op weg helpen met goede content.

Dit is dan ook precies waar Anouk iedere ochtend naar uit kijkt aan het begin van haar werkdag: het schrijven van verschillende teksten. Door nieuwe onderwerpen uit te pluizen en vervolgens een tekst te schrijven die bezoekers juist informeert, hoopt ze dat deze bezoekers de pagina verlaten met de informatie waar ze naar op zoek waren.

GPTBot buitenhouden? OpenAI gaat verbod op crawling in robots.txt respecteren

Het verbod op crawling, het proces waarbij een zoekmachine of een chatbot als ChatGPT een website afspeurt naar nieuwe informatie, wordt vanaf nu gerespecteerd door OpenAI. De crawler van OpenAI laat een website met rust wanneer een regel in het robots.txt-bestand van een website aangeeft dat de crawler niet welkom is. In dit blog vertellen wij je hier graag meer over.

GPTBot is de crawler van OpenAI. Deze crawler verzamelt gegevens over een website door de inhoud, titels, afbeeldingen, hyperlinks, zoekwoorden en alt tags te scannen. Hierdoor kunnen AI-modellen getraind worden en worden de mogelijkheden ervan verbeterd.

Geen crawling in robots.txt meer: dit houdt het in

De crawler van OpenAI liet webpagina’s met paywalls, persoonlijke informatie en content die voorwaarden overschrijden al met rust, maar door dit verbod kan de crawler ook weg worden gehouden bij andere content.

Hoe dit precies werkt? Door een tekst toe te voegen aan het robots.txt-bestand. Dit bestand is onderdeel van webstandaarden en geeft instructies aan niet-menselijke bezoekers, zoals crawlers. Deze tekst vertelt zoekmachines dat de content van één of meerdere pagina’s niet gebruikt mag worden in de previews van zoekresultaten. Hierdoor wordt dus ook de GPTBot buitengehouden, waardoor content niet meer gebruikt mag worden door OpenAI. Het opvolgen van deze instructies gebeurt vrijwillig door OpenAI, zij respecteren deze tekst namelijk.

GPTBot niet toestaan? Zo doe je dat!

Wil je voorkomen dat de GPTBot toegang krijgt tot de content die op jouw website staat? Dan geef je dit eenvoudig aan door onderstaande tekst toe te voegen aan het robots.txt-bestand van jouw website:

User-agent: GPTBot
Disallow: /

Wil je de GPTBot toegang geven tot slechts een deel van jouw website? Ook dit kun je eenvoudig aangeven in het robots.txt-bestand. Dit doe je door het volgende toe te voegen:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Conclusie

Hoewel de GPTBot content van jouw website goed kan gebruiken om zichzelf, mogelijkheden van AI én de veiligheid ervan te verbeteren, is het ook mogelijk om de crawler weg te houden van jouw content. Ondanks dat de GPTBot webpagina’s met paywalls, persoonlijke informatie en content die in strijd is met hun beleid al met rust laat, is het vanaf nu ook mogelijk om zelf te kiezen welke delen van jouw website overgeslagen moeten worden door de crawler. Dit doe je door een bepaald stukje tekst toe te voegen aan het robots.txt-bestand.

Wil jij dat OpenAI’s GPTBot bepaalde content van jouw website met rust laat, zodat het niet wordt gebruikt voor AI-modellen? Geef dit dan aan in het robots.txt-bestand van jouw website. Heb je hier hulp bij nodig? Neem gerust contact met ons op. Wij helpen je hier graag mee!


Wijntje?

Ben jij op zoek naar een zoekmachine marketingbureau dat wél waarmaakt wat ze zeggen? Dan ben jij onze klant. Zin om samen te werken? Wij maken graag kennis met jou en je bedrijf.

Neem contact op
Lois Hoos, Commercieel officemanager
Lois Hoos Commercieel officemanager
Geen bullshit, gewoon
goede search marketing?