Wat is robots.txt?
robots.txt is een tekstbestand in de root van je website (/robots.txt) dat zoekmachine-bots vertelt welke pagina’s en mappen ze wel en niet mogen crawlen.
Toelichting
Een eenvoudig voorbeeld:
User-agent: *
Disallow: /admin/
Disallow: /winkelmandje/
Allow: /admin/public/
Sitemap: https://nibbles.vercel.app/sitemap.xmlDe drie meest gebruikte regels:
- User-agent — voor welke bot de regels gelden (
*betekent: alle) - Disallow — mappen of pagina’s die niet gecrawld mogen worden
- Allow — uitzonderingen op Disallow
- Sitemap — locatie van je sitemap.xml
Belangrijk misverstand: robots.txt voorkomt crawlen, niet indexeren. Een gedisallowede pagina kan via een externe link alsnog in Google’s index belanden — zonder dat Google de inhoud heeft kunnen lezen. Wil je een pagina écht uit de zoekresultaten houden, gebruik dan een noindex-meta tag op de pagina zelf, en disallowe haar niet in robots.txt (want dan kan Google de noindex-tag niet zien).
Gevoelige content hoort sowieso niet in robots.txt — het bestand is openbaar. Iedereen die /robots.txt opent, ziet welke mappen je probeert te verbergen.