Wat is robots.txt?

robots.txt is een tekstbestand in de root van je website (/robots.txt) dat zoekmachine-bots vertelt welke pagina’s en mappen ze wel en niet mogen crawlen.

Toelichting

Een eenvoudig voorbeeld:


User-agent: *
Disallow: /admin/
Disallow: /winkelmandje/
Allow: /admin/public/
Sitemap: https://nibbles.vercel.app/sitemap.xml

De drie meest gebruikte regels:

User-agent — voor welke bot de regels gelden (* betekent: alle)
Disallow — mappen of pagina’s die niet gecrawld mogen worden
Allow — uitzonderingen op Disallow
Sitemap — locatie van je sitemap.xml

Belangrijk misverstand: robots.txt voorkomt crawlen, niet indexeren. Een gedisallowede pagina kan via een externe link alsnog in Google’s index belanden — zonder dat Google de inhoud heeft kunnen lezen. Wil je een pagina écht uit de zoekresultaten houden, gebruik dan een noindex-meta tag op de pagina zelf, en disallowe haar niet in robots.txt (want dan kan Google de noindex-tag niet zien).

Gevoelige content hoort sowieso niet in robots.txt — het bestand is openbaar. Iedereen die /robots.txt opent, ziet welke mappen je probeert te verbergen.

Wat is robots.txt?

Toelichting

Zie ook