Wat is crawlen?
Crawlen is het proces waarbij geautomatiseerde programma’s — bots of spiders — links over het web volgen om webpagina’s te ontdekken en op te halen.
Toelichting
Google’s bot heet Googlebot, die van Bing Bingbot. Ze beginnen bij een lijst bekende URL’s en volgen elke link die ze tegenkomen. Wat ze niet via een link kunnen bereiken, ontdekken ze niet — tenzij je het zelf doorgeeft via een sitemap.xml.
Hoe vaak en hoeveel een bot van je site crawlt, heet het crawl budget. Voor kleine sites speelt dat geen rol. Bij grote sites (denk aan webshops met honderdduizenden URL’s) kan een verkeerd ingerichte structuur ervoor zorgen dat belangrijke pagina’s nauwelijks bezocht worden.
Je kunt sturen welke pagina’s wél en niet gecrawld mogen worden via robots.txt. Let op: crawlen is iets anders dan indexeren. Een pagina kan gecrawld worden zonder ooit in de index te belanden — bijvoorbeeld door een noindex-tag of een canonical die naar een andere URL wijst.