Zoekmachines maken gebruik van zoekmachinerobots, ook wel spiders of crawlers genoemd, om informatie voor hun databases te verzamelen. Het gedrag van een crawler, spider of robot op je webpagina is te beïnvloeden met behulp van een klein tekstbestand in de HTML-code van de webpagina: robots.txt. |
Robots.txt
Robots.txt is een eenvoudig tekstbestand, waarin je kunt vastleggen hoe je wilt dat een crawler zich op jouw pagina gedraagt. De crawler hoeft zich echter niets van het robots.txt bestand aan te trekken, maar de crawlers van professionele betrouwbare zoekmachines zullen dit verzoek van de betreffende pagina altijd netjes opvolgen.
Het robots.txt bestand moet in de hoofddirectory van je website worden geplaatst [www.paginanaam.nl/robots.txt]. Let op dat je de s niet vergeet! (robots.txt).
Het robots.txt bestand moet in de hoofddirectory van je website worden geplaatst [www.paginanaam.nl/robots.txt]. Let op dat je de s niet vergeet! (robots.txt).
Hoe werkt robots.txt?
In het tekstbestand robots.txt staat aangegeven wat wel en niet mag worden gelezen door de zoekmachine. Dit bestand bevat specifieke opdrachten, welke aangeven welkerobots de internetpagina mogen lezen en welke hyperlinks op de pagina wel of niet gevolgd mogen worden. Een voorbeeld:
User-agent: * User-agent XXXXX Disallow: / Disallow: /prive/ Disallow: /prive/mijngegevens.html | specificatie van de robots, * = alle robots robot die zich identificeert als XXXXX voor alle directories geen toestemming alleen voor de map 'prive' geen toestemming geen toestemming voor een specifieke pagina |
Met robots.txt kun je dus specifieke robots vragen om jouw website of enkele pagina's van jouw website niet te benaderen. Er zijn echter robots die zich niets van dit verzoek zullen aantrekken. Websites die geen robots.txt hebben, geven hiermee toestemming aan de robots om alle pagina's en links te volgen.
Robots en metatags
Behalve met robot.txt, kunnen de zoekmachinerobots ook beïnvloed worden met behulp van metatags. Met de metatags in de HTML-code van een internetpagina kun je aangeven of de crawlers een pagina door de zoekmachine geïndexeerd mag worden en of de crawler de links op de pagina mag volgen:
<meta name="robots" content='noindex, nofollow> <meta name="robots" content='index, nofollow> <meta name="robots" content='index, follow | niet indexeren en links niet volgen indexeren en links niet volgen indexeren en links volgen |
Met de metatags kun je ook direct een specifieke robot 'aanspreken' door "robots" te vervangen door de naam van de specifieke robot, bijvoorbeeld "googlebot"
Robots en hyperlinks
Indien je wilt dat slechts één link op een pagina niet door een robot wordt gevolgd, dan kun je dat ook in de HTML-code van de hyperlink aangeven:
<a href="login.php" rel="nofollow"> inloggen</a>
Dit kun je doen bij irrelevante links naar bijvoorbeeld inlogpagina's voor leden, die verder geen relevante info bevatten.
<a href="login.php" rel="nofollow"> inloggen</a>
Dit kun je doen bij irrelevante links naar bijvoorbeeld inlogpagina's voor leden, die verder geen relevante info bevatten.