Het gebruik van robot.txt op webpagina's

robots.txt en webpagina's

5/12/2014

foto: http://www.417marketing.com

Zoekmachines maken gebruik van zoekmachinerobots, ook wel spiders of crawlers genoemd, om informatie voor hun databases te verzamelen. Het gedrag van een crawler, spider of robot op je webpagina is te beïnvloeden met behulp van een klein tekstbestand in de HTML-code van de webpagina: robots.txt.

Robots.txt

Robots.txt is een eenvoudig tekstbestand, waarin je kunt vastleggen hoe je wilt dat een crawler zich op jouw pagina gedraagt. De crawler hoeft zich echter niets van het robots.txt bestand aan te trekken, maar de crawlers van professionele betrouwbare zoekmachines zullen dit verzoek van de betreffende pagina altijd netjes opvolgen.

Het robots.txt bestand moet in de hoofddirectory van je website worden geplaatst [www.paginanaam.nl/robots.txt]. Let op dat je de s niet vergeet! (robots.txt).

Hoe werkt robots.txt?

In het tekstbestand robots.txt staat aangegeven wat wel en niet mag worden gelezen door de zoekmachine. Dit bestand bevat specifieke opdrachten, welke aangeven welkerobots de internetpagina mogen lezen en welke hyperlinks op de pagina wel of niet gevolgd mogen worden. Een voorbeeld:

User-agent: *
User-agent XXXXX
Disallow: /
Disallow: /prive/
Disallow: /prive/mijngegevens.html

specificatie van de robots, * = alle robots
robot die zich identificeert als XXXXX
voor alle directories geen toestemming
alleen voor de map 'prive' geen toestemming
geen toestemming voor een specifieke pagina

Met robots.txt kun je dus specifieke robots vragen om jouw website of enkele pagina's van jouw website niet te benaderen. Er zijn echter robots die zich niets van dit verzoek zullen aantrekken. Websites die geen robots.txt hebben, geven hiermee toestemming aan de robots om alle pagina's en links te volgen.

Robots en metatags

Behalve met robot.txt, kunnen de zoekmachinerobots ook beïnvloed worden met behulp van metatags. Met de metatags in de HTML-code van een internetpagina kun je aangeven of de crawlers een pagina door de zoekmachine geïndexeerd mag worden en of de crawler de links op de pagina mag volgen:

niet indexeren en links niet volgen
indexeren en links niet volgen
indexeren en links volgen

Met de metatags kun je ook direct een specifieke robot 'aanspreken' door "robots" te vervangen door de naam van de specifieke robot, bijvoorbeeld "googlebot"

Robots en hyperlinks

Indien je wilt dat slechts één link op een pagina niet door een robot wordt gevolgd, dan kun je dat ook in de HTML-code van de hyperlink aangeven:

<a href="login.php" rel="nofollow"> inloggen</a>

Dit kun je doen bij irrelevante links naar bijvoorbeeld inlogpagina's voor leden, die verder geen relevante info bevatten.

0 Reacties

robots.txt en webpagina's

Robots.txt

Hoe werkt robots.txt?

Robots en metatags

Robots en hyperlinks

Archives

Categories