Guide til Robots.txt og Meta Robots

Ofte vil der være områder på en hjemmeside hvor det ikke giver mening at søgemaskinerne skal have adgang til og/eller sider som vi ikke ønsker skal være del af deres indeks. Sider som disse kan opstå på basis af mange forskellige opsætninger så som funktionelle scripts og parametrer der både kan skabe duplicate content, private og/eller tynde sider. Fakta er at du gør bedst i at styre med hård hånd, hvor søgemaskinerne må crawle og hvad de må indeksere for at sikre din hjemmeside en optimal indeksering der i sidste ende kan have stor betydning for din synlighed i søgeresultaterne.

Før vi går igang er det essentielt at vi kender til de to forskellige begreber og værktøjer som kan hjælpe os med at sende de rette signaler til søgemaskinerne. Det ene er robots.txt filen som vi bruger til at blokere søgemaskinernes crawler-adgang til områder på vores hjemmeside. Det andet er Meta Robots-tagget som implementeres på sideniveau og som vi bruger til at ekskludere sider fra søgemaskinernes indeks.

Jeg vil nu gennemgå dem begge med henblik på at forklare dig forskellen, hvor de skal bruges, og hvordan du i praksis bruger dem til at blokere for søgemaskinerne crawler-adgang og/eller blokerer sider fra at blive indekseret. Alle de store søgemaskiner idag (Google, Yahoo!, Bing mv.) understøtter robots.txt og Meta Robots-tagget.

Robots.txt

Robots.txt bruges til at udelukke crawling af bestemte områder på din hjemmeside. Det kan f.eks. være sider eller kategorier hvis indhold du ikke ønsker skal være tilgængelig i søgeresultaterne, biblioteker med test-indhold eller noget helt tredje. Med robots.txt er det dog vigtigt at forstå, at det er direktiver der ikke udelukker dine sider fra at blive indekseret.

Oprettelse af Robots.txt filen

Robots.txt filen oprettes i roden af dit domæne (e.g., http://www.domain.dk/robots.txt). Det er vigtigt at filen er en simpel tekstfil – ikke en HTML-fil – og at filnavnet er med små bogstaver hele vejen igennem. Alle andre navne-variationer eller lokationer af selve filen vil ikke blive set som værende korrekt af søgemaskinerne. Robots.txt er generelt set et meget alsidigt værktøj til at styre hvad søgemaskinerne må få adgang til på din hjemmeside og du kan med god grund bruge filen til at:

  • Forhindre søgemaskiner i at crawle bestemte områder på din hjemmeside
  • Forhindre søgemaskinernes adgang til scripts, værktøjer og andet programmæssig kode
  • Forhindre søgemaskiner i indeksering af duplicate content på din hjemmeside, så som en print-version af HTML sider eller listesider der genererer flere url’er med samme indhold igennem sortering og filtrering
  • Hjælpe søgemaskinerne med at lokalisere dit XML sitemap

Lad os tage et eksempel og sige at vi vil blokere søgemaskinernes adgang til vores /temp/ bibliotek. I dette tilfælde vil vi tilføje følgende 2 linjer til vores robots.txt fil:

Ved at benytte * i User-agent fortæller vi, at ingen søgemaskine må crawle vores /temp/ bibliotek. Det betyder også at links på siden ikke vil videregive potentiel linkjuice til andre sider eftersom søgemaskinerne slet ikke vil crawle links på siden. Med “Disallow”-direktivet er det vigtigt at forstå at sider ikke bliver crawlet men at de stadig kan blive fundet i søgemaskinernes indeks, hvis andre sider linker til dem. Mange tror fejlagtigt at fordi man bruger “Disallow”-direktivet, så vil siderne heller ikke optræde i søgemaskinernes indeks. Dette er en udbredt misforståelse og Googles Matt Cutts besvarede faktisk præcis dette spørgsmål tilbage i 2009 i en af hans videoer om robots.txt. Her er et eksempel på en side der er blokeret med “Disallow” man som optræder i indekset:

Robots.txt disallow

Eftersom søgemaskinerne ikke har adgang til sidens titel, metas, overskrifter, tekster mv., er det derfor ofte et resultatet af meget sparsom information hvor det kun er URL’en der er nævnt og uden beskrivelse.

Alle de store søgemaskiner (Google, Yahoo! Bing mv.) vil som sagt følge de direktiver som du benytter i din robots.txt fil. Det er dog vigtigt at huske på at subdomæner kræver deres egen robots.txt fil og det samme gælder sider der er lokaliseret på en https: (secure) servere.

Robots.txt syntax

Den basale syntax af robots.txt er relativ nem at gå til. Du specificerer et robot-navn, så som “googlebot”. Robotten identificeres af brugeragenten (User-agent:) og den pågældende action defineres på efterfølgende linje. Her er nogle eksempler på direktiver som du kan benytte, men gør dig nu selv den tjeneste at bruge dem med omtanke, så du ikke ender med at gøre skade på din hjemmeside.:

Bemærk at hatch-mark (#) kan bruges i din robots.txt fil til egne kommentarer.

Disallow:

Brug “Disallow”-direktivet på de sider og/eller biblioteker som du ønsker at forhindre søgemaskinerne i at crawle.

Allow:

“Allow”-direktivet er modstykket til “Disallow” og giver dig mulighed for at tillade crawling af udvalgte biblioteker. Når Allow bruges, kan den “overrule” et “Disallow”-direktiv på gældende områder. Dette kan f.eks. være en fordel på et stort site hvor alle sider er sat til disallow og der kun ønskes at give søgemaskinerne adgang til enkelte sektioner.

Brug af mere avanceret direktiver

Med “pattern matching” kan du foretage mere avanceret blokader af områder på din hjemmesider. Her er nogle basale eksempler der gør brug af wildcard (*) stjernen.

Sitemaps

Du kan bruge robots.txt til at hjælpe søgemaskinerne med at finde dit XML Sitemap. Dette gør du ved hjælp af dette direktiv (brug den absolutte URL til Sitemap-filen):

Test din Robots.txt fil

Når du har foretaget ændringer i din robots.txt fil så gør dig selv den tjeneste at teste den. Der findes flere valideringsværktøjer som kan gøre dette og Google har selv et værktøj som du kan finde i Google Webmaster Tools under Sundhed og Blokerede Webadresser.

Meta Robots-tagget

Vi ved nu at robots.txt filen kan forhindre søgemaskinerne i at crawle områder på vores hjemmeside men altså ikke dikterer udelukkelse af sider i indekset. For at udelukke sider i indekset gør vi bedst i at bruge Meta Robots-tagget.

Modsat robots.txt, blokerer META-robots tagget heller ikke for crawling da meta-tagget sættes på sideniveau eller i selve HTML-koden hvilket, logisk nok, kræver at siden skal crawles for at søgemaskinerne kan læse tagget. Der er to ting du bør kende til, før at du implementerer Meta Robots-tagget på en given side:

  • Index / Noindex
  • Follow / Nofollow

Ved brug af NOINDEX vil søgemaskinerne ikke inkludere siden i deres indeks og ved brug af NOFOLLOW vil søgemaskinerne heller ikke følge nogen links fra siden.

Ofte kan det dog være en god idé at fjerne siden fra indekset med NOINDEX men fortsat tillade søgemaskinerne at følge links på siden med FOLLOW. Det gør det muligt at sende linkjuicen videre til de sider der linkes til og som fortsat skal styrkes.

Af Jesper Damtoft

Mit navn er Jesper og jeg er Adwords og SEO ekspert hos Citona. Jeg blogger flittigt omkring emner der omhandler søgemaskiner, annoncering og...
Se alle artikler af Jesper Damtoft

4 kommentarer til "Guide til Robots.txt og Meta Robots"

  1. René Hansen den 1. august, 2013 kl. 08:42

    Hej Jesper.

    Fed artikel om Robots.txt, meget detaljeret!

    Jeg ville lige lægge en detalje som mange måske glemmer at få med, når de håndterer robots filen.

    Man skal ikke bruge robots.txt til at skjule sider, som man ikke vil have folk til at finde. URL’en ligger stadig på ccTLD/robots.txt, f.eks. https://www.citona.dk/robots.txt. og kan godt ses af brugere.

    Tak for den gode artikel igen, og jeg ville bare lige pointere det overfor jeres læsere:)

    • Jesper Damtoft (udgiver) den 4. august, 2013 kl. 17:04

      Hej René

      Mange tak og godt du kunne bruge artiklen! :-)

      Rigtig god pointe mht. hvad man vælger/ikke vælger at vise offentligt i sin robots.txt fil.

      Fortsat rigtig god dag! :-)

      Jesper

  2. Tobias Hyldeborg den 29. april, 2015 kl. 11:54

    Super godt indlæg, som kommer godt rundt om det hele. Tror dog der har sneget sig en lille fejl ind ved ‘Allow’-afsnittet, hvor du skriver den udelukker Googlebot.. Men med en ‘*’ vil den jo udelukke alle? :-)

    • Jesper Damtoft (udgiver) den 9. maj, 2015 kl. 11:40

      Tak Tobias,

      Godt at høre at du kunne lide indlægget. :-)

      Jo det er helt korrekt at * dækker for alle User-agents. :-)

Send en kommentar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Brug for hjælp?

Har du spørgsmål eller brug for hjælp? Vi vil meget gerne ringe dig op til en uforpligtende dialog.

2785 0203 / man-fre, 9-17

Share This

Modtag vores nyhedsbrev

Vil du have gode tips, guides og nyheder indenfor SEO og online markedsføring?