Duplicate content

Hvad er Duplicate content

Dette er vores ultimative guide til duplicate content:


5.2 URL-specifik duplicate content

Ud over at sikre at URL’erne er optimeret, er det vigtigt at analysere om der findes URL-specifik duplicate content på hjemmesiden. URL’erne er typisk skyld i den største del af duplicate content på en hjemmeside der opstår når 2 eller flere URL’er peger på en side med samme indhold.

Når duplicate content er tilstede vil søgemaskinerne forsøge at vælge den side som de tror er den originale. De øvrige sider vil ende som et supplement til søgeresultaterne – ofte gemt bag en besked som nedenstående – eller helt blive udelukket fra deres primære indeks.

Siden Googles Panda-opdatering kan massiv duplicate content dog have endnu større konsekvenser for en hjemmeside. Duplicate content er ikke som før et isoleret problem men kan nu også gøre skade på ikke-duplicate-content sider i form af en helt eller delvist fratagelse af deres værdi i søgeresultaterne.

Der findes 3 varianter af duplicate content som er værd at kende til:

5.2.1 Rigtig duplicate content

Hvor 2 eller flere URL’er peger på en side og indholdet er 100% ens.

5.2.2 Delvist duplicate content

Hvor 2 eller flere URL’er peger på en side og indholdet er delvist ens. Det kan være fra mindre paragraffer til større tekstblokke og skyldes en uhensigtsmæssig opsætning af indholdet.

5.2.3 Duplicate content på tværs af domæner

Hvor 2 eller flere domæner “deler” det samme indhold. Dette kan både være rigtig eller delvist duplicate content.

5.3 Sådan identificerer du duplicate content

Det findes flere værktøjer som kan bruges til at identificere duplicate content. Her vil vi komme ind på et par stykker af dem.

5.3.1 Google Webmaster Tools (GWT)

I GWT kan du trække en liste af duplicate TITLE tags og Meta Descriptions som Google har indekseret. Selvom dette ikke fortæller hele historien, er det et godt sted at starte. Klik på Optimering > HTML-forbedringer for at få tabellen frem.

5.3.2 Googles Site: Command

Når du har en idé om hvor hjemmesiden løber ind i duplicate content problemer kan du forsøge at grave dybere med Googles site: Command der er et magtfuldt og fleksibelt værktøj. Det der specielt gør det godt er at du kan bruge den i kombination med andre såkaldte “search operators”. Her nogle eksempler:

5.3.2.1 Forsiden

Du ønsker at finde ud af om søgemaskinerne har indekseret kopier af din forside. Her kan du bruge kommandoerne “site:” sammen med “intitle:” således:

5.3.2.2 Sortering

Du ønsker at identificere duplicate content i forbindelse med din sorterings funktion på hjemmesiden ved at kigge efter parameteren “sort=” i url’en:

5.3.2.3 HTTP (secure)

Du ønsker at identificere om der er blevet indekseret nogle sikre “https” kopier fra hjemmesiden:

5.3.2.4 Paragraffer

Du ønsker at finde delvist duplicate content sider der indeholder din pre-defineret tekststreng:

Dette var blot et par eksempler for hvordan du kan bruge disse search operators til at identificere duplicate content.

5.3.3 Kryds-domæne

Til at identificere og overvåge om din hjemmesides indhold bliver misbrugt på andre domæner kan du bruge Copyscape der gør et fremragende job.

5.3.4 Dit hovede

Det er vigtigt du bruger din eget hovede i denne proces. At identificere duplicate content kræver typisk lidt detektivarbejde. Prøv at navigere systematisk rundt på din hjemmeside for at finde ud af hvor CMS’en evt. laver duplicate content. Benytter hjemmesiden nogle steder lister med sortering og/eller filtre? Generere sortering og filtrene nye URL’er med parametre/variabler og bliver disse indekseret af søgemaskinerne? Dette kan bl.a. give mange forskellige URL’er med delvist duplicate content. Grav også dybere med site: kommandoen.

5.4 Sådan fjerner du duplicate content

Der findes flere metoder som kan anvendes til at fjerne de øvrige sider som udgør duplicate content i søgemaskinernes indeks.

5.4.1 404 (Not Found)

Den mest simple metode er at fjerne de sider der skaber duplicate content.

5.4.2 301 Redirect

Du kan vælge at 301 redirecte siderne der skaber duplicate content til deres originale side. Her er det vigtigt du benytte en 301 statuskode som fortæller at siden er permanent flyttet.

Det er muligt at opsætte redirect regler via mod_rewrite modulet i din .htaccess fil hvis du benytter en Apache server eller en IIS Mod-Rewriter hvis du benytter en Microsoft Internet Information Server.

5.4.3 Robots.txt

Robots.txt filen er typisk lokaliseret i roden af domænet og er en anden måde til, hvordan du kan blokere for søgemaskinernes adgang til indhold på specifikke områder på hjemmesiden. Mange tror fejlagtigt at “Disallow” kommandoen også blokere for indeksering hvilket er forkert. Sider/URL’er kan stadig fremgå i søgeresultaterne blot ved at søgemaskinerne har kendskab til siderne, f.eks. via andre links, men indholdet på siderne (title, meta-data, tekster mv.) vil selvfølgelig ikke blive brugt i indekset. Hvis du ønsker vil blokere for både adgang og indeksering, anbefales det, at du benytter én af de andre metoder såsom et 301 redirect, Meta Robots Tag eller canonical-tagget.

5.4.4 Robots Meta Tag

På de sider der skaber duplicate content kan du vælge at blokere for adgangen til søgemaskinerne med robots meta tagget. Her er værdierne som kan benyttes i tagget for at blokere for en sides adgang i søgeresultaterne:

  • Noindex: Blokerer siden fra at blive vist i søgemaskinerne.
  • Nofollow: Blokerer links på siden fra at blive fulgt af søgemaskinerne.
  • None: Svarer til “NOINDEX, NOFOLLOW”.

Tip: Ofte er det en god idé at benytte “NOINDEX, FOLLOW” for at fortælle søgemaskinerne at de ikke skal tage siden med i deres indeks, men godt må følge de links der er på siden.

5.4.5 Canonical Tag

I 2009 introducerede søgemaskinerne et nyt tag rel=”canonical”. Med dette tag kan du på de øvrige sider fortælle søgemaskinerne at den originale side findes på en anden URL. Når søgemaskinerne besøger siden vil de ikke indeksere den men i stedet hoppe til den originale side. Linkjuicen fra de øvrige sider bliver ligeledes videresendt igennem tagget:

Tip: Hvis du anvender canonical tagget på samtlige sider på hjemmeside (sidewide) kan du få bugt med alle de parametre og session IDs der kan florere i url’erne, som derefter kan ende med at blive indekseret og skabe duplicate content.

5.4.6 Anmod Google om at fjerne webadresser

I Google Webmaster Tools (GWT) er der mulighed for manuelt at fjerne individuelle sider eller undermapper fra indekset. Klik på Optimering > Fjern webadresser for at oprette en anmodning om fjernelse af de øvrige sider.

Husk at før du anmoder om fjernelse bør du enten fjerne siderne helt fra hjemmesiden (404), blokere dem via robots.txt eller robots meta tagget da de ellers vil blive re-indekseret efter 90 dage.

5.4.7 Google Parametre blokering

Der er også mulighed for igennem GWT at specificere parametre i URL’en som du ønsker Google skal ignorere. Klik på Konfiguration > Webadresseparametre.

5.4.8 Rel=”Prev” og Rel=”Next”

Denne metode er specielt velegnet til sider bestående af lister/paging f.eks. i forbindelse med en søgning på hjemmesiden. Her kan der nemt opstå lister med delvist duplicate content. For at komme det til livs kan man benytte 2 tags til at give søgemaskinerne en forståelse for hvordan listerne er relateret. Her et eksempel på et søgeresultat fordelt over 3 lister:

På den 1. liste benytter vi kun rel=”next” til at fortælle søgemaskinerne om den næste liste i forløbet da der ikke er nogle forrige lister:

På den 2. liste benytter vi både rel=”prev” og rel=”next” til at fortælle søgemaskinerne om den forrige og efterfølgende liste i forløbet:

På den 3. liste benytter vi kun rel=”prev” til at fortælle søgemaskinerne om den forrige liste i forløbet da der ikke er flere efterfølgende lister:

Hvor det kan blive svært er at få CMS’en til at generere disse tags dynamisk. Der er derfor også andre metoder som kan bruges til at håndtere lister som vi også kommer ind på i dette afsnit.

5.4.9 Interne links

For at undgå duplicate content er det ligeledes nødvendigt med struktur i de interne links. Har du f.eks. lige lavet en 301 redirect eller benyttet canonical tagget til fortælle søgemaskinerne om sidens originale kilde er det vigtigt du ikke fortsat bliver ved med at linke til den gamle side i f.eks. din navigation eller et XML Sitemap. Interne links er et stærkt signal til søgemaskinerne og det er derfor vigtigt ikke at sende modstridende signaler.

5.5 Eksempler på duplicate content

Nedenfor nævnes en række eksempler på duplicate content fra hjemmeside og der refereres til løsningen.

5.5.1 www. vs. ikke-www

Dette er én af de største problemer til “sidewide” duplicate content på en hjemmeside. Problemet opstår når de samme sider er tilgængelig via både en www. (www.domain.dk) og ikke-www (domain.dk) version af url’erne.

Oftest er din bedste løsning her, et 301-redirect (5.4.2) den ene version af url’erne til den foretrukne version.

Inde i GWT bør du ligeledes vælge den anbefalet version under Konfiguration > Indstillinger og foretrukne domæne. Du bliver dog nød til at opsætte en GWT profil for både www. og ikke-www domænet for at kunne bekræfte ejerskabet af begge domæner hvilket kan være lidt besværligt. Står den blot i “Angiv ikke et foretrukket domæne” vil Google forsøge at vælge den anbefalet version selv.

5.5.2 Testserver

Ofte ses det at webudviklere benytter et subdomæne til at teste en ny hjemmeside på inden den sættes i luften. Her sker det også at nogle glemme at blokere adgangen for søgemaskinerne og når sitet går i luften ligger de samme sider fra subdomænet og roddomænet i Googles indeks hvilket skaber duplicate content.

Den bedste løsning her er at få blokeret subdomænet hurtigst muligt igennem din robots.txt fil (5.4.3). De allerede indekseret sider fra subdomænet kan du vælge at 301-redirecte (5.4.2) til de rigtige sider på roddomænet eller du kan fjerne dem fra Googles indeks via GWT (5.4.6).

5.5.3 URL slashes (“/”)

Dette er ikke så stort et problem som tidligere da søgemaskinerne er blevet meget bedre til at håndtere dette. Teknisk set kunne url’erne med og uden “/” være 2 forskellige sider det er derfor stadig også en god idé at være konsekvent og sørge for at dine url’er f.eks. altid ender på “/”.

Dette kan løses ved at 301-redirecte (5.4.2) alle ikke-“/” til “/”.

5.5.4 Sikre sider (https)

Benytter hjemmesiden sikre sider (“https:” protokol) finder du måske ud af at både de sikre og usikre versioner bliver indekseret. Dette ses tit i forbindelse med e-handelsforløb hvor der skal bruges sikre sider og navigationen ender med at linke til begge versioner pga. brugen af relative url’er.

Selvom en god hjemmeside arkitektur typisk løser dette, er det en god idé at benytte en noindex i de sikre siders Robots Meta Tag (5.4.4). Pas på ikke at 301-redirecte sikre sider til usikre sider da du så mister sikkerheden.

5.5.5 Flere versioner af hjemmesiden

På trods af afsnit 5.5.1 – 5.5.3 alle kan skabe duplicate content af hjemmesiden (roden) kan hjemmesiden (roden) også skabe sine egne problemer. Et typisk eksempel på dette kan være flere versioner som dette:

Dette problem løses bedst med en 301-redirect (5.4.2) til den rigtige url. Det anbefales også at bruge et canonical tag (5.4.5) på hjemmesiden som et ekstra signal til søgemaskinerne om hvilken version der er den originale.

5.5.6 Session IDs

Nogle hjemmeside (specielt e-com) tagger hver nye besøgende med en tracking parametre. Det kan ske at denne parametre ender i en URL der bliver indekseret og skaber duplicate content som f.eks.:

Dette kan rask udvikle sig til flere tusinde dubletter. Den bedste løsning, hvis muligt, er at fjerne session IDs fra URL’erne og i stedet bruge det i en cookie. Alternativt kan du implementere canonical tagget (5.4.5) på samtlige sider på hjemmesiden. Er dette også umuligt kan du i GWT blokere parametre (5.4.7) som denne fra at blive indekseret.

5.5.7 Affiliate/kampagne sporing

Dette problem ligner meget afsnittet om Session IDs og opstår når sider giver en sporings variable til deres affiliates. Denne sporings variable er typisk knyttet til en landingsside:

Løsningen er i stil med Session IDs. Du kan fange affiliate ID’en i en cookie og 301-redirect (5.4.2) til den originale version af siden. Alternativt kan du vælge blot at bruge canonical tagget (5.4.5) eller blokere affiliate URL parametren (5.4.7).

5.5.8 Flere stier

Flere stier ned til en side er helt fint men når disse stier genererer flere url’er, opstår der problemer. Et eksempel kan være en produktside der kan nås fra disse stier:

Her er ipad produktet tilgængeligt via 3 sider/url’er (2 kategorier og 1 tag). Tags er specielt problematiske, da de teoretisk set kan udvikle sig til et ubegrænset antal url’er af samme side og som vi har lært må hver side kun have én url.

Har du allerede forskellige variationer indekseret er det bedste et 301-redirect (5.4.2) eller et canonical tag (5.4.5) til originalen på disse sider. Bruger du tagging, så vurder om du helt kan undvære/fjerne dem eller sørg for at disse tags sider ikke bliver indekseret ved at benytte et Robots Meta Tag (5.4.4). Husk også at kigge på hjemmesidens arkitektur engang imellem for at se om der er noget ved den som kan forbedres (3.5).

5.5.9 Funktionelle parametre

Funktionelle parametre er URL parametre som ændringer lidt indhold på siden men som skaber duplicate content. Et eksempel på en parametre hvis formål er at give en print-venlig-version af siden:

Her er “print=1” parameteren der skaber problemer. Undgå at disse sider bliver indekseret ved at bruge et Robots Meta Tag (5.4.4) på disse sider, et canonical tag (5.4.5) eller alternativt bloker parameteren i GWT (5.4.7).

5.5.10 Søgning

På mange hjemmesider findes der produktsider hvor brugeren har nogle formularer som kan bruges til at sortere og filtrere resultaterne. På trods af dette kan være meget brugervenligt skaber det også tit problemer for søgemaskinerne hvis url’en samtidig ændrer sig i henhold til de valg brugeren laver:

5.5.10.1 Sortering

I de fleste tilfælde vil den bedste løsning være at blokere alle sorteringssider fuldstændigt, enten med en noindex i Robots Meta Tagget (5.4.4) eller ved at blokere parametrene inde i GWT (5.4.7).

5.5.10.2 Filtrering

Løsningen er den samme som med sortering. Bloker alle filtreringssider fuldstændigt, enten med en noindex i Robots Meta Tagget (5.4.4) eller ved at blokere parametrene inde i GWT (5.4.7).

5.5.10.3 Lister/Paging

Opdeling af søgeresultaterne er nemt at visualisere men løsningen kan være meget svær at identificere og finde:

Imens resultaterne på siderne er forskellige er der mange andre vigtige områder som er ens, herunder sidernes titel, meta description, overskrift, template m.m. Ovenpå det er Google generelt heller ikke vild med at linke ind til andre hjemmesides interne søgeresultater.

For nylig introducerede Google de to tags Rel=”Prev” og Rel=”Next” (5.4.8). De første tests viser at disse tags virker, men data omkring dem er begrænset og de kan være svære at implementere.

Du har 3 andre løsninger, der på baggrund af dit opsæt kan være mere velegnet til at bruge.

  • Du kan bruge Robots Meta Tagget (5.4.4) på side2 og frem men sætte værdierne til “NOINDEX, FOLLOW”. Det lader Google crawle igennem indholdet men uden at indeksere det.
  • Du kan oprette en “Se alle produkter” side hvor alle dine produkter vises på én side/url og selv lade Google finde den.
  • Du kan oprette en “Se alle produkter” og bruge canonical tagget (5.4.5) på samtlige sider der indgår i din paging og linke tilbage til denne side.

5.5.11 Produktvarianter

Produktvariant sider er sider der udspringer fra det primære produkt og kun adskiller sig i form af en feature eller egenskab som f.eks.:

Selvom ønsket om at få produktet op i søgeresultaterne i samtlige farver er der bestemt mange ulemper ved at forsøge dette. Har hjemmesiden meget få sider vil det være i orden men udvider produkterne og varianterne sig til flere 100 eller 1000 sider, så bør de håndteres korrekt. Her anbefales brugen af canonical tagget (5.4.5) ved at linke alle varianterne tilbage til deres originale produktside.

Tip: Alternativt kan du vurdere om du helt kan undvære de separate variantsider og i stedet blot bruge formularfelter på den originale produktside. Vær dog opmærksom på såfremt formfelterne tilføjer parametre i url’en, skal disse parametre håndteres (5.4.7) for ikke igen at kunne skabe duplicate content.

5.5.12 Kryds-domæne

Dette afsnit relaterer sig til duplicate content på tværs af domæner. Her sammenligner søgemaskinerne din hjemmesides sider med resten af nettet.
Til at identificere og overvåge om din hjemmesides indhold bliver misbrugt på andre domæner kan du bruge Copyscape der gør et fremragende job.

5.5.12.1 Synkroniseret indhold (syndicated content)

Indhold du bruger fra en andre hjemmeside med fuld godkendelse fra den originale udgiver. På trods af det er lovligt vil søgemaskinerne se det som duplicate content hvilket som vi ved kan gøre skade på din hjemmeside. Det er derfor vigtigt du bruger canonical tagget (5.4.5) til at linke tilbage til den side hvor du har fået indholdet fra. Søgemaskinerne vil se dette som en reference til kilden og din side vil ikke blive indekseret i søgeresultaterne. Men hvis hensigten blot er at give værdi til dine besøgere er det vel også fint.

5.5.12.2 Skrabet indhold (scraped content)

Det samme som synkroniseret indhold, blot her har du ikke spurgt efter en godkendelse fra den originale udgiver. Dette bryder lovgivningen og bedste råd er derfor at lade være med at gøre det!

Lad os ringe dig op

Har du spørgsmål eller brug for hjælp? Vi vil meget gerne ringe dig op til en uforpligtende dialog.

2785 0203 / man-fre, 9-17