6. Sitzung Suchmaschinenmarketing: Alles rund um Duplicate Content

In der sechsten Sitzung des Moduls „Suchmaschinenmarketing“ an der Hochschule Fulda ging es im Allgemeinen um typische Fälle von Duplicate Content, wie diese zu vermeiden sind und hiermit zusammenhängend von Problemen, mit denen Webshops täglich konfrontiert werden.

Was ist Duplicate Content?

Duplicate Contents, kurz DC, sind identische oder ähnliche Inhalte, auf die Google mithilfe mehrerer URLS oder Domains zugreifen kann. Man unterscheidet bei diesen Contents zwischen exakten Kopien und Kopien großer Teiler bestimmter Inhalte (Near Duplicate Content). Diese sogenannten „duplizierten Inhalte“ zählen zu den Hauptproblemen der Suchmaschinenoptimierung, sodass die Vermeidung von Duplicate Content als einer der wichtigsten SEO-Aufgaben betrachtet werden kann.

Wie entsteht Duplicate Content?

Durch Ersatz einer alten Seite mit einer Neuen

Wird eine alte, bereits indexierte Seite durch eine neue Seite ersetzt, so werden dieselben Inhalte unter neuen Permalinks (gleiche Domain, jedoch neue Link-Struktur) angezeigt. Auf diese Weise enstehen ebenfalls duplizierte Inhalte.

 

Durch Domain-Umzug
Sämtliche Seiten sind noch unter einer alten Domain bei der Suchmaschine indexiert, während dieselben Inhalte unter einer neuen Domain unter einer völlig neuen URL verfügbar sind.

 

Durch Kategorien, Tags, Paginierung
Ein und dieselbe Seite kann direkt oder mittels verschiedener Kategorien, Tags, Seitenzahlen etc. aufgerufen werden.

Beispiel Kategorie:         /duplicate-content/

Beispiel Tag:                      /seo/duplicate-content/

Beispiel Seitenzahl:        /2/duplicate-content)

 

Durch Kopien von Produktbeschreibungen, Texten und Meta-Angaben

Um sich Arbeit und Zeit zu sparen, werden Produktbeschreibungen meistens einfach kopiert. So können zum Beispiel einzelne Produktseiten oder Beiträge unterschiedlichen Kategorien zugeordnet werden. Dabei werden auch keine individuellen Titel oder Beschreibungen (Descriptions) im Quellcode angegeben, wodurch letztendlich Duplicate Content entsteht.

 

Durch Print-Versionen der Seiten

Seiteninhalte lassen sich über printfähige, separate Seiten oder PDF-Dokumente auszudrucken. Jedoch besteht das Risiko, dass Google diese Versionen als Duplicate Content wertet.

 

Durch Groß- und Kleinschreibung in URLs

Kann ein und dieselbe Seite mittels Groß- und Kleinschreibung der URL erreicht werden, sieht Google diese als zwei unterschiedliche Seiten an:

Beispiel Großschreibung:            www.beispiel.de/Beispielseite

Beispiel Kleinschreibung:            www.beispiel.de/beispielseite                               (empfehlenswert)

 

Durch URL-Parameter

Eine der vielen Funktionen von URL-Parametern ist das Tracken von Traffic-Quellen.  Jegliche Parameter sorgen für unterschiedliche URLs und damit Duplicate Content.

 

Durch Session-IDs

Sessions sind dafür geeignet, Besucher einer Webseite zu tracken. Mithilfe von Sessions können User Produkte in den Warenkorb legen und sogenannte Session-IDs (Identifikationsmerkmale) bekommen. Da jedem User eine neue Session-ID zugeordnet wird, besteht auch hier die Gefahr von Duplicate Content.

 

Durch Kommentarpaginierung

www.beispiel.de sowie www.beispiel.de/kommentarseite-1/, www.beispiel.de/kommentarseite-2/

Viele Content-Management-Systeme nehmen ab einer bestimmten Anzahl von Kommentaren eine Trennung  vor und verteilen diese auf mehrere Seiten. Auf diese Weise entstehen für die Suchmaschine neue URLs mit Duplicate Content.

Beispiel:              www.beispiel.de sowie www.beispiel.de/kommentarseite-1/

 

Durch mehrere Domains, die identischen Inhalt besitzen

In manchen Fällen werden Seiteninhalte bewusst oder unbewusst auf mehrere Webseiten veröffentlicht. Fehlen dann auf diesen Webseiten die Quellenangaben mit entsprechenden Verlinkungen, fällt es Google schwer, das Original zu finden.

 

Durch URLs mit und ohne www / mit http und https

Ist die Erreichbarkeit einer Webseite mit und ohne den Zusatz „www“ gegeben, handelt es sich um Duplicate Content.

Ist eine Seite sowohl mit „http“ als auch mit „https“ abrufbar, handelt es sich ebenfalls um Duplicate Content.

 

Durch gewollte Manipulation der Suchergebnisse

Mit dem Befehl  „?egal=beispielinhalt“ am Ende einer URL können beliebig neue Seiten bzw. Links erstellt werden, wodurch die Konkurrenz wesentlich abgeschwächt wird. Es erfolgt eine Manipulation der Suchergebnisse und DC wird kreiert, indem die ursprüngliche Seite dupliziert wird.

Wer absichtlich versucht, denselben Content auf mehreren Seiten zu veröffentlichen, um besser zu ranken oder mehr Traffic zu generieren, riskiert eine Penalty durch Google.

Interner und externer Duplicate Content

Doppelte Inhalte werden in internem und externem Duplicate Content unterteilt.

Was heißt interner Duplicate Content?

Man spricht von internem Double Content, wenn ähnliche oder identische Inhalte innerhalb einer Domain unter mehreren URLs vorzufinden sind. Demnach beschränkt er sich auf die eigene Domain oder den Hostnamen. Interner DC wird gezeugt, indem Content-Management-Systeme Inhalte strukturieren und diese auf URLs verteilen. Meistens sind es Webshops, die durch diese Art von DC betroffen sind. In Online-Shops ist zum Beispiel der direkte Zugang zu Produkt-Detailseiten auch ohne die zugehörige Kategorie- oder Produktseite möglich.

 

Beispiel interner Duplicate Content
Quelle: https://www.sistrix.de/frag-sistrix/onpage-optimierung/duplicate-content/

Beispiele für Interne Duplicate Contents

  • Tag-Übersichtseiten
  • Filter-Übersichtsseiten
  • interne Suchergebnisseiten
  • Kategorie-Seiten
  • einzelne Produktseiten mit Zuordnung zu verschiedenen Kategorien
  • Beiträge mit Zuordnung zu verschiedenen Kategorien
  • Pagination

Was heißt externer Duplicate Content?

Im Gegensatz zur internen DC sind externe Duplicate Contents domainübergreifend, das heißt ähnliche oder identische Inhalte werden auf unterschiedlichen Domains angezeigt. Externer Duplicate Content kann zum Beispiel bei einer Webseite mit mehreren Sprachversionen entstehen, wobei sich die verfügbaren Inhalte (Produkte und Beschreibungen) nur minimal unterscheiden.

Beispiele für externe Duplicate Contents

  • Übernahme von Hersteller-Artikel-Beschreibungen
  • Content-Diebstahl
  • Content-Scraping
  • Content-Einspielung über RSS-Feeds
  • Verbreitung von Pressemitteilungen
  • Nutzung von Inhalten über Affiliate-Seiten

Pagination als Gefahr für internen Duplicate Content

Was ist Pagination?

Content-Management-Systeme wie WordPress liefern Content, der nicht auf einer Seite passt, in sogenannten Komponentenseiten (/page/1/ bis /page/N/) aufgeteilt zurück. Am Ende der Seite erscheint dann eine Navigation mit der man auf die anderen Komponentenseiten gelangen kann. Dies könnte zum Beispiel auf eine Seite zutreffen, die viele Informationen zu Produkten innerhalb einer Kategorie anbietet.

SEO-Probleme durch Pagination

Hier besteht das Problem, dass der Original Content auf einer Vielzahl von Seiten veröffentlicht wird. Jede Komponentenseite wird von Google zunächst zusammenhangslos indexiert. Dies kann dazu führen, dass unzählige Webseiten zum Beispiel die Seite „/page/2“ im Google-Index haben. Somit besteht keine Garantie für die Anzeige der treffendsten/besten Seiten in den Suchergebnissen. Außerdem wertet jede  Komponentenseite die Rankingfaktoren für sich selbst aus. Auch das geschieht ohne Zusammenhang und stellt ein klassisches SEO-Problem dar.

Lösungsansätze für SEO-Probleme mit Pagination

Google bietet zwei Möglichkeiten an, diese durch Pagination entstandenen SEO-Probleme zu beseitigen: Zum einen die „View-All“ Seite, zum anderen die Verwendung von rel=“next“ und rel=“prev“.

 

Lösung 1: „Die View-All“ Seite

Die View-All-Seite sorgt für eine  Zusammenfassung aller Informationen der paginierten Seiten auf einer einzelnen Übersichtsseite. Für die Nutzung einer solchen View-All-Seite sind sogenannte Canonical-Tags notwendig. Canonical-Tags verweisen die einzelnen Komponentenseiten auf die entsprechende View-All-Seite. Somit nutzen alle paginierten Seiten also denselben Canonical-Tag.

View all Link Paginierung
Quelle: https://www.sistrix.de/frag-sistrix/onpage-optimierung/wie-sieht-eine-optimale-paginierung-von-seiten-mit-vielen-inhalten-aus/

 

Lösung 2: Die Verwendung des Linkattributs rel=“next“ und rel=“prev“

Die Verwendung der Linkattribute rel=”next” und rel=”prev” (weiter und zurück) ermöglicht das Einfügen einer Seitennummerierung auf einer Webseite. So wird eine Beziehung zwischen zwischen Teilen von URLs hergestellt.

Beispiel Linkaufbau

Quelle:https://de.onpage.org/wiki/rel=%22next%22,_rel=%22prev%22

 

Wir haben eine Seite mit folgenden URLs:

Paginierung Beispiel

Link-Aufbau für die erste Seite:

Paginierung Linkaufbau

Link-Aufbau für die zweite Seite:

Paginierung Linkaufbau Beispiel

Link-Aufbau für die dritte Seite:

Beispiel Paginierung Linkaufbau

Link-Aufbau für die letzte Seite:

Paginierung Beispiel letzt Seite

Bei der Anwendung ist zu beachten, dass die erste Seite nur rel=”next” enthalten muss und die letzte nur rel=”prev”. Außerdem müssen die HTML-Elemente rel=”next” and rel=”prev” nur im <head>-Abschnitt angegeben werden und nicht im Dokument selbst (<body>).

Identifizierung von Duplicate Content

Google erkennt und filtert Duplicate Content technisch gesehen an drei Stellen während des Crawling- und Indexierungsprozesses.

  • Beim Scheduling
  • Bei der Indexierung
  • in den Suchergebnissen
Identifizierung von Duplicate Content
Quelle: http://www.sem-deutschland.de/duplicate-content-definition/#Was_ist_Externer_Duplicate_Content

 

Wer überprüfen möchte, ob eine Webseite von Duplicate Content betroffen ist, kann die Abfrage durch die Google-Suche nutzen. Hierzu kopiert man die URL oder einen Textausschnitt von der Webseite und fügt diese in das Suchfeld bei Google ein.

 

Beispieleingabe: Site:beispieltext.de

Möchte man alle Seiten sehen, die einer Domain angehören und ein bestimmtes Keyword im Titel enthalten, so hilft die Abfrage Site:beispieltext.de intitle:“keyword“.

Erhält man mehrere treffende Ergebnisse, ist Duplicate Content vorhanden. Jedoch hat die Suchmaschine diese noch nicht herausgefiltert. Wenn dies aber der Fall wäre, würden die doppelten Inhalte nicht in den Suchergebnisseiten angezeigt werden.

Eine weitere Möglichkeit für die Überprüfung von Duplicate Content bietet das kostenlose Tool Siteliner. Siteliner untersucht die gesamte Webseite auf doppelte Inhalte und listet zudem die prozentuale Übereinstimmung der Seiteninhalte auf (Match Words, Match Percentage, Match Pages).

Duplicate oder Original Content – Für was entscheidet sich Google?

Suchmaschinen haben den Anspruch, ihren Usern nur einzigartige Ergebnisse zu liefern. Hierzu darf der Inhalt einer Seite immer nur über eine eindeutige URL zugreifbar sein. Trifft eine Suchmaschine auf duplizierte Inhalte, dann wählt sie im Regelfall nur einen der Treffer aus, der in den Suchergebnissen angezeigt werden soll. Jede Suchmaschine richtet sich beim Entscheidungsprozess an gewisse Kriterien.

Entdecken

Sobald ein Inhalt von einer Suchmaschine entdeckt wird, führt diese einen Abgleich mit anderen Seiten durch, um zu identifizieren, ob es sich bei dem gefundenen Inhalt um Duplicate Content handelt.

Entfernen

Alle Seiten, die in Zusammenhang zu  Link-Netzwerken, Made for AdSense (MFA) oder auf der Blacklist IPs stehen, werden zunächst von der Search Engine entfernt.

Analysieren

Als nächstes werden die Seiten auf die Verteilung von Backlinks, die Stärke dieser Links und die Qualität der Inhalte untersucht und bewertet.

Bestimmen

Nachdem Google jede Seite nach dessen Ranking gewertet hat, folgt die Entscheidung. Google wählt für die Anzeige in den Suchergebnissen die Seite aus, die in Google’s Sicht die Originalquelle zu sein scheint.

 

Entscheidungsprozess duplizierte Inhalte
Quelle: http://searchengineland.com/search-illustrated-how-a-search-engine-determines-duplicate-content-13980

Google kein Fan von Duplicate Content?

Duplicate Contents stellen ein ernsthaftes Problem für Google und andere Suchmaschinen dar. Allein fünf Wörter reichen Google aus, um einen duplizierten Inhalt zu identifizieren.  Wenn identische Inhalte unter mehreren URLs zu finden sind, indexiert Google, sofern dies gelingt, nur die bestmögliche URL der duplizierten Inhalte. Dann besteht das Risiko, dass die Originalquellen im Ranking untergehen oder gar nicht in den Suchergebnissen angezeigt werden.

Sind keine eindeutigen URLs verfügbar, fragt sich Google, welche der URLs in den Rankings angezeigt werden soll . Außerdem ist Google nicht klar, welche Rankingsignale welcher URL zuzuordnen sind, sodass im Falle einer Fehl-Zuordnung nicht nur das Ranking, sondern auch die Usersignale betroffen sind.

Wie wird Google durch Duplicate Content beeinflusst?

Quelle: https://www.youtube.com/watch?v=mQZY7EmjbMA

Zeitlicher Aufwand

Da Google jedes Mal Inhalte auf unzähligen neuen Domains und URLs neu entdecken und regelmäßig crawlen muss, nehmen duplizierte Inhalte sehr viel Zeit in Anspruch. Bei übermäßigem internen Duplicate Content kann es passieren, dass Google das Crawling vorzeitig abbricht, sodass wichtige URLs nicht indexiert werden.

 

Hohe Speicherkapazitäten

Die Speicherkapazitäten von Google sind zwar hoch, aber auch endlich. Mit duplizierten Inhalten wird die Datenbank unnötig gefüllt.

 

Google’s Reaktion zu bewusstem Duplizieren von Inhalten

In der Stellungsnahme von Google zum Thema Duplicate Content wird explizit erwähnt, dass Google stets versucht, alle Seiten mit unterschiedlichen Inhalten zu indizieren bzw. anzuzeigen. In den meisten Fällen ensteht DC eher unbewusst, sodass Google nicht gegen jede Webseite Maßnahmen ergreifen wird.

Wenn jedoch duplizierte Inhalte bewusst geschaffen und veröffentlicht werden um das Ranking zu manipulieren oder Nutzer in die Irre zu führen, dann nimmt Google gewisse manuelle Maßnahmen vor. Hierzu gehören Korrekturen am Index und Ranking der betroffenen Webseiten. Folglich können diese Webseiten unter Umständen einen schlechteren Rank in den Suchergebnissen erzielen oder gar verschwinden, da sie aus dem Google-Index entfernt wurden.

 

Wie erfolgt die Urheber-Erkennung bei Duplicate Content?

Google nimmt im Regelfall denjenigen als Urheber wahr, dessen Content als erstes indexiert wurde. Dies kann zu einigen Problemen, vor allem bei neueren Webseiten, führen. Da deren externe Verlinkung meistens nicht ausreicht, werden neuere Webseiten weniger vom Google Bot (Webcrawler) besucht. Erfolgt dann eine Übernahme der Inhalte auf andere Webseiten, die häufigere Besuche vom Google Bot erzielen, könnte es sein, dass Google den Duplicate Content als Originalquelle wertet. Kurz gesagt, würde der Original Content selbst schlechter ranken als die Kopie.

Möglichkeiten zur Vermeidung von  Duplicate Content

Nutzung der Webmaster Tools

Über die Webmaster Tools kann man Google mitteilen, wie die Domain indexiert werden soll.

Beispiel: http://www.beispiel.de oder http://beispiel.de.

Außerdem kann man Google über das Parameter Handling Tool mitteilen, wie mit unterschiedlichen URL-Parametern umgegangen werden soll.

Webmaster Tools Google Index
Quelle: http://www.sem-deutschland.de/duplicate-content-definition/#Was_ist_Externer_Duplicate_Content

 

Weiterleitungen

Weiterleitungen spielen vor allem beim Umzug von Inhalten eine wesentliche Rolle. Die Einstellung erfolgt über die .htaccess Datei im Root-Verzeichnis des Webservers. Hier kann man die Statuscodes 301 und 302 anwenden.

Der Statuscode 301 sollte bei einer dauerhafte Weiterleitung angewendet werden, da der Linkjuice mit vererbt wird. Daher ist er für permanente Veränderungen gut geeignet. Der Vorteil hier ist die automatische Übertragung des Page-Ranks auf das neue Ziel.

Der Statuscode 302 empfiehlt sich für temporäre Weiterleitungen, da der Linkjuice und der Page-Rank in dem Fall nicht weitervererbt wird.

Beispiel: Redirect 301 von einer Seite auf die andere:

Beispiel Redirect 301
Weitere Beispiele unter: http://www.htaccessredirect.de/

 

 

Beispiel: Redirect 302 von einer Seite auf die andere:

Beispiel Redirect 302
Weitere Beispiele unter: http://www.onpagedoc.com/wiki/Weiterleitung_mit_Statuscode_302

 

 

Canonical-Tag

Mithilfe des Canonical Tags kann angegeben werden, welche URL-Version in den Suchergebnissen priorisiert werden soll, sodass nur diese Quellen von Suchmaschinen indexiert werden.  Obwohl sie nicht ganz zuverlässig sind, werden Canonical Tags heutzutage besonders häufig bei Onlineshops eingesetzt.

Das Canonical-Tag wird als Meta Tag im Head-Bereich des HTML-Dokuments eingebunden.

Linkaufbau Canonical Tag
Beispiel: Linkaufbau Canonical Tag

Unerwünschte Anwendungsfehler

  • Canonical Tags sind bei paginierten Seiten nicht sinnvoll, da hier die Inhalte an sich nicht identisch sind.
  • Die Erreichbarkeit der verwiesenen Webseite sollte gegeben sein: Vermeidung von 404-Fehler.
  • Canonical Tags sollten nicht zusammen mit„noindex“, „disallow“ oder „nofollow“ verwendet werden.
  • Das Canonical Tag darf innerhalb des Body-Bereichs eines Dokumentes nicht zu finden sein.
  • Die Einbindung im Head Bereich erfolgt nur einmal.

 

Noindex – Eintrag in den Meta Tags

Durch einen noindex Vermerk in den Meta-Tags  kann ein Suchmaschinen-Robot aufgefordert werden, eine Seite nicht in den Index aufzunehmen. Seiten werden, die nicht indexiert wurden, können auch keinen Duplicate Content erschaffen bzw. überhaupt in den Suchergebnisseiten angezeigt werden. Ebenso wie der Canonical Tag wird der Meta-Tag „noindex“ im Headbereich des Quelltexts definiert.

Einbindung von Noindex
Einbetten von noindex in Quelltext

Anwendungsbereiche von Noindex-Einträgen

noindex_anwendung
Quelle: https://seo-summary.de/doppelte-inhalte-duplicate-content-verhindern/#duplicate-content vermeiden

 

Kontrolle

Um zu überprüfen, ob der Meta-Tag ausgeführt wird, kann jeder Webmaster die Site-Abfrage wie oben beschrieben nutzen. Ist der Tag aktiv, sollte das Suchergebnis negativ ausfallen.

 

Sonderfall „noindex,follow“

Wenn Google Bot eine Unterseite einer Domain nicht indexieren, aber den Links darauf folgen soll, kann der Meta-Tag „noindex“ um den Zusatz „follow“ erweitert werden. Gehören beispielsweise mehrere Seiten zu einer Kategorie, so kann Google Bot den Links auf den jeweiligen Unterseiten folgen, indem nur die erste Kategorieseite indexiert wird.

Einbindung von noindex,follow
Einbetten von noindex, follow im Quelltext

Was versteht man unter robots.txt?

Robots.txt ist eine Textdatei, die bestimmt, welche Bereiche einer Domain gecrawlt werden sollen und welche nicht. Die robots.txt kann genutzt werden, um das Verhalten von Suchmaschinen-Crawlern steuern zu können.

Unterschiedliche Crawler interpretieren auch die Syntax unterschiedlich, weshalb die Anweisungen von robots.txt nicht ganz zuverlässig sind.

 

Problematik durch Abstellen von Crawl und Indexierung

Durch den „disallow“ Befehl im Root-Verzeichnis können ganze Unterverzeichnisse, Bereiche oder Dateiformate einer Website vom Crawling ausgeschlossen werden. Durch diese Anweisung in der robots.txt-Datei wird der Google Bot aufgefordert, die Seite nicht zu untersuchen. Aus diesem Grund erkennt der Crawler auch den Meta-Tag noindex nicht, sodass die Seite dennoch in den Index aufgenommen wird. Wie man sieht, werden blockierte Inhalte zwar nicht gecrawlt oder indexiert, aber es ist dennoch möglich, dass nicht zugelassene URLs auf anderen Seiten gefunden und indexiert werden. Es sind dann öffentlich verfügbare Daten wie der Ankertext in Links, die in den Suchergebnissen angezeigt werden könnten. Daher ist es dringend abzuraten, die disallow-Funktion in Kombination mit noindex zu benutzen.

 

Was ist der Zusammenhang zwischen dem Crawl und dem Index Budget?

Als Crawl Budget bezeichnet man die Anzahl der Seiten, die Google auf einer Webseite maximal crawlt. Hier werden zum Beispiel festgehalten, wie oft Google Bot die Seite besucht und die Links einliest. Das Crawl Budget ist abhängig vom Page-Rank einer Seite, denn je höher der PageRank ist, desto größer ist auch das Crawl Budget.

Das Index Budget legt fest, wie viele URLs durch eine Suchmaschine indexiert werden können.

Negative Beeinflussung

Wird eine Seite mit einem 404-Fehlercode aufgerufen, kann diese aufgrund der Fehlermeldung nicht im Index von einer Suchmaschine aufgenommen werden. Folglich wird das Crawl Budget belastet und das Index Budget nicht vollständig ausgeschöpft.

Aus dem Crawl Budget ergibt sich eine Problematik für umfangreichere Webseiten mit sehr vielen Unterseiten. Im Normalfall werden nämlich nicht alle Unterseiten gecrawlt, sondern nur ein Teil davon, sodass keine Indexierung aller Unterseiten erfolgen kann und der Traffic negativ beeinflusst wird.

Problembehebung durch Crawl-Optimierung

Das Ziel der Crawl Optimierung ist die sinnvolle Ausnutzung des Crawl Budget durch entsprechende Steuerung des Google Bot. Dies soll die Indexierung von Seiten mit hoher Qualität und hoher Bedeutung für den Betreiber bezwecken. Hierfür ist das Selektieren der untergeordneten Seiten von relevanten Seiten wichtig. Seiten mit schlechtem Inhalt sowie fehlerhafte Seiten, die einen 404-Fehlercode zurückgeben, können hierfür als Beispiele gelistet werden. Diese Seiten werden vom Crawling dann ausgeschlossen, sodass das Crawl Budget für höherwertige Unterseiten verfügbar bleibt.

 

Wie wirkt sich Filter-Navigation in Webshops aus?

Filter-Navigationen sind uns durch Online-Shops bereits bekannt. Wir nutzen die Filter-Funktion, um uns einen Überblick über eine große Auswahl an Datenmengen anhand verschiedener Kriterien zu verschaffen. Jedoch  enstehen mit der Filternutzung auch gleich zahlreiche (Near) Duplicate Content Probleme, wodurch auch der Crawling Prozess aller zusammenhängenden Seiten deutlich belastet wird.

 

Wie kann der Crawling Prozess verschont werden?

Es gibt einige Methoden, die Google Bot dazu verhelfen, irrelevante Links beim Crawlen zu ignorieren. Unterseiten können in der robots.txt gesperrt, mit den Attributen nofollow oder noindex versehen oder mit einem Canonical Tag ausgezeichnet werden. Da der Bot weiterhin noindex Seiten sowie Canonical-Links crawlt, reduziert sich der Aufwand jedoch nicht. „nofollow“ ist unnützlich, da die Anweisung die Weitergabe der Linkstärke innerhalb der Webseite blockiert. Dem Problem kann man aber mit dem Einsatz von Post-Redirect-Get Pattern, kurz PRG Pattern, entgegenkommen.

 

Was passiert bei dem Post-Redirect-Get Pattern?

Beim PRG Pattern löst der User mit einem Klick auf den Filter eine POST-Anfrage aus. Dieser POST-Request wird dann an den Server geschickt. Da Google im Regelfall POST-Formulare nicht verfolgen kann, wird die Verschwendung von Crawl-Ressourcen erheblich gemindert. Nun wird in der Datenbank diese Anfrage verarbeitet.

Der Server liefert uns anstelle einer Ergebnisseite einen Redirect und leitet auf die Ergebnisseite zurück. Hierdurch wird das POST zu einem GET (Request-Methode zur Anforderung an Daten vom Server). Folglich besitzt die Ergebnisseite nun auch eine eigene URL, die in E-Mail-Newslettern etc. genutzt werden kann.

 

Auswertung des PRG-Patterns

Das PRG-Pattern bietet also, trotz weiterer Entstehung individueller URLs, einen sinnvollen und schonenden Umgang mit dem Crawl Budget. Daher kann das PRG Pattern bei Filter-Navigationen sehr von Vorteil sein. Ein kritischer Faktor ist natürlich immer die technische Umsetzbarkeit in Content-Management-Systemen. Als kleine zusätzliche Sicherheitsmaßnahme, wäre es nicht verkehrt, das Ganze noch mit noindex oder dem Canonical Tag zu versehen.

 

Exkurs: Keyword-Analyse

Webmaster, Blogger, einfach alle, die heutzutage mit ihrem Post oder ihrem Inhalt die breite Masse erreichen wollen, stehen vor ein und demselben Problem. Wie befülle ich meine Webseite? Welche Keywords sind momentan gefragt? Wie kann ich einen Inhalt umschreiben, ohne dieselben Wörter benutzen zu müssen wie andere?

Für diese Problemstellung gibt es im Web viele Tools und Online-Checkings , die Keyword-Analysen durchführen und aktuelle Trends festhalten.

So gibt es beispielsweise das Online Wortschatz-Portalwortschatz.uni-leipzig.de„. Diese Seite bietet auf der Homepage einen Block mit „Wörter(n) des Tages“ an. Hier werden alle zur Zeit im Trend befindenden Begriffe gesammelt und aufgelistet. Möchte man Blog-Beiträge zu aktuell häufig gesuchten Themen schreiben, dann hätte man hierdurch schon mal eine große Hilfestellung.

Oft stehen wir vor dem Problem, keine geschickten Ausdrücke formulieren zu können. In dem Fall kann man in der Suche auf derselben Seite ein Wort eingeben und unzählige Umschreibungen zu einem Wort finden. Anschließend müsste man diese Begriffe nur noch in den eigenen Beitrag sinnvoll einbauen.

Beispiel Wortschatz

Zusammenfassung

  • identische oder ähnliche Inhalte, die durch unterschiedliche URLs / Domains abrufbar sind, nennt man Duplicate Content
  • Man unterscheidet zwischen internem und externem DC
  • Duplicate Contents sind bei Google unbeliebt, da Google nicht weiß, welcher URL die Rankingsignale zugewiesen werden sollen
  • DC erschwert Google die Suche nach der relevanten Seite für die Anzeige in den Suchergebnissen
  • Es besteht das Risiko, dass Kopien besser im Ranking abschneiden als die Originalquellen
  • Google filtert eine als bestemöglich angesehene Seite unter  duplizierten Inhalten aus  und zeigt nur diese in den Suchergebnissen an
  • DC kann mittels des Site-Abrufs identifiziert werden
  • Die Vermeidung von DC gehört zu den SEO-Hauptaufgaben
  • Es ist sinnvoll Google bei der Priorisierung von URLs zu unterstützen
  • Robots.txt nicht mehr von Google empfohlen, da Einhaltung der Anweisungen nicht garantiert ist
  • Filter-Nutzung belastet den Crawler-Prozess erheblich
  • PRG Patterns verschwenden keine Crawler-Ressourcen
  • Keyword-Analysen bieten Trends und Umschreibungen für bessere Inhalte

 

2 thoughts on “6. Sitzung Suchmaschinenmarketing: Alles rund um Duplicate Content

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.