Erzeugen von Duplicate Content
25. Juni 2007 von SvenDas Thema Duplicate Content spielt bei der Suchmaschinenoptimierung eine immer größere Rolle und nicht von ungefähr war auf der SMX Advanced Conference in Seattle, eine der größten Sessions, jene über Duplicate Content. Hierzu erschien jetzt nun auch endlich im Google Webmaster-Zentrale Blog ein ins deutsche übersetzter Artikel von Vanessa Fox über die Duplicate Content-Session auf der SMX Advanced. Die Kernaussage dieses Artikel ist, das Webseiten auf Grund doppelter Inhalte weder bestraft werden noch in den Supplemental Index gelangen. Dennoch wird auch eingeräumt das ein niedriger PageRank dazu führen kann, das Seiten in den zusätzlichen Index (Supplemental) abrutschen. Also Nochmals: Doppelte Inhalte werden nicht bestraft, dennoch sollte jeder Webmaster tunlichst darum bemüht sein Duplicate Content zu vermeiden.
Welches sind also die am meisten verbreideten Wege um ohne Absicht doppelte Inhalte zu produzieren?
- Das generieren von vielen Unterseiten mit wenig Unique Content, ein gutes Beispiel hierfür sind Unterseiten von Webkatalogen welche mit wenigen oder gar ohne Einträge angelegt wurden.
- Benutzen eines CMS welches Multiple URL’s für die Verweise der gleichen Inhalte erlaubt. Es ist erstaunlich bei wie vielen CMS Seiten dies möglich ist.
- Das Erzeugen von Unterseiten welche sich nur in kleinen Text fragmenten unterscheiden. Zum Beispiel: Identische Texte zu Hotels deutscher Städte, bei denen im Text nur der Stadtname ausgetauscht wird.
- Des Weiteren sollte man nicht vergessen einen 301 Redirect von http://deineDomain.de auf http://www.deineDomain.de zu installieren. Dies vermeidet doppelte Inhalte und hat zusätzlich noch den Vorteil das alle eingehenden PageRank Links auf eine Seite zentralisiert werden.
- Ein weiterer Fehler der oft begangen wird ist das Verweisen des HOME-Links auf www.deineDomain.de/index.html / index.htm oder index.php - welchen tieferen Sinn soll hinter einem solchen Startseiten Link stecken, wenn das ganze Internet auf www.deineDomain.de verweist? Außer das doppelter Content erzeugt wird und die Vererbung des internen PageRank verpufft.
- Das implementieren von Druck oder Archiv-Seiten welche nicht über die robots.txt für den Spider gesperrt sind.
- Der Gebrauch von Session ID Parameter auf der Webseite. Dies bedeutet das jedesmal wenn der Spider vorbei kommt, dieser denkt das neue Unterseiten auf der Domain zu crawlen sind.
- Nutzen von URL-Parametern zum tracken. Eine der populärsten Arten URL-Parameter zu nutzen, ist das übergeben dieser bei Partnerprogrammen. Jedoch sieht die Suchmaschine eine URL wie www.deineDomain.de?partner1234 als doppelten Inhalt von www.deineDomain.de an. Hier wäre es wohl sinnvoller mit Cookies zu arbeiten.
- Webseiten online zu nehmen welche URL-Parameter ignorieren. Sollte hier jemand von aussen die Seite
ohne Absichtfalsch verlinken, kann schnell Duplicate Content entstehen. - Auch Blogs sind dafür bekannt gerne doppelte Inhalte zu erzeugen, hier sollte man auf jeden Fall den RSS-Feed und den Trackback mit no-follow belegen oder die Robots über die robots.txt aussperren.
Man kann also erkennen das es viele Möglichkeiten gibt ohne Absicht doppelte Inhalte für die Suchmaschinen zu erzeugen und mit Sicherheit ist die oben von mir aufgestellte Liste leicht noch um einige Punkte zu ergänzen. Jedem sollte klar sein das die beste Praktik bei dupliziertem Inhalt ist, diesen von Anfang an zu vermeiden.
Wie erkennen Suchmaschinen doppelte Inhalte?
Wenn Suchmaschinen nach Duplicate Content suchen filtern diese zuerst den kompletten Inhalt der Webseite welcher Template-Basiert ist. Also Header, Navigation und Footer welche auf allen Seiten der Domain gleich ist. Dieser wird dann als “gegeben” war genommen und wirkt sich nicht negativ aus. Danach wird sich der Inhalt der Webseite, welcher einzigartig auf der Seite ist, detailliert angesehen und mit den Inhalten aller von der Suchmaschine gespiederten Webseiten auf seine Einzigartigkeit hin überprüft. Eine bekannte Art wie Suchmaschinen auf doppelte Inhalte überprüfen ist das Verfahren des Sliding Window, bei diesem Verfahren werden eine festgelegte Anzahl von Zeichen der Webseite auf Ihre einzigartigkeit überprüft. Jedem Webmaster ist zu empfehlen seine Inhalte selbst ab und an über ein Tool wie Copyscape zu prüfen. Hier kann man auch schnell feststellen ob mühsam erstellte Texte von anderen Webseitenbetreibern verwendet werden
Als Fazit ist festzuhalten, das jeder Webmaster darum bemüht sein sollte auf seiner Webseite Unique Content zu publizieren, denn es liegt im Sinn der Suchmaschinenbetreiber Ihren Nutzern qualitativ hochwertige und einzigartige Seiten in den Suchergebnissen zu präsentieren. Auch sollte man bestrebt sein keine Webseiten zu verlinken die doppelte Inhalte online gestellt haben, denn auch die Verlinkung dieser Seiten kann schnell als Schuss nach hinten losgehen.
Zum Abschluss möchte ich euch eine weitere Strategie zur Vermeidung von Duplicate Content nicht verheimlichen, welche Gerald in seinem Blog aufgestellt hat. Etwas radikal in der Umsetzung aber für SEO’s absolut lesenswert


Am 26. Juni 2007 um 11:27 Uhr
Hallo - Punkt 4 solltest du nochmal überarbeiten
ein 301 von www-subdomain auf 2nd-level ist korrekt, umgekehrt ist absolut falsch.
Am 26. Juni 2007 um 12:04 Uhr
@suit: Willst du damit tatsächlich sagen, ein Redirect von domain.de auf www.domain.de sei falsch? - Wenn ja ist das der größte Blödsinn den ich je gehört habe, da es Google & Co schlichtweg egal ist, ob jetzt die Domain mit oder ohne www die Hauptadresse ist.
Am 26. Juni 2007 um 12:07 Uhr
Danke Markus, du bist mir zuvor gekommen
Am 29. Juni 2007 um 21:37 Uhr
ok, “absolut falsch” ist etwas drastisch ausgedrückt, aber es ist deprecated
es besteht absolut kein grund dafuer, www.domain.tld zu verwenden wenn domain.tld auf das selbe ziel aufloest
niemand wuerde auf die idee kommen eine mail an adresse@mail.wasauchimmer.com zu senden, ein mailserver kapiert schon, welche protokoll zu verwenden ist
ebenso ist ftp.domain.tld ziemlich nutzlos, wenn der ftp-server die selbe ip hat wie der http server - man kann also problemlos auch mit domain.tld oder www.domain.tld auf den ftp
subdomains haben den sinn, unterkategorien zu schaffen, zb um sprachen oder bereiche zu trennen
aber warum soll man einen gültigen fqdn - zb google.at auf eine redundante subdomain www.google.at umleiten?
zum thema google und mit oder ohne www - google ist es in der tat scheiss egal ob mit oder ohne www - google erkennt uebrigens zuverlässig, dass www.domain.tld und domain.tld ident sind, wenn diese auf die selbe ip-adresse und den selben inhalt auflösen - wenn beide ziele gültig sind, wird das nächstbeste angezeigt und das andere ignoriert - in den webmastertools lässt sich die präferenz übrigens einstellen
aber fakt ist, dass die redundante www-subdomain deprecated ist - genauso wie reine formatierungsmarkups (zb oder )
zusammengefasst: es ist groesstenteils unwissenheit, was hier gemacht wird, da die meisten leute das domain-name-system nicht verstanden haben
wenn ich jemandem einen brief schicke, schreib ich auch nicht top 1, tuer 1 drauf, wenns ein einfamilienhaus mit nur einer tuer ist - das ist unnoetig
genauso unnoetig ist es, vorne WWW an den fqdn zu schreiben, basta
Am 31. Oktober 2007 um 13:23 Uhr
Mag sein, dass ein WWW unnötig ist. Aber ich erlebe es bei Kunden immer wieder, das führende www scheint für die zwingend dazu zu gehören. Rufe ich einen Domainnamen ohne ww auf, frage die regelmäßig, ob das denn funktioniere. Insofern kann ein Redirect auf die Version ohne www vielleicht bei dem ein oder anderen User zu Verwirrung führen.