« Kleiner Tipp für Keywordjunkies | Home | 100000 Pis am Tag, eine Statistik »
getunte Wordpress robots.txt
Von Uwe | 4.März 2008
Einer der größten natürlichen Feinde von Seos ist der gefürchtete Double Content. Double Content entsteht immer dann wenn ein und der selbe Inhalt durch verschiedenen Pfade erreichbar ist. Um dies wirkungsvoll zu vermeiden habe ich eine feine und vor allem schnelle Lösung bei Shoemoney.com gefunden. Er benutzt diese robots.txt.
User-agent: GooglebotDisallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /feed/ Disallow: /archives/ Disallow: /sitemap.xml Disallow: /index.php Disallow: /*? Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */feed/ Disallow: */trackback/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ User-agent: Googlebot-Image Disallow: /wp-includes/ User-agent: Mediapartners-Google* Disallow: User-agent: ia_archiver Disallow: / User-agent: duggmirror Disallow: / User-Agent: Googlebot Disallow: /link.php Disallow: /gallery2 Disallow: /gallery2/ Disallow: /category/ Disallow: /page/ Disallow: /pages/ Disallow: /feed/ Disallow: /feed
Das Teil einfach in das root Verzeichnis eures Wordpress Blogs mit dem Namen robots.txt legen.
Ein Higlight daraus ist unter anderem:
Disallow: */feed/
Damit werden Feeds nicht mehr indexiert – manchen hat das ja schon Probleme bereitet
.
In den Comments zu dem Post wird noch ein interessanter Aspekt von TheMadHat aufgebracht. Er sperrt seine Wordpress Bereiche lieber mit “meta noindex und follow” damit die betroffenen Seiten zwar nicht indexiert werden – aber der Link Juice weitergegeben wird.
Shoemoney antwortete darauf das er erst vor 3 Tagen mit Mister Cutts gesprochen hat und die kleinen Google Bots wohl irritiert würden über Disallow und noindex und die obige robots.txt wohl die bessere Lösung sei.
Lange Rede kurzer Sinn, ich habe mir das Teil gleich mal auf den Server gelegt.
Weitere Infos um Double Content in Wordpress zu vermeiden gibt es bei texto.de, miradlo.net, wordpress-magazin, fob-marketing sowie eine komplette Seo Anleitung unter dem meinungs-blog.
UPDATE: Die Blog Struktur sollte bei obiger Robots.txt nicht Standard stehen. Wenn Ihr solche Urls habt “?num=3&id=4″ dann diese Robots.txt nicht einsetzen da Ihr dann überhaupt nichts mehr indiziert bekommt (ausser der Startseite vielleicht).
UPDATE 2: Von malte kam der Hinweis das durch die Zeilen
User-agent: ia_archiver
Disallow: /
der IA Archiver ausgesperrt wird und damit eine Listung bei Archive.org entfällt. Müsst Ihr selbst entscheiden ob Ihr das drinnenlasst oder nicht. Bei einer Spam Seite oder rechtlich bedenklichen Inhalten (In Deutschland also fast alles) sollten diese beiden Zeilen schon bestehen bleiben.
Popularity: 36%
Topics: seo | 39 Kommentare »


4.März 2008 at 23:18
Für mich ist Double Content eher ein seitenübergreifendes Problem. Meine internen PR-Seiten würde ich mir nicht freiwillig plätten wollen, nur damit auf der Startseite vielleicht `ne 6 erscheint – es sei denn ich bin gezwungen dazu, weil zum Beispiel eine falsche Seite massiv in den Serps nervt. Dem kann man aber durch gezielte Optimierung vorbeugen. Bin daher eher ein Freund von “gleiches (PageRank-) Recht für alle Seiten” bzw. “weniger ist mehr”.
Gefährlich ist lediglich, wenn einem komische externe Sachen untergejubelt werden. Geht bei mir wahrscheinlich jetzt nicht mehr, dank Server-Wechsel und “scharfem Admin”
– aber sicherheitshalber lasse ich das hier noch in meiner robots.txt stehen:
User-agent: Googlebot
Disallow: /*.cgi$
Könnte man natürlich auch für alle Bots scharf schalten.
Auf jeden Fall entdeckte ich in Sachen CGI einmal dubiose Sicherheitslücken, wo der robots.txt-Eintrag zügig für Abhilfe sorgen konnte, zumindest in den Serps.
Macht natürlich nur dann Sinn, wenn man auf CGI-Seiten wirklich verzichten kann, was bei WordPress-Installationen jedoch fast immer der Fall sein dürfte. Ansonsten: “aufpassen!”
4.März 2008 at 23:42
Danke für den Tip!
Hab es zwar schon bei Shoemoney gesehen aber war zu faul zum lesen
Ich werde mal bei designpicks.de darüber schreiben.
Netten Gruß,
Aleks
5.März 2008 at 09:35
Hi Aleks,
.
dann hat mein Post ja was bewirkt weil das Teil ist wirklich was für faule Menschen
5.März 2008 at 13:34
Steht seit einem Jahr auf texto.de
und Feeds indiziert Google gar nicht mehr.
ich freue mich, wenn so alte Erkenntnisse endlich auch die englischsprachigen Blogs erreicht haben
lg
5.März 2008 at 15:42
Was bewirkt den “Disallow: /*?” ?
Wird dadurch z.B. das hier geblockt: blablabla.de/index.php?num=4&f_id=4
5.März 2008 at 16:52
Laut Shoemoney:
“this blocks all urls with a ? in them. A good way to avoid duplicate content issues with wordpress blogs. Obviously you only want to use this if you have changed your url structure to not be 100% ?=.”
OK, sollte also nur eingesetzt werden wenn die URL Struktur des Blogs nicht zu 100% aus ?= besteht, d.h. Die Permalinkstruktur nicht auf Standard steht.
Werde meinen Post darauf hin noch ergänzen.
5.März 2008 at 17:23
Disallow: /?s*das ist wichtig, wenn wer zb: eine sogenannte Ajax unterstützte Suchfunktion auf seinem Blog anbietet, weil Google die Eigenschaft hat deren Suchergebnisse in die Serps zu übernehmen (Götter wissen wieso …)
lg
5.März 2008 at 19:57
Wozu sperrst du Mediapartners-Google?
Und zwei Einträge für den Google-Bot verwirren ihn bestimmt auch
Und ich würde noch für alle Bots gewissen Regeln aufstellen (eben ohne die Spezialbefehle von Google).
Beim IA-Archiver solltest du noch dran schreiben, dass man dann nicht mehr bei Archive.org gelistet wird.
6.März 2008 at 00:27
Hi Malte
,
den Media Partners Google sperre ich weil das oft nur Spam Bots von anderen Seiten sind. http://www.abakus-internet-marketing.de/foren/viewtopic/t-12395.html
Vieleicht habe ich ja Glück und die halten sich an die Robots.txt.
Ok, das mir dem IA Archiver nehme ich als Update mit rein.
6.März 2008 at 12:57
kurze frage… warum wird die sitemaps.xml ausgeschlossen? leuchtet mir gerade nicht so ein?!
viele grüße in die rhön!
marc
6.März 2008 at 13:15
Hi Marc,
da bin ich leider überfragt. Ich sage jetzt einfach mal: “Shoemoney hat mit Matt Cutts gesprochen der wird schon wissen warum”. Viele Grüße zurück nach Würzburg.
6.März 2008 at 23:05
[...] hat vor einigen Tagen darüber berichtet wie man mit ein paar Einträgen in der robots.txt solche doppler vermeidet. In diesem Fall ist die Liste mit Befehlen auf Wordpress angepasst, kann [...]
7.März 2008 at 08:49
Danke für den hilfreichen Artikel. Die “getunte” robots.txt-Datei lässt sich übrigens auch für andere Blog-Systeme hervorragend einsetzen indem man die Pfade des eigenen Servers in der Textdatei dementsprechend umändert.
8.März 2008 at 00:35
[...] Getunte Wordpress robots.txt Einer der Feinde von Seos ist der Double Content der entsteht wenn der selbe Inhalt durch verschiedenen Pfade erreichbar ist. (tags: blog seo) [...]
8.März 2008 at 13:28
ich check das nicht so richtig, wieso soll denn die sitemap und der feed rausgenommen werden?
10.März 2008 at 17:10
Trackback URLs im robots drin zu haben ist unnötig. Das ist nur eine Weiterleitung zur eigentlichen URL.
12.März 2008 at 17:44
Mit war auch unklar weshalb die sitemap.xml gesperrt wird. Hab es dann einfach mal bei einem Blog von mir versucht und siehe da: Google Webmastertools meldet nen Fehler dass die Sitemap gesperrt wurde
Überrascht war ich ja nicht wirklich…
Deshalb mein Tip: lieber das “Disallow: /sitemap.xml” rausnehmen.
12.März 2008 at 23:54
Ich denke, es macht dazu dann aber Sinn einen Verweis auf die Startseite auf die Domain per 301 zu leiten. Verlinkt also Home auf index.php oder dergleichen wäre diese Seite dann komplett gesperrt. Besser diese dann auf die Domain umzuschreiben – Domain ist ja wieder frei von robots.txt-Blockade.
Zweitens macht doch etwa für Sitemaps noindex, follow wirklich Sinn. Gerade zu Beginn wäre aus meiner Sicht das auch für Kategorien, Tags (sofern eigene Inhalte dann ab Seite 2) vorzugswürdig. Aber egal, daran wird’s im Ergebnis eh nicht scheitern.
25.März 2008 at 22:30
[...] vermeiden für faule Menschen, müsste die Überschrift eingentlich heißen. Grade erst zufällig gelesen, dass man mit einer modifizierten robots.txt Datei relativ einfach doppelten Content vermeiden [...]
3.April 2008 at 06:33
ich finde den ansatz stellenweise sogar schlecht – ein noindex, follow hat hier und da echt mehr power….
4.April 2008 at 12:55
Internet Archive (ia_archiver)…
Viele Webmaster kennen diesen Useragent: ia_achiver.
Ich habe heute mal einen Blick auf deren Seite gewagt:
web.archive.org
Ich konnte [...]…
7.April 2008 at 09:38
[...] Optimierte Robots.txt für WordPress – Hat von euch jemand noch ein paar Tipps? [...]
7.April 2008 at 12:48
Also hier wird mir viel zu viel gesperrt. Eine clevere interne Verlinkung ist elementar für den Erfolg einer Webseite. Doch wenn ich mir ansehe, dass Archive, Kategorien und Pages gesperrt werden, ist dieser Aspekt nicht gegeben. Sobald die Posts von der Startseite weg sind, werden sie nicht mehr verlinkt?
Ich denke man sollte noch einmal genau darüber nachdenken, was man sperrt und was nicht.
21.September 2008 at 14:07
Ich hab ja auch ein wenig gewartet, hab mich erst heute drübergetraut. Man braucht ja immer “Versuchskaninchen”. Bin happy, alles funktioniert, keine Probleme so far.
24.September 2008 at 21:52
Bis zu wem die Faulheit hinführt!
25.September 2008 at 20:54
Wozu sperrst du Mediapartners-Google?
20.Oktober 2008 at 21:24
[...] Beim Uwe gibt es ein Super Tip um sich vor doppelten Content zu schützen, damit man auch bei unserer lieben Tanta Google bleiben darf : ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 User-agent: Googlebot Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /feed/ Disallow: /archives/ Disallow: /sitemap.xml Disallow: /index.php Disallow: feed/ Disallow: */trackback/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ Disallow: /?s* User-agent: Googlebot-Image Disallow: /wp-includes/ User-agent: Mediapartners-Google* Disallow: User-agent: duggmirror Disallow: / User-Agent: Googlebot Disallow: /link.php Disallow: /gallery2 Disallow: /gallery2/ Disallow: /category/ Disallow: /page/ Disallow: /pages/ Disallow: /feed/ Disallow: /feed [...]
26.November 2008 at 12:00
[...] Code reinschreibt. Einen sehr guten und detaillierten Beitrag dazu hat Uwe in seinem Post “getunte Wordpress robots.txt” [...]
26.November 2008 at 15:58
[...] Code reinschreibt. Einen sehr guten und detaillierten Beitrag dazu hat Uwe in seinem Post “getunte Wordpress robots.txt” [...]
12.Juni 2009 at 21:16
[...] genug. Mit zu vielen Tags sollte man sowieso aufpassen, dabei lehne ich mich nur an das Thema WordPress und DC zurück. Jedenfalls habe ich diese Option der Post Tags bisher nicht ausprobieren können und [...]
18.Juni 2009 at 16:22
Hallo,
ich habe hierzu auch noch kurz eine Frage: Wenn ich keinen Blog sondern eine Seite mit Wordpres erstelle. Dann kommt man ja zu zahlreichen Beiträgen lediglich indem man zuerst auf die Kategorie geht und dann weiter zu den Beiträgen.
Wenn ich aber schon direkt die category durch die robots.txt ausschließe, wie kommt dann google zu meinen beiträgen?
Oder übersehe ich hier etwas?
Danke!
18.Juni 2009 at 23:46
Einen DC innerhalb einer Domain gibt es nicht !!!
Weshalb wird der Trackback Link gesperrt ?
Der Feedeintrag ist überflüssig, dies hat Google mittlerweile selber im Griff bekommen.
Man sollte im übrigen Inhalte mit der Meta noindex,follow sperren.
10.August 2009 at 00:55
Habe die Datei auch auf 2 von meinen Seiten im Einsatz! Danke!!!
29.August 2009 at 23:58
Ich nutze diese Datei auch seit kurzem auf meinen Projekten. Ich verstehe aber nicht warum du Mediapartners-Google sperrst?
10.September 2009 at 09:06
Hmm.. Also wenn ich das einbaue wird der ganze Kram nicht mehr indexiert. Dann wirkt sich das aber auch nicht mehr auf das Ranking aus, oder? Also irgendwie stehe ich da gerade auf dem Schlauch
MfG
27.Oktober 2009 at 00:02
[...] ein-uwe.de » getunte Wordpress robots.txt Einer der größten natürlichen Feinde von Seos ist der gefürchtete Double Content. Double Content entsteht immer dann wenn ein und der selbe Inhalt durch verschiedenen Pfade erreichbar ist. Um dies wirkungsvoll zu vermeiden habe ich eine feine und vor allem schnelle Lösung bei Shoemoney.com gefunden. Er benutzt diese robots.txt. Tags: robots.txt [...]
1.November 2009 at 12:52
Sehr geil! Vielen Dank für deinen Hinweis. Die Datei ist echt Gold wert, dankeschön.
14.Januar 2010 at 10:28
Hey, dürfte ich bitte fragen, wofür dieser Parameter steht?
“User-agent: ia_archiver
Disallow: /”
Danke im Voraus.
28.März 2010 at 15:28
Hi Uwe,
gilt das immer noch, dass robots.txt besser ist als noindex und follow?
Gruß Josef