ein-uwe.de
  • Thats me…

    Damit ich beim nächsten Seo Treff vielleicht erkannt werde :-)

    Ein Uwe etwas müde

  • Popular Posts

  • Letzte Artikel

  • Letzte Kommentare

  • « | Home | »

    getunte Wordpress robots.txt

    Von Uwe | 4.März 2008

    Einer der größten natürlichen Feinde von Seos ist der gefürchtete Double Content. Double Content entsteht immer dann wenn ein und der selbe Inhalt durch verschiedenen Pfade erreichbar ist. Um dies wirkungsvoll zu vermeiden habe ich eine feine und vor allem schnelle Lösung bei Shoemoney.com gefunden. Er benutzt diese robots.txt.

    User-agent: Googlebot
    Disallow: /wp-content/
    Disallow: /trackback/
    Disallow: /wp-admin/
    Disallow: /feed/
    Disallow: /archives/
    Disallow: /sitemap.xml
    Disallow: /index.php
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: */feed/
    Disallow: */trackback/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /category/
    
    User-agent: Googlebot-Image
    Disallow: /wp-includes/
    
    User-agent: Mediapartners-Google*
    Disallow:
    
    User-agent: ia_archiver
    Disallow: /
    
    User-agent: duggmirror
    Disallow: /
    
    User-Agent: Googlebot
    Disallow: /link.php
    Disallow: /gallery2
    Disallow: /gallery2/
    Disallow: /category/
    Disallow: /page/
    Disallow: /pages/
    Disallow: /feed/
    Disallow: /feed

    Das Teil einfach in das root Verzeichnis eures Wordpress Blogs mit dem Namen robots.txt legen.

    Ein Higlight daraus ist unter anderem:
    Disallow: */feed/

    Damit werden Feeds nicht mehr indexiert – manchen hat das ja schon Probleme bereitet :-) .

    In den Comments zu dem Post wird noch ein interessanter Aspekt von TheMadHat aufgebracht. Er sperrt seine Wordpress Bereiche lieber mit “meta noindex und follow” damit die betroffenen Seiten zwar nicht indexiert werden – aber der Link Juice weitergegeben wird.

    
    

    Shoemoney antwortete darauf das er erst vor 3 Tagen mit Mister Cutts gesprochen hat und die kleinen Google Bots wohl irritiert würden über Disallow und noindex und die obige robots.txt wohl die bessere Lösung sei.

    Lange Rede kurzer Sinn, ich habe mir das Teil gleich mal auf den Server gelegt.
    Weitere Infos um Double Content in Wordpress zu vermeiden gibt es bei texto.de, miradlo.net, wordpress-magazin, fob-marketing sowie eine komplette Seo Anleitung unter dem meinungs-blog.

    UPDATE: Die Blog Struktur sollte bei obiger Robots.txt nicht Standard stehen. Wenn Ihr solche Urls habt “?num=3&id=4″ dann diese Robots.txt nicht einsetzen da Ihr dann überhaupt nichts mehr indiziert bekommt (ausser der Startseite vielleicht).

    UPDATE 2: Von malte kam der Hinweis das durch die Zeilen

    User-agent: ia_archiver

    Disallow: /
    
    
    
    

    der IA Archiver ausgesperrt wird und damit eine Listung bei Archive.org entfällt. Müsst Ihr selbst entscheiden ob Ihr das drinnenlasst oder nicht. Bei einer Spam Seite oder rechtlich bedenklichen Inhalten (In Deutschland also fast alles) sollten diese beiden Zeilen schon bestehen bleiben.

    Popularity: 49%

    Topics: seo | 45 Kommentare »

    45 Kommentare to “getunte Wordpress robots.txt”

    1. Oliver Bockelmann meint:
      4.März 2008 at 23:18

      Für mich ist Double Content eher ein seitenübergreifendes Problem. Meine internen PR-Seiten würde ich mir nicht freiwillig plätten wollen, nur damit auf der Startseite vielleicht `ne 6 erscheint – es sei denn ich bin gezwungen dazu, weil zum Beispiel eine falsche Seite massiv in den Serps nervt. Dem kann man aber durch gezielte Optimierung vorbeugen. Bin daher eher ein Freund von “gleiches (PageRank-) Recht für alle Seiten” bzw. “weniger ist mehr”. ;-)

      Gefährlich ist lediglich, wenn einem komische externe Sachen untergejubelt werden. Geht bei mir wahrscheinlich jetzt nicht mehr, dank Server-Wechsel und “scharfem Admin” ;-) – aber sicherheitshalber lasse ich das hier noch in meiner robots.txt stehen:

      User-agent: Googlebot
      Disallow: /*.cgi$

      Könnte man natürlich auch für alle Bots scharf schalten.
      Auf jeden Fall entdeckte ich in Sachen CGI einmal dubiose Sicherheitslücken, wo der robots.txt-Eintrag zügig für Abhilfe sorgen konnte, zumindest in den Serps.

      Macht natürlich nur dann Sinn, wenn man auf CGI-Seiten wirklich verzichten kann, was bei WordPress-Installationen jedoch fast immer der Fall sein dürfte. Ansonsten: “aufpassen!” ;-)

    2. Aleks meint:
      4.März 2008 at 23:42

      Danke für den Tip!

      Hab es zwar schon bei Shoemoney gesehen aber war zu faul zum lesen :D

      Ich werde mal bei designpicks.de darüber schreiben.

      Netten Gruß,
      Aleks

    3. Uwe meint:
      5.März 2008 at 09:35

      Hi Aleks,
      dann hat mein Post ja was bewirkt weil das Teil ist wirklich was für faule Menschen :-) .

    4. Monika meint:
      5.März 2008 at 13:34

      Steht seit einem Jahr auf texto.de

      und Feeds indiziert Google gar nicht mehr.

      ich freue mich, wenn so alte Erkenntnisse endlich auch die englischsprachigen Blogs erreicht haben

      lg

    5. JHR meint:
      5.März 2008 at 15:42

      Was bewirkt den “Disallow: /*?” ?
      Wird dadurch z.B. das hier geblockt: blablabla.de/index.php?num=4&f_id=4

    6. Uwe meint:
      5.März 2008 at 16:52

      Laut Shoemoney:
      “this blocks all urls with a ? in them. A good way to avoid duplicate content issues with wordpress blogs. Obviously you only want to use this if you have changed your url structure to not be 100% ?=.”
      OK, sollte also nur eingesetzt werden wenn die URL Struktur des Blogs nicht zu 100% aus ?= besteht, d.h. Die Permalinkstruktur nicht auf Standard steht.
      Werde meinen Post darauf hin noch ergänzen.

    7. Monika meint:
      5.März 2008 at 17:23

      Disallow: /?s*

      das ist wichtig, wenn wer zb: eine sogenannte Ajax unterstützte Suchfunktion auf seinem Blog anbietet, weil Google die Eigenschaft hat deren Suchergebnisse in die Serps zu übernehmen (Götter wissen wieso …)

      lg

    8. Malte meint:
      5.März 2008 at 19:57

      Wozu sperrst du Mediapartners-Google?
      Und zwei Einträge für den Google-Bot verwirren ihn bestimmt auch ;)

      Und ich würde noch für alle Bots gewissen Regeln aufstellen (eben ohne die Spezialbefehle von Google).

      Beim IA-Archiver solltest du noch dran schreiben, dass man dann nicht mehr bei Archive.org gelistet wird.

    9. Uwe meint:
      6.März 2008 at 00:27

      Hi Malte :-) ,
      den Media Partners Google sperre ich weil das oft nur Spam Bots von anderen Seiten sind. http://www.abakus-internet-marketing.de/foren/viewtopic/t-12395.html
      Vieleicht habe ich ja Glück und die halten sich an die Robots.txt.
      Ok, das mir dem IA Archiver nehme ich als Update mit rein.

    10. marc meint:
      6.März 2008 at 12:57

      kurze frage… warum wird die sitemaps.xml ausgeschlossen? leuchtet mir gerade nicht so ein?!

      viele grüße in die rhön!
      marc

    11. Uwe meint:
      6.März 2008 at 13:15

      Hi Marc,
      da bin ich leider überfragt. Ich sage jetzt einfach mal: “Shoemoney hat mit Matt Cutts gesprochen der wird schon wissen warum”. Viele Grüße zurück nach Würzburg.

    12. WP: Doppelten Inhalt vermeiden - im Designpicks Blog meint:
      6.März 2008 at 23:05

      [...] hat vor einigen Tagen darüber berichtet wie man mit ein paar Einträgen in der robots.txt solche doppler vermeidet. In diesem Fall ist die Liste mit Befehlen auf Wordpress angepasst, kann [...]

    13. Herbert meint:
      7.März 2008 at 08:49

      Danke für den hilfreichen Artikel. Die “getunte” robots.txt-Datei lässt sich übrigens auch für andere Blog-Systeme hervorragend einsetzen indem man die Pfade des eigenen Servers in der Textdatei dementsprechend umändert.

    14. links for 2008-03-07 « lieblinks meint:
      8.März 2008 at 00:35

      [...] Getunte Wordpress robots.txt Einer der Feinde von Seos ist der Double Content der entsteht wenn der selbe Inhalt durch verschiedenen Pfade erreichbar ist. (tags: blog seo) [...]

    15. frank meint:
      8.März 2008 at 13:28

      ich check das nicht so richtig, wieso soll denn die sitemap und der feed rausgenommen werden?

    16. blogfeuer meint:
      10.März 2008 at 17:10

      Trackback URLs im robots drin zu haben ist unnötig. Das ist nur eine Weiterleitung zur eigentlichen URL.

    17. speyburn meint:
      12.März 2008 at 17:44

      Mit war auch unklar weshalb die sitemap.xml gesperrt wird. Hab es dann einfach mal bei einem Blog von mir versucht und siehe da: Google Webmastertools meldet nen Fehler dass die Sitemap gesperrt wurde :-)
      Überrascht war ich ja nicht wirklich…

      Deshalb mein Tip: lieber das “Disallow: /sitemap.xml” rausnehmen.

    18. Robert Hartl meint:
      12.März 2008 at 23:54

      Ich denke, es macht dazu dann aber Sinn einen Verweis auf die Startseite auf die Domain per 301 zu leiten. Verlinkt also Home auf index.php oder dergleichen wäre diese Seite dann komplett gesperrt. Besser diese dann auf die Domain umzuschreiben – Domain ist ja wieder frei von robots.txt-Blockade.

      Zweitens macht doch etwa für Sitemaps noindex, follow wirklich Sinn. Gerade zu Beginn wäre aus meiner Sicht das auch für Kategorien, Tags (sofern eigene Inhalte dann ab Seite 2) vorzugswürdig. Aber egal, daran wird’s im Ergebnis eh nicht scheitern.

    19. meckator » Doppelten Content vermeiden meint:
      25.März 2008 at 22:30

      [...] vermeiden für faule Menschen, müsste die Überschrift eingentlich heißen. Grade erst zufällig gelesen, dass man mit einer modifizierten robots.txt Datei relativ einfach doppelten Content vermeiden [...]

    20. Heiko, der Online Marketing Evangelist meint:
      3.April 2008 at 06:33

      ich finde den ansatz stellenweise sogar schlecht – ein noindex, follow hat hier und da echt mehr power….

    21. www.pc4fun.org meint:
      4.April 2008 at 12:55

      Internet Archive (ia_archiver)…

      Viele Webmaster kennen diesen Useragent: ia_achiver.
      Ich habe heute mal einen Blick auf deren Seite gewagt:
      web.archive.org
      Ich konnte [...]…

    22. Angesammelte Links meint:
      7.April 2008 at 09:38

      [...] Optimierte Robots.txt für WordPress – Hat von euch jemand noch ein paar Tipps? [...]

    23. Markus meint:
      7.April 2008 at 12:48

      Also hier wird mir viel zu viel gesperrt. Eine clevere interne Verlinkung ist elementar für den Erfolg einer Webseite. Doch wenn ich mir ansehe, dass Archive, Kategorien und Pages gesperrt werden, ist dieser Aspekt nicht gegeben. Sobald die Posts von der Startseite weg sind, werden sie nicht mehr verlinkt?

      Ich denke man sollte noch einmal genau darüber nachdenken, was man sperrt und was nicht.

    24. Michael Smith meint:
      21.September 2008 at 14:07

      Ich hab ja auch ein wenig gewartet, hab mich erst heute drübergetraut. Man braucht ja immer “Versuchskaninchen”. Bin happy, alles funktioniert, keine Probleme so far.

    25. Alexey Balyabo meint:
      24.September 2008 at 21:52

      Bis zu wem die Faulheit hinführt!

    26. Remont meint:
      25.September 2008 at 20:54

      Wozu sperrst du Mediapartners-Google?

    27. Robot.txt gegen doppelten Content | Biggle's Blog meint:
      20.Oktober 2008 at 21:24

      [...] Beim Uwe gibt es ein Super Tip um sich vor doppelten Content zu schützen, damit man auch bei unserer lieben Tanta Google bleiben darf : ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 User-agent: Googlebot   Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /feed/ Disallow: /archives/ Disallow: /sitemap.xml Disallow: /index.php Disallow: feed/ Disallow: */trackback/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ Disallow: /?s*   User-agent: Googlebot-Image Disallow: /wp-includes/   User-agent: Mediapartners-Google* Disallow:   User-agent: duggmirror Disallow: /   User-Agent: Googlebot Disallow: /link.php Disallow: /gallery2 Disallow: /gallery2/ Disallow: /category/ Disallow: /page/ Disallow: /pages/ Disallow: /feed/ Disallow: /feed [...]

    28. Wordpress SEO - Indizierung über robots.txt oder PHP steuern | Frank the Tank meint:
      26.November 2008 at 12:00

      [...] Code reinschreibt. Einen sehr guten und detaillierten Beitrag dazu hat Uwe in seinem Post “getunte Wordpress robots.txt” [...]

    29. Wordpress SEO - Indizierung über robots.txt oder PHP steuern | Frank the Tank meint:
      26.November 2008 at 15:58

      [...] Code reinschreibt. Einen sehr guten und detaillierten Beitrag dazu hat Uwe in seinem Post “getunte Wordpress robots.txt” [...]

    30. Wordpress-2-8 erschienen | Blogging, Internet und Webpromotion meint:
      12.Juni 2009 at 21:16

      [...] genug. Mit zu vielen Tags sollte man sowieso aufpassen, dabei lehne ich mich nur an das Thema WordPress und DC zurück. Jedenfalls habe ich diese Option der Post Tags bisher nicht ausprobieren können und [...]

    31. Celine meint:
      18.Juni 2009 at 16:22

      Hallo,
      ich habe hierzu auch noch kurz eine Frage: Wenn ich keinen Blog sondern eine Seite mit Wordpres erstelle. Dann kommt man ja zu zahlreichen Beiträgen lediglich indem man zuerst auf die Kategorie geht und dann weiter zu den Beiträgen.
      Wenn ich aber schon direkt die category durch die robots.txt ausschließe, wie kommt dann google zu meinen beiträgen?
      Oder übersehe ich hier etwas?
      Danke!

    32. scysys meint:
      18.Juni 2009 at 23:46

      Einen DC innerhalb einer Domain gibt es nicht !!!

      Weshalb wird der Trackback Link gesperrt ?

      Der Feedeintrag ist überflüssig, dies hat Google mittlerweile selber im Griff bekommen.

      Man sollte im übrigen Inhalte mit der Meta noindex,follow sperren.

    33. Yaies meint:
      10.August 2009 at 00:55

      Habe die Datei auch auf 2 von meinen Seiten im Einsatz! Danke!!!

    34. Felix meint:
      29.August 2009 at 23:58

      Ich nutze diese Datei auch seit kurzem auf meinen Projekten. Ich verstehe aber nicht warum du Mediapartners-Google sperrst?

    35. Alex meint:
      10.September 2009 at 09:06

      Hmm.. Also wenn ich das einbaue wird der ganze Kram nicht mehr indexiert. Dann wirkt sich das aber auch nicht mehr auf das Ranking aus, oder? Also irgendwie stehe ich da gerade auf dem Schlauch :D

      MfG

    36. delicious Links: 26. October 2009 meint:
      27.Oktober 2009 at 00:02

      [...] ein-uwe.de » getunte Wordpress robots.txt Einer der größten natürlichen Feinde von Seos ist der gefürchtete Double Content. Double Content entsteht immer dann wenn ein und der selbe Inhalt durch verschiedenen Pfade erreichbar ist. Um dies wirkungsvoll zu vermeiden habe ich eine feine und vor allem schnelle Lösung bei Shoemoney.com gefunden. Er benutzt diese robots.txt. Tags: robots.txt [...]

    37. Martin meint:
      1.November 2009 at 12:52

      Sehr geil! Vielen Dank für deinen Hinweis. Die Datei ist echt Gold wert, dankeschön.

    38. Abdul meint:
      14.Januar 2010 at 10:28

      Hey, dürfte ich bitte fragen, wofür dieser Parameter steht?

      “User-agent: ia_archiver
      Disallow: /”

      Danke im Voraus.

    39. Josef meint:
      28.März 2010 at 15:28

      Hi Uwe,

      gilt das immer noch, dass robots.txt besser ist als noindex und follow?

      Gruß Josef

    40. seo kostenlos meint:
      29.Oktober 2010 at 01:25

      Go Uwe Go!

      Hab auch einen Guten Artikel über robots.txt
      http://seobunny.de/2010/10/29/robots-txt-tools/
      Schaut mal vorbei ;)

      Lg
      seoBunny.de

    41. seoBunny.de meint:
      29.Oktober 2010 at 01:44

      Gute WordPress Robots.txt Datei und Tools für eine erfolgreiche Suchmaschinenoptimierung!…

      Photo by jiuguangw Viele Robots/ Spider/ Crawler/ Bots durchsuchen wahllos das Internet nach Inhalten. Manchmal ist es sinnvoll, bestimmte Seiten oder Bereiche der eigenen Webseite oder Blog vor diesen Robots zu schützen um z.B. doppelten Content …

    42. Seoine Kubaseoträume meint:
      4.März 2011 at 22:28

      sorry, aber auf ein und derselben seite dc ist schwachsinn. die sumas werden sich immer die für sie wichtigste seite raussuchen und die anderen eben nicht listen. gerade die tag seiten werden von google wirklich geliebt und die auszuschließen ist echt nicht so schlau.
      ich kann diese robots.txt nicht guten gewissens empfehlen!

    43. Wegwerf Email meint:
      21.Mai 2011 at 23:17

      Denke auch, das interner DC nicht so schlimm ist. Bei mir ranken die Tag-Seiten meistens auch sehr gut. Die würde ich auch nicht rausschmeißen.

      Disallow: /category/

      Das versteh ich nicht. Damit verbietest du dem Bot doch die Kategorien anzuzeigen???

    44. Michael meint:
      16.Juli 2011 at 01:01

      Da ich auch einige Blogs habe, ist dieser Artikel für mich sehr wertvoll. Das mit den Tagseiten sehe ich auch so, die bringen zum Teil ordentlich Traffic.

    45. Alex meint:
      5.August 2011 at 10:42

      Probiere nun diese Robots.txt ; den ein doppelter Content ist sicherlich nicht gut.

      Grüße,
      Alex

    Kommentare