Donnerstag, 4. September 2008
robots.txt für Serendipity
Eine robots.txt für s9y zu erstellen ist nicht schwieriger als für andere Seiten, man muß sich nur überlegen, was man damit erreichen möchte. Da es auf diesem Blog auch um Suchmaschinenoptimierung geht habe ich mir mal ein paar Gedanken gemacht wie eine robots.txt für Serendipity aussehen solle, dabei habe ich auch Sicherheitsaspekte nicht außer Acht gelassen.
Ein gute robots.txt ist das A und O einer Suchmaschinenoptimierten Webseite, darum überlegen wir uns erst mal was wir damit erreichen möchten?
Natürlich gibt es viele Wege diese Punkte abzuarbeiten und nicht immer ist eine robots.txt der sinnvollste Weg. Beispielsweise kann es sinnvoller sein Duplicated Content mit einem 301 Redirect umzuleiten (index.php nach /) aber hier soll es ja erstmal nur um dieses kleine und sehr wichtige Helferlein gehen!.
Los gehst!
Als erstes binden wir die sitemap.xml in die robots.txt ein. Das ist zwar nicht zwingen notwendig, weil die großen Suchmaschinen die Sitemap-Dateien ohnehin finden, (sofern sie einen Standard-Namen haben) und das Sitemap Plugin von Serendipity Google und Ask über die neu erstelle Sitemap informiert, aber es beruhigt das Gewissen, auch in der robots.txt darauf hin gewiesen zu haben.
Jetzt vermeiden wir Duplicated Content der Feeds. Die Verzeichnisse /archives/, /authors/, /pages/ und andere erzeugen ebenfalls Duplicated Content, allerdings ist es sinnvoller diese Verzeichnisse mit dem Meta-Tag "noindex,follow" von der Indexierung auszuschließen, damit man sich nicht der Links beraubt die auf diesen Seiten zu finden sind.
Damit sich die Bots der Suchmaschinen in den unendlichen Tiefen der Verzeichnisstruktur von Serendipity nicht verirren, verhindern wir das Crawlen dieser Systemverzeichnisse. Ich habe absichtlich das "/template/" Verzeichnis nicht in diese Liste mit aufgenommen, da sich Google auch gerne die Stylesheets ansieht (*.css) um sicher zu gehen, dass man nicht etwa den Inhalt der Seiten mit in der selben Farbe wie den Hintergrund formatiert hat, um ihn ausschließlich den Suchmaschinen Bots zu präsentieren.
Nun schließen wir alle Dateiformate aus, die zum System gehören oder versehentlich in einem nicht versteckten Verzeichnissen abgelegt wurden. Dateien mit der Endung *.php kann man natürlich nur blockieren, wenn man die Standardeinstellungen für Beiträge zuvor auf .html o.ä. geändert hat!
Zu guter Letzt sagen wir den Sumas, das sie sich von unserem Impressum oder anderen persönlichen, oder unwichtigen Seiten fernhalten sollen. (gegebenenfalls anpassen!)
Wenn man die robots.txt erstellt hat wird sie einfach in das Wurzelverzeichnis des Webspace geladen und anschließend macht man einfach ein Häkchen auf seiner ToDo-Liste. Allerdings sollte man regelmäßig kontrollieren, ob sich die Sumas auch daran halten und ob man evtl. einen Fehler gemacht hat...
Achtung: Die Wildcards, die ich hier für Dateien und Verzeichnisse verwende, sind nicht standardisiert, werden aber von den meisten Suchmaschinen akzeptiert!
- Duplicated Content vermeiden
- private und unwichtige Informationen ausschließen (z.B. das Impressum)
- Crawlen von Systemverzeichnissen vermeiden
- Suchmaschinen mit der Nase auf die Sitemap.xml stoßen
Natürlich gibt es viele Wege diese Punkte abzuarbeiten und nicht immer ist eine robots.txt der sinnvollste Weg. Beispielsweise kann es sinnvoller sein Duplicated Content mit einem 301 Redirect umzuleiten (index.php nach /) aber hier soll es ja erstmal nur um dieses kleine und sehr wichtige Helferlein gehen!.
Los gehst!
Als erstes binden wir die sitemap.xml in die robots.txt ein. Das ist zwar nicht zwingen notwendig, weil die großen Suchmaschinen die Sitemap-Dateien ohnehin finden, (sofern sie einen Standard-Namen haben) und das Sitemap Plugin von Serendipity Google und Ask über die neu erstelle Sitemap informiert, aber es beruhigt das Gewissen, auch in der robots.txt darauf hin gewiesen zu haben.
Sitemap: http://www.DEINE_DOMAIN.de/sitemap.xml.gz
Jetzt vermeiden wir Duplicated Content der Feeds. Die Verzeichnisse /archives/, /authors/, /pages/ und andere erzeugen ebenfalls Duplicated Content, allerdings ist es sinnvoller diese Verzeichnisse mit dem Meta-Tag "noindex,follow" von der Indexierung auszuschließen, damit man sich nicht der Links beraubt die auf diesen Seiten zu finden sind.
User-agent: *
Disallow: /feeds/
Damit sich die Bots der Suchmaschinen in den unendlichen Tiefen der Verzeichnisstruktur von Serendipity nicht verirren, verhindern wir das Crawlen dieser Systemverzeichnisse. Ich habe absichtlich das "/template/" Verzeichnis nicht in diese Liste mit aufgenommen, da sich Google auch gerne die Stylesheets ansieht (*.css) um sicher zu gehen, dass man nicht etwa den Inhalt der Seiten mit in der selben Farbe wie den Hintergrund formatiert hat, um ihn ausschließlich den Suchmaschinen Bots zu präsentieren.
Disallow: /bundled-libs/
Disallow: /deployment/
Disallow: /docs/
Disallow: /htmlarea/
Disallow: /include/
Disallow: /lang/
Disallow: /plugins/
Disallow: /sql/
Disallow: /templates_c/
Nun schließen wir alle Dateiformate aus, die zum System gehören oder versehentlich in einem nicht versteckten Verzeichnissen abgelegt wurden. Dateien mit der Endung *.php kann man natürlich nur blockieren, wenn man die Standardeinstellungen für Beiträge zuvor auf .html o.ä. geändert hat!
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.tar$
Disallow: /*.tgz$
Disallow: /*.sh$
Disallow: /*.zip$
Disallow: /*.tpl$
Zu guter Letzt sagen wir den Sumas, das sie sich von unserem Impressum oder anderen persönlichen, oder unwichtigen Seiten fernhalten sollen. (gegebenenfalls anpassen!)
Disallow: /impressum.html
Wenn man die robots.txt erstellt hat wird sie einfach in das Wurzelverzeichnis des Webspace geladen und anschließend macht man einfach ein Häkchen auf seiner ToDo-Liste. Allerdings sollte man regelmäßig kontrollieren, ob sich die Sumas auch daran halten und ob man evtl. einen Fehler gemacht hat...
Achtung: Die Wildcards, die ich hier für Dateien und Verzeichnisse verwende, sind nicht standardisiert, werden aber von den meisten Suchmaschinen akzeptiert!


Ich habe gerade festgestellt, dass mein Blog keine "robots.txt" besitzt. Da die Gefahr des doppelten Kontents besteht, was Google überhaupt nicht mag, habe ich mir nach der nachfolgenden Anleitung jetzt eine robots.txt gebastelt:www.webmaster-su
Aufgenommen: Sep 19, 10:06