Webmaster aufgepasst: Google beachtet nicht mehr alle Regeln der robots.txt – das sind die Alternativen

Jens

» Web-Version «
vor 5 Jahren

Fast jede Webpräsenz besitzt eine robots.txt-Datei, die für die Nutzer bzw. Besucher der Webseite nicht relevant oder interessant ist, aber von Suchmaschinen bzw. dessen Crawlern beachtet werden sollte. Eine Pflicht zum Beachten gibt es nicht, aber es gehört zum guten Ton und wird auch von allen bekannten Suchmaschinen umgesetzt. Auch Google beachtet die Datei natürlich, wird aber nun schon bald im Zuge der angestrebten Standardisierung nicht mehr alle Regeln befolgen – und das kann große Auswirkungen haben.

Damit das WWW bzw. das gesamte Internet auf allen Plattformen funktionieren kann, sind sehr viele Standards notwendig, die die notwendige Kompatibilität regeln sollen. Viele dieser Regeln greifen vor allem unter der Haube und stellen die Kommunikation sicher bzw. beschreiben die einzelnen Protokolle bis ins kleinste Detail. Viele dieser Standards haben schon mehrere Jahrzehnte auf dem Buckel und werden höchstens mal geringfügig angepasst. Andere wiederum wurden nie standardisiert.

Nachdem Google gestern den Willen zur Standardisierung der robots.txt signalisiert und zugleich den eigenen intern verwendeten Parser zum Download freigegeben hat, geht man nun einen ersten wichtigen Schritt zum Standard: Der Googlebot wird nicht mehr alle Befehle dieser Datei befolgen, sondern lediglich die zum Pseudo-Standard gehörenden Regeln beachten. Das bedeutet auch, dass das manchmal genutzte „noindex“ ignoriert wird. Eigentlich soll dieser Eintrag sicherstellen, dass die folgenden Verzeichnisse und Dateien nicht indexiert werden.

Noindex gehörte nie zum Standard, wurde aber dennoch häufiger genutzt und aus diesem Grund auch von vielen Suchmaschinen und Crawlern beachtet. Damit wird ab dem 1. September 2019 aber Schluss sein – und das sollten Webmaster beachten! Schaut einfach mal in eure robots.txt-Datei herein (die vermutlich seit langer Zeit nicht mehr angefasst wurde) und ersetzt den dort möglicherweise nicht mehr ganz korrekten Eintrag durch eine der von Google aufgelisteten Alternativen (weiter unten im Artikel). Ansonsten kann es passieren, dass plötzlich Content indexiert werden, der nicht in die Websuche sollte.

Dieser Schritt ist zwar etwas überraschend, aber zum Vorantreiben des Standards natürlich notwendig. Google als weltweit größte Suchmaschine hat auch die Macht, die Verwendung anzupassen und sehr viele Webmaster zu erreichen. Wir dürfen gespannt sein, ob es noch weitere Ankündigungen und Änderungen geben wird.

Das sind die von Google vorgeschlagenen Alternativen

Noindex in robots meta tags: Supported both in the HTTP response headers and in HTML, the noindex directive is the most effective way to remove URLs from the index when crawling is allowed.
404 and 410 HTTP status codes: Both status codes mean that the page does not exist, which will drop such URLs from Google’s index once they’re crawled and processed.
Password protection: Unless markup is used to indicate subscription or paywalled content, hiding a page behind a login will generally remove it from Google’s index.
Disallow in robots.txt: Search engines can only index pages that they know about, so blocking the page from being crawled usually means its content won’t be indexed. While the search engine may also index a URL based on links from other pages, without seeing the content itself, we aim to make such pages less visible in the future.
Search Console Remove URL tool: The tool is a quick and easy method to remove a URL temporarily from Google’s search results.

» Ankündigung im Google Webmasters Blog

Siehe auch
» Nach 25 Jahren: Google will robots.txt standardisieren und bietet eigenen robots.txt-Parser zum Download an

» Der Googlebot wird zum Evergreen: Die Chrome-Engine wird ab sofort regelmäßig aktualisiert

Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren