Google Bard: Webmaster können den Crawler jetzt per robots.txt aussperren – mit Google Extended

Veröffentlicht am 29. September 2023 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Google wird mit dem KI-ChatBot Bard in den nächsten Wochen wieder größere Sprünge machen und den Funktionsumfang immer stärker erweitern. Aber auch die Datenbasis muss erweitert werden und so hat man bereits vor einigen Wochen angekündigt, auch Inhalte aus dem Web in Bard einfließen zu lassen. Weil das nicht alle Webmaster begeistert, ermöglicht man es nun, die eigene Webseite davon auszunehmen.

Bard & ChatGPT: OpenAI ermöglicht Aussperren des Crawlers & Google will Diskussion über neue robots.txt

Veröffentlicht am 8. August 2023 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Die seit einiger Zeit sehr populären KI-ChatBots wie ChatGPT oder Google Bard beziehen ihr Wissen nicht nur aus offiziellen Quellen und Datenbanken, sondern auch aus dem gesamten Web. Erst die Webcrawler machen es möglich, wirklich umfassende Informationen zu liefern, doch bei einigen Webmastern kommt das gar nicht gut an. Jetzt schafft man bei OpenAI Fakten und bietet die Möglichkeit, den GPT-Bot auszusperren. Google ist noch nicht so weit.

Bard: Google will einige Webstandards für KI-ChatBots anpassen – Diskussion über robots.txt soll beginnen

Veröffentlicht am 12. Juli 2023 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Google hat kürzlich die Bedingungen dafür geschaffen, dass der KI-ChatBot Bard das gesamte Web nach Informationen abgrasen und diese zum Training verwenden darf. Das stieß nicht überall auf Zustimmung, sodass man jetzt eine neue Diskussion über die robots.txt anregen will. Diese seit Jahrzehnten existierende und von allen großen Suchmaschinen beachtete Datei soll für die modernen Anforderungen angepasst werden.

Webmaster aufgepasst: Google beachtet nicht mehr alle Regeln der robots.txt – das sind die Alternativen

Veröffentlicht am 2. Juli 2019 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Fast jede Webpräsenz besitzt eine robots.txt-Datei, die für die Nutzer bzw. Besucher der Webseite nicht relevant oder interessant ist, aber von Suchmaschinen bzw. dessen Crawlern beachtet werden sollte. Eine Pflicht zum Beachten gibt es nicht, aber es gehört zum guten Ton und wird auch von allen bekannten Suchmaschinen umgesetzt. Auch Google beachtet die Datei natürlich, wird aber nun schon bald im Zuge der angestrebten Standardisierung nicht mehr alle Regeln befolgen - und das kann große Auswirkungen haben.

Nach 25 Jahren: Google will robots.txt standardisieren und bietet eigenen robots.txt-Parser zum Download an

Veröffentlicht am 1. Juli 2019 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Das Internet hat sich in den vergangenen zwei Jahrzehnten wahnsinnig verändert und wird auch heute noch immer wieder um neue Technologien und Möglichkeiten erweitert. Ein sehr grundlegender Teil der Crawler-Infrastruktur hingegen hat sich ewig nicht mehr geändert, ist aber dennoch bis heute nicht standardisiert: Die robots.txt. Jetzt will Google die Standardisierung vorantreiben und hat zugleich einen robots.txt-Parser veröffentlicht.

Google Webmaster Tools: Neues Tool zum testen der robots.txt

Veröffentlicht am 21. Juli 2014 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Um den Zugriff von Crawling-Bots auf bestimmte Bereiche einer Webseite zu kontrollieren, ist es immer noch der einfachste Weg eine robots.txt einzusetzen und dort entsprechende Regeln zu hinterlegen. Trotz des eigentlich sehr simplen Aufbaus dieser Datei kann diese doch sehr fehleranfällig sein und die Bots sich unvorgesehen verhalten. Jetzt hat Google ein neues Tool zum testen dieser Datei veröffentlicht.

Easteregg: Google schützt seine Gründer jetzt per killer-robots.txt

Veröffentlicht am 4. Juli 2014 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Nahezu jede Webseite setzt zur Steuerung von Suchmaschinen auf die robots.txt-Datei, mit der den Bots mitgeteilt wird, welche Webseiten gecrawlt und indexiert werden dürfen und welche nicht - und alle großen Suchmaschinen halten sich auch an diese Standard-Angaben. Zum 20-jährigen Jubiläum dieser Datei sorgt Google nun für die Zukunft vor und verfügt seit einigen Tagen auch über eine killer-robots.txt.

GDrive: robots.txt, Support Center & HTTPS-Weiterleitung bereits online

Veröffentlicht am 18. April 2012 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Zusätzlich zur geleakten Mac-Software und dem kolportierten Release-Termin nächste Woche ist jetzt auch die URL zum GDrive aufgetaucht: drive.google.com. Unter dieser Subdomain findet sich bereits die robots.txt und auch das Support-Center steht bereits in den Startlöchern.

Google führt die humans.txt ein

Veröffentlicht am 7. Mai 2011 von Pascal

Jedem Webmaster dürfte wohl die robots.txt bekannt sein. Mit dieser kann man verhindern, dass bestimmte Seiten oder Verzeichnisse des Servers in den Index der Suche aufgenommen werden. Eigentlich alle großen Suchmaschinen halten sich daran. Vor einigen Wochen gab es eine Idee eine humans.txt einzuführen.

Google gibt Verlegern mehr Kontrolle & neuer Google Bot

Veröffentlicht am 2. Dezember 2009 von Pascal

Google reagiert auf das Vorhaben von einigen Verlegern, die Google blockieren wollen, sodass sie nicht mehr über die Google News zu finden. Zum einen wird der Inhalt für die Google News nun über einen neuen Bot gecrawelt, zum anderen können die Publisher festlegen wie viele kostenpflichtige Artikel ein Nutzer pro Tag maximal anschauen kann.

Mit dem Programm "First Click Free" kann festgelegt werden, dass ein Nutzer bspw. maximal 5 Artikel via Google Search bzw. Google News anschauen kann, bevor er dafür beim Verleger bezahlen muss.

Wer nicht möchte, dass seine Artikel in den Google News laden, kann dies nun über die robots.txt festlegen. Google News wird ab sofort von von Googlebot-News gecrawelt. So lässt sich festlegen, dass bspw. das Archiv nicht aufgenommen werden darf oder die neusten Artikel nicht sofort in den News laden. Weitere Beispiele gibt es hier.

Der user agent lautet Googlebot-News.

Halloween Easter Egg in der Google robots.txt

Veröffentlicht am 31. Oktober 2009 von Pascal

Wie schon vor einem Jahr gibt es auch dieses Jahr einen speziellen Eintrag in der robots.txt von Google. Dieses Jahr dürfen Kinder nicht auf auf /tricks zugreifen, aber auf /treats

Neuer Eintrag in der Robots.txt

Veröffentlicht am 31. Oktober 2008 von Pascal

Dass sich Googler gelegentlich einen Scherz - vor allem am ersten April - erlauben, sollte bekannt sein. Daher darf man auch über den neusten Eintrag in die Google Robots.txt getrost lachen:

google.com/brains liefert übrigens eine 404-Fehlerseite. » Google Robots.txt

Google Profile: 150.000 Visitenkarten jetzt für Suchmaschinen zugängig

Veröffentlicht am 16. Oktober 2008 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Bisher waren die Seiten von Google Profile nur eher sporadisch von Suchmaschinen indiziert worden - einfach aus dem Grund das sie nirgendwo öffentlich verlinkt sind, es sei denn der User verlinkt sich selbst irgendwo. In einigen Stunden wird sich das allerdings ändern, denn Google teilt allen Suchmaschinen nun per Sitemap die URLs von 150.000 öffentlichen Profilen mit. Seit wenigen Stunden findet sich in Googles robots.txt ein Link zu einer Profiles Sitemap in dem wiederum 30 Textdateien verlinkt sind. Jeder dieser Textdateien enthält 5.000 URLs die allesamt auf gut gefüllte Profile verlinken. Es ist also nur noch eine Frage von Stunden bis die großen Suchmaschinen die Profile indiziert und gelistet haben. Hervorgegangen ist das Google Profile damals aus Google Shared Stuff und wurde seitdem kontinuierlich erweitert und in verschiedene Dienste wie Maps, Reader und Knol integriert. Wirklich selbstständig war der Dienst bisher aber nicht, das wird sich nun ändern und das Profile wird quasi die Web-Visitenkarte hosted by Google. Da die Visitenkarten direkt auf google.com gehostet werden, dürfte diese bei sehr vielen Namen jetzt direkt auf Platz 1 in den Suchergebnissen stehen. Ich denke Google hätte einige Wochen vor dieser Öffnung eine Möglichkeit anbieten sollen das Profil aus Suchmaschinen entfernen zu dürfen bzw. gar nicht erst listen lassen zu dürfen. Was haltet ihr von dieser direkten Verlinkung der Profile? P.S. Es scheinen 150.000 Profile verlinkt zu sein. Hat jemand eine Ahnung ob diese Zahl realistisch ist oder ob es noch mehr Profile gibt? Ist eure Seite gelistet? » Profile-Sitemaps [ZDNet-Blog]

Neuer robots.txt-Eintrag: google.com/MerchantSearchBeta

Veröffentlicht am 18. April 2008 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

Lange Zeit nicht mehr von Googles robots.txt gehört, aber jetzt gibt es endlich mal wieder einen neuen Eintrag der uns spekulieren lässt: Der Eintrag verweist auf google.com/MerchantSearchBeta und liefert - wen wundert es - mal wieder eine 404er Meldung zurück. Ich tippe auf eine Händler-Suche als Mix aus Google Maps, Product Search aka Froogle und vielleicht auch eine Wiederbelebung von Google Catalogs. P.S. Ich glaube das wäre Googles erster Dienst der das Wort "Beta" schon in der URL enthält :-D » robots.txt [Google Blogoscoped Forum]

Neuer robots.txt-Eintrag: google.com/aclk

Veröffentlicht am 7. September 2007 von Jens | Kann bezahlte Werbelinks und Anzeigen enthalten

In Googles robots.txt ist mal wieder ein neuer Eintrag aufgetaucht. Worum es sich bei dem jetzt für Suchmaschinen gesperrten Ordner aclk handelt ist bisher noch nicht bekannt. Auch eine mögliche Abkürzung für irgendetwas ist bisher noch niemandem eingefallen. Interessant an der Sache ist, dass jeder beliebiger Unterordner aufgerufen werden kann und immer, genau wie das aclk-Verzeichnis selbst, eine komplett leere Seite zurück gibt. [Blogoscoped-Forum]