GoogleBot findet über 1 000 000 000 000 Webseiten

Veröffentlicht am 26. Juli 2008 von Pascal

Google

1 Billionen oder eine 1 mit 12 Nullen – 1.000.000.000.000 – ist eine gigantische Zahl. Vor einigen Tagen hat der Google Bot die Billionste unique URL gefunden. Alle Seiten sind nicht in den Index aufgenommen.

Kleiner Rückblick: Der erste Google Index von 1998 hatte 26.000.000 Seiten, 2000 waren es eine Milliarde.

Wie findet der Bot so viele unique Webseiten? Eigentlich ist es ganz einfach. Google lässt den Bot auf einige bekannte Webseiten los und gibt dem Bot den Befehl allen Links zu folgen. Auf den verlinkten Seiten geht der Vorgang wieder von vorne los. So erreicht man sehr schnell viele Seiten.
Google hat sogar mehr als 1 Billion Seiten gefunden, aber nicht alle davon waren einzigartig (unique). Oft gibt es Texte, die über mehrere URL erreichbar sind, aber exakt Wort für Wort gleich sind. Diese wurden für den Meilenstein abgezogen. Täglich kommen einige Milliarden solcher Duplikate hinzu, schreiben Jesse Alpert & Nissan Hajaj auf dem Google Blog.

Bis vor einigen Jahren wurde auf der Startseite die Zahl der indexierten Seiten angezeigt.

» Weiteres im Google Blog

Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | GWB-Newsletter

Teile diesen Artikel:

22 Kommentare zum Thema "GoogleBot findet über 1 000 000 000 000 Webseiten"

stadtjunge sagt:

26. Juli 2008 um 09:48 Uhr

Bots werden auch als Spider bezeichnet, die sich wie in einem Spinnennetz durchwurschteln. 🙂

Kennt jemand die Anzahl von Seiten, die es außerhalb vom Index gibt?
Justin sagt:

26. Juli 2008 um 09:58 Uhr

Ist ja fast nichts 😉
Da sieht man mal aus was das Netz besteht und noch viel mehr… aber mich würde mal interessieren wie viele Bots gibt es …
Klaus sagt:

26. Juli 2008 um 10:32 Uhr

Lt. einigen Magazinen wird ja geschätzt, dass Google nur ca. 15-20 % des Webs findet.
Doch es hat sich bei vielen fast schon so etabliert, dass alles, was Google nicht findet, fast nicht existiert…
name:) sagt:

26. Juli 2008 um 11:27 Uhr

Der findet aber auch Seiten die nirgendwo verlinkt sind…frag mich immer noch wie er das geschafft…die grundguten Bots…….
stadtjunge sagt:

26. Juli 2008 um 11:34 Uhr

Auf ausprobieren von Buchstaben-, Zeichen und Zahlenkombinationen würde ich tippen!
Issy sagt:

26. Juli 2008 um 11:57 Uhr

Man kann Webseiten auch Google vorschlagen. Da müssen die nirgends verlinkt sein. Ausprobieren glaube ich eher weniger.
wwjd666 sagt:

26. Juli 2008 um 12:03 Uhr

„ausprobieren“ wird auch als brute-force bezeichnet und wenn „ausprobieren“ über vllt. 8 Stellen hinaus sogar unter beachtung von Sonderzeichen so schnell und easy gehn würde, bräuchtn wir auch keine Passwörter mehr benutzen etc. überleg dir mal, wie viele kombinationen sich bei einer URL, wie der von dieser Seite ergeben
Klaus sagt:

26. Juli 2008 um 12:06 Uhr

@wwjd66: Du musst allerdings bedenken, wieviele offizielle und vlt. auch jede Menge „geheime“ Rechenzentren Google betreibt…

Ich persönlich glaube aber ebenfalls nicht daran, dass Google einfach herumprobiert.

Am einfachsten wäre ja, wenn Google die ganzen Daten von Denic & Co. bekommen würde (bzw. von den größeren Free-(Sub-)Domain-Anbietern).
stadtjunge sagt:

26. Juli 2008 um 12:29 Uhr

Ich habe überlegt. Und nun? Zuerst einmal war es eine Vermutung.

Zum zweiten:

Zitat:
bräuchten wir auch keine Passwörter mehr benutzen

Wir reden hier von keinem Hacker mit zig tausend Server und einer nahezu „unermesslichen“ Rechenleistung, sondern einem Unternehmen, welches Webseiten indexiert. Also ist solche eine Methode, auch wenn ich kein Mathematiker bin, durchaus denkbar. Wenn nicht, dann bitte ich um Korrektur.
cilla sagt:

26. Juli 2008 um 12:32 Uhr

Wenn Google mit den NIC, wie z.B. der DENIC zusammenarbeiten würde und sich von denen eine Liste aller registrierten Domains geben lassen würde, könnte so das Deepweb weiter schrumpfen.

Ein weiteres Problem sind ja immernoch Seiten, die erst nach Formulareingabe dynamisch generiert werden, doch hier arbeitet Google bereits dran.
kapet sagt:

26. Juli 2008 um 12:52 Uhr

Google probiert nicht irgendwelche Buchstabenkombinationen durch, zum einen ist die Anzahl moeglicher Kombinationen zu gross zum anderen wuerden Serverbetreiber wohl nicht gluecklich sein in ihren Logs Anfragen des Google Crawlers nach a.html b.html c.html … z.html aa.html ab.html ac.html … usw. zu finden wo der Server immer nur „404 habsch nich“ zurueckliefert. (Wer immer noch daran glaubt moege seine Serverlogs ueberpruefen ob nur existierende Seiten oder auch haufenweise „geratene“ URLs abgefragt werden.)

In jedem mir bekannten Fall wo Google eine „geheime“ Seite gefunden hat ging das durch einen Link der dann doch irgendwo existiert hat. Matt Cutts hat in seinem Blog AFAIR schon mehrere Beispiele gebracht.
stadtjunge sagt:

26. Juli 2008 um 13:04 Uhr

Hier liegt scheinbar ein Missverständnis vor.

Es geht mir nicht um http://www.xyz .de/a.html, http://www.xyz .de/b.html usw. Es ging mir lediglich um die URL. Sollte also xyz.de vorhanden sein, werden die dort aufgeführten Links verfolgt / Inhalte indexiert.

Aber wie einige schon meinten, scheint der Weg über die deNIC & co, der leichteste zu sein.
name:) sagt:

26. Juli 2008 um 13:12 Uhr

Jo nee, vorgeschlagen hatte ich die sicher nicht. War nur kleine Seite (einzelne htm) mit vll. 20 Links auf andere Seiten. Und als ich mal nach einem Link davon suchte, tauchte auch meine Mini-Seite auf…hab die auch nirgendwo gepostet oder sonstiges.
winni sagt:

26. Juli 2008 um 13:44 Uhr

und hier —> http://www.google.de/intl/de/options/sinds immernoch 8 millionen 😀 lol
Anon sagt:

26. Juli 2008 um 14:20 Uhr

Öhm, bei mir sinds 8 Milliarden… Auch wenn das immmer ncoh viel zu wenig ist 😉
André (PN Admin) sagt:

26. Juli 2008 um 16:08 Uhr

hmm…
soweit ich weiß muss google sich doch nur in das Netz von großen DNS-Server einhängen und Änderungen überwachen. Sobald dort ein neuer Name auftaucht wird der google Server hellhörig und kann diese Seiten crawlen 😉

Das würde zumindest erklären, wie eine meiner Seiten in den Index kommt, die ich nur über Subdomains zur Administration verwende. Die Hauptdomain (www.domain.tld) wird nicht verwendet und liefert nur eine Standard-Setup-Seite aus ^^ (–> Apache ist richtig konfiguriert ^^).

Links auf die Seite gibt es keine…
Aber ich denke mal Google wird da mehrere ansatzpunkte haben:
NICs, DNS, Links, etc.
Dosenpfand sagt:

26. Juli 2008 um 17:44 Uhr

Zitat:
und durchsucht diese in Bruchteilen einer Sekunden auf die Relevanz.

hmm ich hoffe der werte autor denkt nicht wirklich dass bei jeder suchanfrage der komplette index durchsucht wird?!?
Klaus sagt:

27. Juli 2008 um 11:49 Uhr

### WICHITG: ###
Achja: Eine ganz wichtige Quelle von URLs haben wir vergessen:

Die Google-Toolbar!!!!!!!! Die meldet jede angesurfte Seite, wenn man sie installiert hat. Ebenso der Google Webaccelarator.
kapet sagt:

27. Juli 2008 um 13:26 Uhr

Klaus: Das wurde schon verschiedentlich vermutet aber bisher immer das Gegenteil festgestellt, siehe z.B. hier:
http://blogoscoped.com/archive/2006-12-10-n75.html

name: Wenn du eine Seite mit Links baust und verwendest wird jedes mal, wenn du dort auf einen Link klickst, die URL deiner Seite an das Ziel des Links als „Referrer“ vom Browser mitgeteilt. Diese Information landet im Serverlog und wird gerne in Zugriffsstatistiken (z.B. von „webalizer“ oder „AWstats“) aufgeschluesselt damit der Webmaster sehen kann „woher“ die Besucher kamen. Es ist schon oft passiert das solche Statistiken nicht geschuetzt waren und von den Suchmaschinen gefunden wurden. Mir selbst ist es passiert das auf einer fremden Seite ein Link zu einer meiner persoenlichen Seiten auftauchte ohne das ich den Webmaster der anderen Seite darum gebeten hatte. Er hat halt in seinen Logs gesehen das „viele“ Zugriffe von meiner Seite her kamen (weil ich immer den Link dort verwendet habe) und sich gedacht „setz ich halt nen Link zurueck“.

Wenn ihr wissen wollt wie Google eine Seite gefunden habt dann verwendet eine „link:URL“ Suche, z.B.:
link:www.googlewatchblog.de
Dies findet alle Seiten die auf das Googlewatchblog verlinken.
Klaus sagt:

27. Juli 2008 um 14:03 Uhr

kapet: Ich persönlich denke aber dennoch, dass Google nicht ganz uneigennützig die Toolbar entwickelt hat. Zwar hat sie auch einen kleine Werbeeffekt, aber man muss in den AGB extra zustimmen, dass die Toolbar bei jedem Pagerank-Check die angesurfte URL (anonymisiert) an Google überträgt und das Unternehmen berechtigt ist, diese Daten weiter zu verarbeiten.

Bei dem von dir verlinkten Experiment war es vlt. ein Fehler, die Seite „so klein“ zu machen (nur 1-2 Sätze). Vlt. dachte Google, dass diese Seite nicht einmal in den Index aufgenommen gehört, da sie so wenig Content hat und nur von einem einzigen Toolbar-Benutzer angesurft wird…
stadtjunge sagt:

27. Juli 2008 um 15:58 Uhr

@Klaus
Google programmiert nichts uneigennützig. 🙂
Google12345 sagt:

1. August 2008 um 21:36 Uhr

Welches war denn wohl die 1.(erste) und welches die 1 Billionste Seite im Index?