Google

1 Billionen oder eine 1 mit 12 Nullen - 1.000.000.000.000 - ist eine gigantische Zahl. Vor einigen Tagen hat der Google Bot die Billionste unique URL gefunden. Alle Seiten sind nicht in den Index aufgenommen.

Kleiner Rückblick: Der erste Google Index von 1998 hatte 26.000.000 Seiten, 2000 waren es eine Milliarde.

Wie findet der Bot so viele unique Webseiten? Eigentlich ist es ganz einfach. Google lässt den Bot auf einige bekannte Webseiten los und gibt dem Bot den Befehl allen Links zu folgen. Auf den verlinkten Seiten geht der Vorgang wieder von vorne los. So erreicht man sehr schnell viele Seiten.
Google hat sogar mehr als 1 Billion Seiten gefunden, aber nicht alle davon waren einzigartig (unique). Oft gibt es Texte, die über mehrere URL erreichbar sind, aber exakt Wort für Wort gleich sind. Diese wurden für den Meilenstein abgezogen. Täglich kommen einige Milliarden solcher Duplikate hinzu, schreiben Jesse Alpert & Nissan Hajaj auf dem Google Blog.

Bis vor einigen Jahren wurde auf der Startseite die Zahl der indexierten Seiten angezeigt.

» Weiteres im Google Blog
Kategorie(n): News, Google Search
Tags: google-search, geschichte
Pascal am 26. Juli 2008, 09:25 Uhr
 

3380 mal aufgerufen


25 Kommentare: | Forum

Gravatar
stadtjunge sagt: Alle Kommentare anzeigen
26. Juli 2008, 09:48 Uhr
Bots werden auch als Spider bezeichnet, die sich wie in einem Spinnennetz durchwurschteln. :)

Kennt jemand die Anzahl von Seiten, die es außerhalb vom Index gibt?
» Antworten

Gravatar
Ist ja fast nichts ;)
Da sieht man mal aus was das Netz besteht und noch viel mehr... aber mich würde mal interessieren wie viele Bots gibt es ...
» Antworten

Gravatar
Lt. einigen Magazinen wird ja geschätzt, dass Google nur ca. 15-20 % des Webs findet.
Doch es hat sich bei vielen fast schon so etabliert, dass alles, was Google nicht findet, fast nicht existiert...
» Antworten

Gravatar
Der findet aber auch Seiten die nirgendwo verlinkt sind...frag mich immer noch wie er das geschafft...die grundguten Bots.......
» Antworten

Gravatar
stadtjunge sagt: Alle Kommentare anzeigen
26. Juli 2008, 11:34 Uhr
Auf ausprobieren von Buchstaben-, Zeichen und Zahlenkombinationen würde ich tippen!
» Antworten

Gravatar
Man kann Webseiten auch Google vorschlagen. Da müssen die nirgends verlinkt sein. Ausprobieren glaube ich eher weniger.
» Antworten

Gravatar
wwjd666 sagt: Alle Kommente anzeigen Profil anzeigen
26. Juli 2008, 12:03 Uhr
"ausprobieren" wird auch als brute-force bezeichnet und wenn "ausprobieren" über vllt. 8 Stellen hinaus sogar unter beachtung von Sonderzeichen so schnell und easy gehn würde, bräuchtn wir auch keine Passwörter mehr benutzen etc. überleg dir mal, wie viele kombinationen sich bei einer URL, wie der von dieser Seite ergeben
» Antworten

Gravatar
@wwjd66: Du musst allerdings bedenken, wieviele offizielle und vlt. auch jede Menge "geheime" Rechenzentren Google betreibt...

Ich persönlich glaube aber ebenfalls nicht daran, dass Google einfach herumprobiert.

Am einfachsten wäre ja, wenn Google die ganzen Daten von Denic & Co. bekommen würde (bzw. von den größeren Free-(Sub-)Domain-Anbietern).
» Antworten

Gravatar
stadtjunge sagt: Alle Kommentare anzeigen
26. Juli 2008, 12:29 Uhr
Ich habe überlegt. Und nun? Zuerst einmal war es eine Vermutung.

Zum zweiten:
Zitat:
bräuchten wir auch keine Passwörter mehr benutzen

Wir reden hier von keinem Hacker mit zig tausend Server und einer nahezu "unermesslichen" Rechenleistung, sondern einem Unternehmen, welches Webseiten indexiert. Also ist solche eine Methode, auch wenn ich kein Mathematiker bin, durchaus denkbar. Wenn nicht, dann bitte ich um Korrektur.
» Antworten

Gravatar
Wenn Google mit den NIC, wie z.B. der DENIC zusammenarbeiten würde und sich von denen eine Liste aller registrierten Domains geben lassen würde, könnte so das Deepweb weiter schrumpfen.

Ein weiteres Problem sind ja immernoch Seiten, die erst nach Formulareingabe dynamisch generiert werden, doch hier arbeitet Google bereits dran.
» Antworten

Gravatar
kapet sagt: Alle Kommente anzeigen Profil anzeigen
26. Juli 2008, 12:52 Uhr
Google probiert nicht irgendwelche Buchstabenkombinationen durch, zum einen ist die Anzahl moeglicher Kombinationen zu gross zum anderen wuerden Serverbetreiber wohl nicht gluecklich sein in ihren Logs Anfragen des Google Crawlers nach a.html b.html c.html ... z.html aa.html ab.html ac.html ... usw. zu finden wo der Server immer nur "404 habsch nich" zurueckliefert. (Wer immer noch daran glaubt moege seine Serverlogs ueberpruefen ob nur existierende Seiten oder auch haufenweise "geratene" URLs abgefragt werden.)

In jedem mir bekannten Fall wo Google eine "geheime" Seite gefunden hat ging das durch einen Link der dann doch irgendwo existiert hat. Matt Cutts hat in seinem Blog AFAIR schon mehrere Beispiele gebracht.
» Antworten

Gravatar
kapet sagt: Alle Kommente anzeigen Profil anzeigen
26. Juli 2008, 12:59 Uhr
Oh, und BTW, der Originaltext sagt "We don't index every one of those trillion pages", mit anderen Worten die Ueberschrift hier passt nicht so recht...
» Antworten

Gravatar
stadtjunge sagt: Alle Kommentare anzeigen
26. Juli 2008, 13:04 Uhr
Hier liegt scheinbar ein Missverständnis vor.

Es geht mir nicht um www.xyz .de/a.html, www.xyz .de/b.html usw. Es ging mir lediglich um die URL. Sollte also xyz.de vorhanden sein, werden die dort aufgeführten Links verfolgt / Inhalte indexiert.

Aber wie einige schon meinten, scheint der Weg über die deNIC & co, der leichteste zu sein.
» Antworten

Gravatar
Jo nee, vorgeschlagen hatte ich die sicher nicht. War nur kleine Seite (einzelne htm) mit vll. 20 Links auf andere Seiten. Und als ich mal nach einem Link davon suchte, tauchte auch meine Mini-Seite auf...hab die auch nirgendwo gepostet oder sonstiges.
» Antworten

Gravatar
winni sagt: Alle Kommente anzeigen Profil anzeigen
26. Juli 2008, 13:44 Uhr
und hier ---> http://www.google.de/intl/de/options/sinds immernoch 8 millionen :D lol
» Antworten

Gravatar
Öhm, bei mir sinds 8 Milliarden... Auch wenn das immmer ncoh viel zu wenig ist ;-)
» Antworten

Gravatar
Was mich am meisten interesieren würde, wann war nun das Update, wann genau, hat es schon alle Seiten durchsucht, und wenn ja, wieviele Backlinks braucht man denn um im Web Sehenswert zu sein?

Habe soeben auch gesehen, dass eine Seite bei Seitwert.de einen SW von 9.91 hat, zudem hat sie keine Backlinks bzw. bei der Haupdomain (.com endung) recht wenige backlinks; weniger als 150, und wenn ich auch meine Homepage anschaue die genausoalt ist, über 450 backlinks hat bei Technische Details (SeitWert) 98% hat, gute Partnerseiten die meistens alle durschnittlich PR von 1 haben, und ich auch bookmarks habe wo diese besagte seite nicht hat, frage ich mich Nartrülich woher kommt das blos?! Und ich muss Nartrülich immernoch auf'm Hosenboden sitzen, meine Homepage verbessern, relavanten inhalt draufbringen und werden nicht schlauer, und bleib bei dem PageRank 0 sitzen.
» Antworten

Gravatar
hmm...
soweit ich weiß muss google sich doch nur in das Netz von großen DNS-Server einhängen und Änderungen überwachen. Sobald dort ein neuer Name auftaucht wird der google Server hellhörig und kann diese Seiten crawlen ;-)

Das würde zumindest erklären, wie eine meiner Seiten in den Index kommt, die ich nur über Subdomains zur Administration verwende. Die Hauptdomain (www.domain.tld) wird nicht verwendet und liefert nur eine Standard-Setup-Seite aus ^^ (--> Apache ist richtig konfiguriert ^^).

Links auf die Seite gibt es keine...
Aber ich denke mal Google wird da mehrere ansatzpunkte haben:
NICs, DNS, Links, etc.
» Antworten

Gravatar
Zitat:
und durchsucht diese in Bruchteilen einer Sekunden auf die Relevanz.

hmm ich hoffe der werte autor denkt nicht wirklich dass bei jeder suchanfrage der komplette index durchsucht wird?!?
» Antworten

Gravatar
### WICHITG: ###
Achja: Eine ganz wichtige Quelle von URLs haben wir vergessen:

Die Google-Toolbar!!!!!!!! Die meldet jede angesurfte Seite, wenn man sie installiert hat. Ebenso der Google Webaccelarator.
» Antworten

Gravatar
kapet sagt: Alle Kommente anzeigen Profil anzeigen
27. Juli 2008, 13:26 Uhr
Klaus: Das wurde schon verschiedentlich vermutet aber bisher immer das Gegenteil festgestellt, siehe z.B. hier:
http://blogoscoped.com/archive/2006-12-10-n75.html

name: Wenn du eine Seite mit Links baust und verwendest wird jedes mal, wenn du dort auf einen Link klickst, die URL deiner Seite an das Ziel des Links als "Referrer" vom Browser mitgeteilt. Diese Information landet im Serverlog und wird gerne in Zugriffsstatistiken (z.B. von "webalizer" oder "AWstats") aufgeschluesselt damit der Webmaster sehen kann "woher" die Besucher kamen. Es ist schon oft passiert das solche Statistiken nicht geschuetzt waren und von den Suchmaschinen gefunden wurden. Mir selbst ist es passiert das auf einer fremden Seite ein Link zu einer meiner persoenlichen Seiten auftauchte ohne das ich den Webmaster der anderen Seite darum gebeten hatte. Er hat halt in seinen Logs gesehen das "viele" Zugriffe von meiner Seite her kamen (weil ich immer den Link dort verwendet habe) und sich gedacht "setz ich halt nen Link zurueck".

Wenn ihr wissen wollt wie Google eine Seite gefunden habt dann verwendet eine "link:URL" Suche, z.B.:
link:www.googlewatchblog.de
Dies findet alle Seiten die auf das Googlewatchblog verlinken.
» Antworten

Gravatar
kapet: Ich persönlich denke aber dennoch, dass Google nicht ganz uneigennützig die Toolbar entwickelt hat. Zwar hat sie auch einen kleine Werbeeffekt, aber man muss in den AGB extra zustimmen, dass die Toolbar bei jedem Pagerank-Check die angesurfte URL (anonymisiert) an Google überträgt und das Unternehmen berechtigt ist, diese Daten weiter zu verarbeiten.

Bei dem von dir verlinkten Experiment war es vlt. ein Fehler, die Seite "so klein" zu machen (nur 1-2 Sätze). Vlt. dachte Google, dass diese Seite nicht einmal in den Index aufgenommen gehört, da sie so wenig Content hat und nur von einem einzigen Toolbar-Benutzer angesurft wird...
» Antworten

Gravatar
stadtjunge sagt: Alle Kommentare anzeigen
27. Juli 2008, 15:58 Uhr
@Klaus
Google programmiert nichts uneigennützig. :)
» Antworten

Gravatar
Google benutzt alle Daten, die sie erhalten. Das sind u.a. die Toolbar, Analytics, Adwords, Adsense, um mal die Google-eigenen Tools zu nennen und darüber hinaus natürlich sämtliche Links die gefunden werden.

Man darf sich aber nichts vormachen, 1 Billion (eigenständige) URLs hat man doch recht schnell zusammen - also jetzt mal im Google-Maßstab gedacht. Ich sehe bei einigen Projekten, dass der Googlebot noch immer URL's zu erreichen versucht, die schon sehr lange nicht mehr exisiteren und 404 oder 301-Header senden. Selbst wenn man Seiten oder Bereiche per Webmaster-Console entfernen lässt, bekommt man hier und da noch entsprechende Besuche. Das "Vergessen" ist also eher ein Problem und damit bläht sich das Verzeichnis der URL's sehr einfach deutlich auf.
» Antworten

Gravatar
Google12345 sagt: Alle Kommente anzeigen Profil anzeigen
01. August 2008, 21:36 Uhr
Welches war denn wohl die 1.(erste) und welches die 1 Billionste Seite im Index?
» Antworten

FeedFeed
Add to Google
Flattr this

Aktivitäten
Soziale Netzwerke
Navigation
Tipps & Tricks!
Mit den Pfeilen (oder j/k) kannst du zwischen Artikeln springen

Mit Shift+D kommst du direkt ins Kommentarfeld
Tools
Search Analytics
Buttons
blogoscoop Blogverzeichnis - Blog Verzeichnis bloggerei.de Contaxe Wikio - Top Blog Blog Top Liste - by TopBlogs.de Trigami Das Team unterstützen