
1 Billionen oder eine 1 mit 12 Nullen - 1.000.000.000.000 - ist eine gigantische Zahl. Vor einigen Tagen hat der Google Bot die Billionste unique URL gefunden. Alle Seiten sind nicht in den Index aufgenommen.
Kleiner Rückblick: Der erste Google Index von 1998 hatte 26.000.000 Seiten, 2000 waren es eine Milliarde.
Wie findet der Bot so viele unique Webseiten? Eigentlich ist es ganz einfach. Google lässt den Bot auf einige bekannte Webseiten los und gibt dem Bot den Befehl allen Links zu folgen. Auf den verlinkten Seiten geht der Vorgang wieder von vorne los. So erreicht man sehr schnell viele Seiten.
Google hat sogar mehr als 1 Billion Seiten gefunden, aber nicht alle davon waren einzigartig (unique). Oft gibt es Texte, die über mehrere URL erreichbar sind, aber exakt Wort für Wort gleich sind. Diese wurden für den Meilenstein abgezogen. Täglich kommen einige Milliarden solcher Duplikate hinzu, schreiben Jesse Alpert & Nissan Hajaj auf dem Google Blog.
Bis vor einigen Jahren wurde auf der Startseite die Zahl der indexierten Seiten angezeigt.
» Weiteres im Google Blog
Verfasst von Pascal am 26. Juli 2008, 09:25 Uhr | 3308 mal gelesen
Kategorie: News, Google Search Tags: google-search, geschichte
Kategorie: News, Google Search Tags: google-search, geschichte
25 Kommentare:
| Forum
Ist ja fast nichts ;)
Da sieht man mal aus was das Netz besteht und noch viel mehr... aber mich würde mal interessieren wie viele Bots gibt es ...
» Antworten
Da sieht man mal aus was das Netz besteht und noch viel mehr... aber mich würde mal interessieren wie viele Bots gibt es ...
» Antworten
Lt. einigen Magazinen wird ja geschätzt, dass Google nur ca. 15-20 % des Webs findet.
Doch es hat sich bei vielen fast schon so etabliert, dass alles, was Google nicht findet, fast nicht existiert...
» Antworten
Doch es hat sich bei vielen fast schon so etabliert, dass alles, was Google nicht findet, fast nicht existiert...
» Antworten
Der findet aber auch Seiten die nirgendwo verlinkt sind...frag mich immer noch wie er das geschafft...die grundguten Bots.......
» Antworten
» Antworten
Man kann Webseiten auch Google vorschlagen. Da müssen die nirgends verlinkt sein. Ausprobieren glaube ich eher weniger.
» Antworten
» Antworten
"ausprobieren" wird auch als brute-force bezeichnet und wenn "ausprobieren" über vllt. 8 Stellen hinaus sogar unter beachtung von Sonderzeichen so schnell und easy gehn würde, bräuchtn wir auch keine Passwörter mehr benutzen etc. überleg dir mal, wie viele kombinationen sich bei einer URL, wie der von dieser Seite ergeben
» Antworten
» Antworten
@wwjd66: Du musst allerdings bedenken, wieviele offizielle und vlt. auch jede Menge "geheime" Rechenzentren Google betreibt...
Ich persönlich glaube aber ebenfalls nicht daran, dass Google einfach herumprobiert.
Am einfachsten wäre ja, wenn Google die ganzen Daten von Denic & Co. bekommen würde (bzw. von den größeren Free-(Sub-)Domain-Anbietern).
» Antworten
Ich persönlich glaube aber ebenfalls nicht daran, dass Google einfach herumprobiert.
Am einfachsten wäre ja, wenn Google die ganzen Daten von Denic & Co. bekommen würde (bzw. von den größeren Free-(Sub-)Domain-Anbietern).
» Antworten
Ich habe überlegt. Und nun? Zuerst einmal war es eine Vermutung.
Zum zweiten:
Wir reden hier von keinem Hacker mit zig tausend Server und einer nahezu "unermesslichen" Rechenleistung, sondern einem Unternehmen, welches Webseiten indexiert. Also ist solche eine Methode, auch wenn ich kein Mathematiker bin, durchaus denkbar. Wenn nicht, dann bitte ich um Korrektur.
» Antworten
Zum zweiten:
Zitat:
bräuchten wir auch keine Passwörter mehr benutzen
Wir reden hier von keinem Hacker mit zig tausend Server und einer nahezu "unermesslichen" Rechenleistung, sondern einem Unternehmen, welches Webseiten indexiert. Also ist solche eine Methode, auch wenn ich kein Mathematiker bin, durchaus denkbar. Wenn nicht, dann bitte ich um Korrektur.
» Antworten
Wenn Google mit den NIC, wie z.B. der DENIC zusammenarbeiten würde und sich von denen eine Liste aller registrierten Domains geben lassen würde, könnte so das Deepweb weiter schrumpfen.
Ein weiteres Problem sind ja immernoch Seiten, die erst nach Formulareingabe dynamisch generiert werden, doch hier arbeitet Google bereits dran.
» Antworten
Ein weiteres Problem sind ja immernoch Seiten, die erst nach Formulareingabe dynamisch generiert werden, doch hier arbeitet Google bereits dran.
» Antworten
Google probiert nicht irgendwelche Buchstabenkombinationen durch, zum einen ist die Anzahl moeglicher Kombinationen zu gross zum anderen wuerden Serverbetreiber wohl nicht gluecklich sein in ihren Logs Anfragen des Google Crawlers nach a.html b.html c.html ... z.html aa.html ab.html ac.html ... usw. zu finden wo der Server immer nur "404 habsch nich" zurueckliefert. (Wer immer noch daran glaubt moege seine Serverlogs ueberpruefen ob nur existierende Seiten oder auch haufenweise "geratene" URLs abgefragt werden.)
In jedem mir bekannten Fall wo Google eine "geheime" Seite gefunden hat ging das durch einen Link der dann doch irgendwo existiert hat. Matt Cutts hat in seinem Blog AFAIR schon mehrere Beispiele gebracht.
» Antworten
In jedem mir bekannten Fall wo Google eine "geheime" Seite gefunden hat ging das durch einen Link der dann doch irgendwo existiert hat. Matt Cutts hat in seinem Blog AFAIR schon mehrere Beispiele gebracht.
» Antworten
Oh, und BTW, der Originaltext sagt "We don't index every one of those trillion pages", mit anderen Worten die Ueberschrift hier passt nicht so recht...
» Antworten
» Antworten
Hier liegt scheinbar ein Missverständnis vor.
Es geht mir nicht um www.xyz .de/a.html, www.xyz .de/b.html usw. Es ging mir lediglich um die URL. Sollte also xyz.de vorhanden sein, werden die dort aufgeführten Links verfolgt / Inhalte indexiert.
Aber wie einige schon meinten, scheint der Weg über die deNIC & co, der leichteste zu sein.
» Antworten
Es geht mir nicht um www.xyz .de/a.html, www.xyz .de/b.html usw. Es ging mir lediglich um die URL. Sollte also xyz.de vorhanden sein, werden die dort aufgeführten Links verfolgt / Inhalte indexiert.
Aber wie einige schon meinten, scheint der Weg über die deNIC & co, der leichteste zu sein.
» Antworten
Jo nee, vorgeschlagen hatte ich die sicher nicht. War nur kleine Seite (einzelne htm) mit vll. 20 Links auf andere Seiten. Und als ich mal nach einem Link davon suchte, tauchte auch meine Mini-Seite auf...hab die auch nirgendwo gepostet oder sonstiges.
» Antworten
» Antworten
Was mich am meisten interesieren würde, wann war nun das Update, wann genau, hat es schon alle Seiten durchsucht, und wenn ja, wieviele Backlinks braucht man denn um im Web Sehenswert zu sein?
Habe soeben auch gesehen, dass eine Seite bei Seitwert.de einen SW von 9.91 hat, zudem hat sie keine Backlinks bzw. bei der Haupdomain (.com endung) recht wenige backlinks; weniger als 150, und wenn ich auch meine Homepage anschaue die genausoalt ist, über 450 backlinks hat bei Technische Details (SeitWert) 98% hat, gute Partnerseiten die meistens alle durschnittlich PR von 1 haben, und ich auch bookmarks habe wo diese besagte seite nicht hat, frage ich mich Nartrülich woher kommt das blos?! Und ich muss Nartrülich immernoch auf'm Hosenboden sitzen, meine Homepage verbessern, relavanten inhalt draufbringen und werden nicht schlauer, und bleib bei dem PageRank 0 sitzen.
» Antworten
Habe soeben auch gesehen, dass eine Seite bei Seitwert.de einen SW von 9.91 hat, zudem hat sie keine Backlinks bzw. bei der Haupdomain (.com endung) recht wenige backlinks; weniger als 150, und wenn ich auch meine Homepage anschaue die genausoalt ist, über 450 backlinks hat bei Technische Details (SeitWert) 98% hat, gute Partnerseiten die meistens alle durschnittlich PR von 1 haben, und ich auch bookmarks habe wo diese besagte seite nicht hat, frage ich mich Nartrülich woher kommt das blos?! Und ich muss Nartrülich immernoch auf'm Hosenboden sitzen, meine Homepage verbessern, relavanten inhalt draufbringen und werden nicht schlauer, und bleib bei dem PageRank 0 sitzen.
» Antworten
hmm...
soweit ich weiß muss google sich doch nur in das Netz von großen DNS-Server einhängen und Änderungen überwachen. Sobald dort ein neuer Name auftaucht wird der google Server hellhörig und kann diese Seiten crawlen ;-)
Das würde zumindest erklären, wie eine meiner Seiten in den Index kommt, die ich nur über Subdomains zur Administration verwende. Die Hauptdomain (www.domain.tld) wird nicht verwendet und liefert nur eine Standard-Setup-Seite aus ^^ (--> Apache ist richtig konfiguriert ^^).
Links auf die Seite gibt es keine...
Aber ich denke mal Google wird da mehrere ansatzpunkte haben:
NICs, DNS, Links, etc.
» Antworten
soweit ich weiß muss google sich doch nur in das Netz von großen DNS-Server einhängen und Änderungen überwachen. Sobald dort ein neuer Name auftaucht wird der google Server hellhörig und kann diese Seiten crawlen ;-)
Das würde zumindest erklären, wie eine meiner Seiten in den Index kommt, die ich nur über Subdomains zur Administration verwende. Die Hauptdomain (www.domain.tld) wird nicht verwendet und liefert nur eine Standard-Setup-Seite aus ^^ (--> Apache ist richtig konfiguriert ^^).
Links auf die Seite gibt es keine...
Aber ich denke mal Google wird da mehrere ansatzpunkte haben:
NICs, DNS, Links, etc.
» Antworten
Zitat:
und durchsucht diese in Bruchteilen einer Sekunden auf die Relevanz.
hmm ich hoffe der werte autor denkt nicht wirklich dass bei jeder suchanfrage der komplette index durchsucht wird?!?
» Antworten
### WICHITG: ###
Achja: Eine ganz wichtige Quelle von URLs haben wir vergessen:
Die Google-Toolbar!!!!!!!! Die meldet jede angesurfte Seite, wenn man sie installiert hat. Ebenso der Google Webaccelarator.
» Antworten
Achja: Eine ganz wichtige Quelle von URLs haben wir vergessen:
Die Google-Toolbar!!!!!!!! Die meldet jede angesurfte Seite, wenn man sie installiert hat. Ebenso der Google Webaccelarator.
» Antworten
Klaus: Das wurde schon verschiedentlich vermutet aber bisher immer das Gegenteil festgestellt, siehe z.B. hier:
http://blogoscoped.com/archive/2006-12-10-n75.html
name: Wenn du eine Seite mit Links baust und verwendest wird jedes mal, wenn du dort auf einen Link klickst, die URL deiner Seite an das Ziel des Links als "Referrer" vom Browser mitgeteilt. Diese Information landet im Serverlog und wird gerne in Zugriffsstatistiken (z.B. von "webalizer" oder "AWstats") aufgeschluesselt damit der Webmaster sehen kann "woher" die Besucher kamen. Es ist schon oft passiert das solche Statistiken nicht geschuetzt waren und von den Suchmaschinen gefunden wurden. Mir selbst ist es passiert das auf einer fremden Seite ein Link zu einer meiner persoenlichen Seiten auftauchte ohne das ich den Webmaster der anderen Seite darum gebeten hatte. Er hat halt in seinen Logs gesehen das "viele" Zugriffe von meiner Seite her kamen (weil ich immer den Link dort verwendet habe) und sich gedacht "setz ich halt nen Link zurueck".
Wenn ihr wissen wollt wie Google eine Seite gefunden habt dann verwendet eine "link:URL" Suche, z.B.:
link:www.googlewatchblog.de
Dies findet alle Seiten die auf das Googlewatchblog verlinken.
» Antworten
http://blogoscoped.com/archive/2006-12-10-n75.html
name: Wenn du eine Seite mit Links baust und verwendest wird jedes mal, wenn du dort auf einen Link klickst, die URL deiner Seite an das Ziel des Links als "Referrer" vom Browser mitgeteilt. Diese Information landet im Serverlog und wird gerne in Zugriffsstatistiken (z.B. von "webalizer" oder "AWstats") aufgeschluesselt damit der Webmaster sehen kann "woher" die Besucher kamen. Es ist schon oft passiert das solche Statistiken nicht geschuetzt waren und von den Suchmaschinen gefunden wurden. Mir selbst ist es passiert das auf einer fremden Seite ein Link zu einer meiner persoenlichen Seiten auftauchte ohne das ich den Webmaster der anderen Seite darum gebeten hatte. Er hat halt in seinen Logs gesehen das "viele" Zugriffe von meiner Seite her kamen (weil ich immer den Link dort verwendet habe) und sich gedacht "setz ich halt nen Link zurueck".
Wenn ihr wissen wollt wie Google eine Seite gefunden habt dann verwendet eine "link:URL" Suche, z.B.:
link:www.googlewatchblog.de
Dies findet alle Seiten die auf das Googlewatchblog verlinken.
» Antworten
kapet: Ich persönlich denke aber dennoch, dass Google nicht ganz uneigennützig die Toolbar entwickelt hat. Zwar hat sie auch einen kleine Werbeeffekt, aber man muss in den AGB extra zustimmen, dass die Toolbar bei jedem Pagerank-Check die angesurfte URL (anonymisiert) an Google überträgt und das Unternehmen berechtigt ist, diese Daten weiter zu verarbeiten.
Bei dem von dir verlinkten Experiment war es vlt. ein Fehler, die Seite "so klein" zu machen (nur 1-2 Sätze). Vlt. dachte Google, dass diese Seite nicht einmal in den Index aufgenommen gehört, da sie so wenig Content hat und nur von einem einzigen Toolbar-Benutzer angesurft wird...
» Antworten
Bei dem von dir verlinkten Experiment war es vlt. ein Fehler, die Seite "so klein" zu machen (nur 1-2 Sätze). Vlt. dachte Google, dass diese Seite nicht einmal in den Index aufgenommen gehört, da sie so wenig Content hat und nur von einem einzigen Toolbar-Benutzer angesurft wird...
» Antworten
Google benutzt alle Daten, die sie erhalten. Das sind u.a. die Toolbar, Analytics, Adwords, Adsense, um mal die Google-eigenen Tools zu nennen und darüber hinaus natürlich sämtliche Links die gefunden werden.
Man darf sich aber nichts vormachen, 1 Billion (eigenständige) URLs hat man doch recht schnell zusammen - also jetzt mal im Google-Maßstab gedacht. Ich sehe bei einigen Projekten, dass der Googlebot noch immer URL's zu erreichen versucht, die schon sehr lange nicht mehr exisiteren und 404 oder 301-Header senden. Selbst wenn man Seiten oder Bereiche per Webmaster-Console entfernen lässt, bekommt man hier und da noch entsprechende Besuche. Das "Vergessen" ist also eher ein Problem und damit bläht sich das Verzeichnis der URL's sehr einfach deutlich auf.
» Antworten
Man darf sich aber nichts vormachen, 1 Billion (eigenständige) URLs hat man doch recht schnell zusammen - also jetzt mal im Google-Maßstab gedacht. Ich sehe bei einigen Projekten, dass der Googlebot noch immer URL's zu erreichen versucht, die schon sehr lange nicht mehr exisiteren und 404 oder 301-Header senden. Selbst wenn man Seiten oder Bereiche per Webmaster-Console entfernen lässt, bekommt man hier und da noch entsprechende Besuche. Das "Vergessen" ist also eher ein Problem und damit bläht sich das Verzeichnis der URL's sehr einfach deutlich auf.
» Antworten
Aktivitäten
Tipps & Tricks!
Mit den Pfeilen (oder j/k) kannst du zwischen Artikeln springen
Mit Shift+D kommst du direkt ins Kommentarfeld
Navigation
Content
Google-Suchen




26. Juli 2008, 09:48 Uhr
Kennt jemand die Anzahl von Seiten, die es außerhalb vom Index gibt?
» Antworten