Google veröffentlicht teilweise Erklärung des Suchalgorithmus

Google

Der Google Suchalgorithmus ist wohl die Ursache für den Erfolg von Google. Daher hat das bunte US-amerikanische Unternehmen Details zur Funktionsweise unter Verschluss gehalten. Wie Udi Manber, stellvertretender Leiter der Abteilung „Search Quality“, nun auf dem Google Blog schreibt nicht wegen der Konkurrenz sondern um Missbrauch zu unterbinden.

Dennoch gibt Google nun einige Informationen zum Suchalgorithmus preis und erklärt diese auch.
Der Hintergrund für diese Entscheidung sei vor allem Druck durch die Konkurrenz und Kritiker. Daher habe nun die Geheimhaltung des Suchalgorithmus etwas gelockert.

Hier die Übersetzung des Postings:

Search Quality ist der Name unseres Teams, das für das Ranking der Google Ergebnisse verantwortlich ist. Unser Ziel ist klar: Einige hundert millionenmal am Tag geben Menschen bei Google einen Suche auf. Innerhalb von Bruchteilen einer Sekunde muss Google entscheiden welche der Milliarden Webseiten die richtigen sind und in welcher Reihenfolge sie dargestellt werden müssen. Wir machen aber noch mehr – dazu später mehr.

Obwohl sehr viele Menschen die Google Suche nutzen, ist nur sehr wenig über das Ranking bei Google bekannt. Und das ist unserer Absicht. Wir sind recht schweigsam über das was wir tun. Das hat zwei Gründe: Die Konkurrenz und Missbrauch. Der Wettbewerb ist ziemlich eindeutig. Kein Unternehmen will seine Geheimrezepte und Firmengeheimnisse mit der Konkurrenz teilen. Zum Missbrauch: Wenn wir unsere Bewertungsformel öffentlich machen würden, wäre das Spielen mit unsere System leichter. Sicherheit durch Dunkelheit ist nicht die beste Maßnahme, und wir beziehen uns nicht darauf, aber es beugt Missbrauch vor.

Die Details zum Suchalgorithmus sind in vielen Dingen Googles Kronjuwelen. Wir sind sehr stolz auf sie. Schätzungen zufolge waren an der Entwicklung dieser tausende Entwickler und Wissenschafter beteiligt die jahrelang daran gearbeitet haben. Die Frequenz von Innovationen wurde nicht verlangsamt.

Die komplette Geheimhaltung ist nicht ideal und dieser Blogpost ist Teil einer neuen Bemühung sich mehr zu öffnen als in der Vergangenheit.
Wir wollen versuchen in der Zukunft Sie regelmäßig über neue Dinge zu informieren und alte Sachen zu erklären, Tipps zu geben, Nachrichten zu teilen und Gespräche zu eröffnen. Lassen Sie mich mit einigen Allgemeinen Informationen über unserer Gruppe anfangen. Mehr erscheint in weiteren Postings.

Ich sollte mir die Zeit nehmen und mich selbst vorstellen: Mein Name ist Udi Manber und ich bin ein VP of Engineering bei Google, genauer gesagt bei Search Quality. Ich arbeite seit über 2 Jahren für Google und schon seit fast 20 Jahren mit den Suchtechnologien.

Das Herz der Gruppe ist das Team das am innersten arbeitet. Das Ranking ist hart, härter als die meisten Menschen denken. Der Grund: Die Sprache ist schon immer mehrdeutig und wird auch immer mehrdeutig bleiben und Dokumente folgen keinen Regeln. Es gibt keine Standards wie man Informationen vermittelt und daher müssen wir in der Lage sein alle Webseiten zu verstehen – egal wer sie geschrieben hat und aus welchem Grund.
Aber auch die Suchanfragen wollen erst einmal verstanden werden. Die meisten habe weniger als 3 Worte. Nicht zu erwähnen, dass es verschiedene Menschen mit verschiedenen Interessen gibt. All das müssen wir in wenigen Millisekunden tun.

Der bekannteste Teil des Suchalgorithmus ist der PageRank, ein Algorithmus der von den Google Gründern Larry Page and Sergey Brin entwickelt wurde. PageRank wird noch heute verwendet, aber er ist heute der Teil eines großen Systems. Die andere Teile: Sprachmodelle (der Umgang mit Phrasen, Synonymen usw.), Fragemodelle (es ist nicht nur die Sprache, es kommt drauf an wie die Leute sie nutzen), Zeitmodelle (manche Anfragen beantwortet eine 30 Minuten alten Seite besser als eine die schon vor langer Zeit geschrieben wurde und sich bewährt hat), persönliche Modelle (nicht alle Menschen wollen die selben Sachen).

Ein weiteres Team in unserer Grunde ist für die Qualitätsmessung zuständig. Dies erfolgt in vielen verschiedenen Arten, aber das Ziel ist das selbe: Der Verbesserung der Benutzererfahrungen. Das ist nicht das Hauptziel – es ist das einzige Ziel. Jede Minute erfolgen automatische Qualitätskontrollen (um sicherzustellen, dass nichts falsch läuft), regelmäßige Kontrollen unserer gesamten Qualität und, wohl am wichtigsten, die Kontrolle unserer Verbesserungen am Algorithmus. Wenn ein Entwickler eine neue Idee hat und einen neuen Algorithmus bastelt, wird diese Idee gründlich getestet. Statistiker verarbeiten die Daten und beziffern wie hoch die Verbesserung ist. Wir treffen uns einmal in der Woche (manchmal auch zweimal) um über solche Ideen zu sprechen und die Veröffentlichung vorzubereiten. 2007 haben über 450 Verbesserungen veröffentlicht – im Schnitt 9 in der Woche. Einige dieser Updates sind einfach und klar – zum Beispiel kommen wir mit hebräische Abkürzung zurecht (im Hebräischen werden werden Abkürzung durch ein “ vor dem letzten Buchstaben gekennzeichen (IBM -> IB“M). Andere sind sehr kompliziert – bswp. das Update am PageRank aus dem Januar. Die meiste Zeit versuchen wir die Relevanz zu verbessern, aber wir arbeiten auch an der Vereinfachung von Algorithmen. Simple is good.

Die internationale Suche stand in den letzten zwei Jahren im Mittelpunkt. Das bedeutet alle gesprochenen Sprachen, nicht nur die Großen. Letztes Jahr haben wir bspw. große Verbesserungen in Aserbaidschanisch, eine Sprache, die von 8 Millionen Menschen gesprochen wird, gemacht. In den letzten Monaten veröffentlichten wird Rechtschreibprüfungen für Estnisch, Katalanisch, Serbisch, Serbo-Kroatisch, Ukrainisch, Bosnisch, Kroatisch, Lettisch, Tagalog, Slowenisch und Persisch. Durch ein weltweites Netzwerk von Menschen erhalten wir viel Feedback und können so weitere Verbesserungen vornehmen.

Ein anderes Team ist für neue Funktionen und neue User Interfaces zuständig. Ein großartiger Motor ist für ein tolles Auto notwendig, aber nicht ausreichend. Das Auto muss komfortabel und leicht fahrbar sein. Das Google Design ist sehr einfach. Nur sehr wenige unserer Nutzer haben jemals die Google Hilfe zur Suche gelesen und können Google trotzdem nutzen. (Wobei auch die Hilfe ständig verbessert wird und leicht lesbar ist.) Wenn ein neues Feature eingebaut wird, wollen wir sicherstellen, dass es intuitiv wird und von allen genutzt einfach werden kann. Eine der sichtbarsten Änderungen war die universelle Suche im letzten Jahr. Und natürlich am Google Notebook, Custom Search Engines und an iGoogle. Das UI Team wird von Experten unterstützt, die Anwenderstudien durchgeführt haben und neue Features bewerten. Sie reisen durch die Welt und machen sogar Hausbesuche um den Nutzer in seiner gewohnten Umgebung zu studieren (Keine Sorge sie kommen nicht unangemeldet!)

Ein ganzes Team kämpft gegen Webspaming und anderen Missbrauch (Versteckte Texten, Kauderwelsch und anderen Methoden für ein höheres Ranking). Das Team bemerkt SPAM Trends und versucht durch skalierbaren Art und Weisen diese zu bekämpfen, wie alle Teams, erfolgt auch diese Arbeit international. Die Webspam Gruppe tauscht sich mit dem Google Webmaster Central Team aus und erhalten so Erkenntnisse.

Auch gibt es andere Teams für bestimmte Projekte. Unsere Struktur ist aber sehr informell. Neue Projekte starten ständig.

Eines der wichtigsten Dinge zur Suche ist, dass die Nutzer Erwartungen rapide ansteigen. Die Suchanfragen von morgen sich viel schwerer als die von heute. Genau wie das Moore’s Law alle 18 Monate die Verdoppelung der Rechengeschwindigkeit regelt, gibt es ein ungeschriebenes Gesetz, das die Komplexität unserer schwierigsten Anfragen in kurzer Zeit verdoppelt. Das ist zwar unmöglich messbar, aber wir alle fühlen es. Wir wissen, dass wir uns nicht auf den Lorbeeren ausruhen dürfen und weiter hart mit der Herausforderung arbeiten müssen. Wie schon vorhin erwähnt, wollen wir Ihnen auch in den nächsten Monaten weitere Updates an der Suchqualität liefern.

» Google Blog

Teile diesen Artikel: