Google n-gram: Der 5-Wörter-Index

Mit so einem gigantischen Index über das komplette Web so wie Google ihn hat kann man natürlich so einiges anfangen. Und damit auch andere in den Genuss dieser Datenflut kommen stellen sie ihren Index teilweise für Forschungs- und Programmierungsprojekte bereit. Genannt wird das ganze dann Google n-gram und kann einzig und allein Sätze mit 5 Wörtern analysieren.

In diesem Index stehen alle Sätze mit 5 Wörtern die jemals im Internet aufgetaucht sind zur Verfügung. Dabei handelt es sich um genau 1.146.580.664 verschiedene Sätze die mindestens 40 mal vorkamen. Wenn man die Anzahl der Vorkommen auf 200 erhöht sind wir immer noch bei 13.653.070 Wörtern. Insgesamt wurden 1.011.582.453.213 Wörter nacheinander ausgewertet. Also kein Pappenstiel diese Datenmengen…

Dieser Index soll in nächster Zeit auf ganzen 6 DVDs zum Kauf angeboten werden. Genutzt werden kann das ganze zur Vervollständigung von Sätzen oder Übersetzungsfunktionen – genau dafür nutzt Google diese Datenmengen auch.

» Ankündigung bei Google Research




Teile diesen Artikel:

Facebook twitter Pocket Pocket