Schlagwort-Archive: Google

Kann man die Bedeutung von Wörtern ergoogeln?

Kann man die Bedeutung von Wörtern ergoogeln oder “Normalisierte Google-Distanz”.
Gibt man einen Begriff, beispielsweise “Pferd”, in die Suchmaschine Google ein, erhält etwa 12.300.000 indexierte Seiten (Stand: September 2007). Für einen weiteren Begriff, zum Beispiel “Reiter”, sind es 13.900.000 Seiten. Kombiniert man die Begriffe, werden ca. 1.690.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe “Pferd” und “Bart” werden zwar immer noch 262.000 Seiten aufgeführt, es ist jedoch deutlich, dass “Pferd” und “Reiter” enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD.

Das Beispiel stammt übrigens von Wikipedia Normalisierte Google-Distanz und man findet es auch im unten erwähnten Artikel.

Man definiert folgende Formel für die NGD zweier Begriffe x und y [1]:

Google Distanz

Google Distanz

2005 erschien schon der Artikel “Computer ergooglen die Bedeutung von Worten” und da heißt es:

Holländische Wissenschaftler glauben, mit der “normalisierten Google-Distanz” von Begriffen einer Künstlichen Intelligenz die Bedeutung von Worten automatisch lehren zu können
Wie könnten Computer Sprache lernen und dabei auch die Bedeutung von Worten sowie die Beziehungen zwischen ihnen verstehen? Dieses Problem der Semantik stellt eine gewaltige, bislang nur ansatzweise bewältigte Aufgabe dar, da Worte und Wortverbindungen oft mehrere oder auch viele Bedeutungen haben, die zudem vom außersprachlichen Kontext abhängen. Die beiden holländischen Ein künstliches Bewusstsein aus einfachen Aussagen). Paul Vitanyi und Rudi Cilibrasi vom Nationalen Institut für Mathematik und Informatik in Amsterdam schlagen eine elegante Lösung vor: zum Nachschlagen im Internet, der größten Datenbank, die es gibt, wird einfach Google benutzt…

Weblinks:
Google’s search for meaning
Links dazu auf Wikipedia:
Semantische Nähe
Semantisches Web
Semantik
Künstliche Intelligenz

Das Tor zur Information

Auf Ö1 hörte ich eine interessante Sendung zu Google und Suchmaschinen. Bei der Konferenz “Deep Search” berichteten Wissenschaftler über ihre Erkenntnisse über die Macht von Google.
Lesen sie die Sendung nach auf Das Tor zur Information
Zuerst einmal

Suchmaschinen bilden in der digitalen Welt einen der häufigsten Zugänge zu Informationen. Wer in den Anfängen des Internets auf Seiten oder Dokumente zugreifen wollte, musste deren genaue Adresse wissen. Mit der Entwicklung von Suchmaschinen wurde das Auffinden von Informationen im World Wide Web wesentlich erleichtert.

Das bedeutet aber auch, dass sie mitbestimmen, auf welche Informationen man zugreift, zumindest, wenn man nicht gezielt nach einer Website sucht oder wenn man nicht besonders versiert ist in Suchanfragen.

Schwerpunke waren:

  • Network-Gatekeeper?
  • Suchmaschinen-Optimierung
  • Suchmaschinen-Recht
  • Die Schere im Kopf
  • Die Muster der Suchergebnisse
  • Google ist von der Forschung nicht angetan

Sehr interessante Weblinks dazu:
“Deep Search”
Joris van Hoboken
netzmedium
Govcom.org
A Website is Gone, A Website Returns (911truth.org)
prof.dr. R.A. (Richard) Rogers

Webmaster Guidelines – Google empfiehlt Lynx

Lynx

Bildquelle: Lynx

Das freut mich ganz besonders, weil ich Lynx immer wieder gerne verwende, besonders auch zu dem Zweck, um das zu sehen, was eine Suchmaschine geliefert bekommt. Auch weil er viele nützliche features hat, einigen Mist erst gar nicht lädt, sondern ignoriert und man kann damit sehr schnell und sicher im Internet unterwegs sein.
Vor kurzem hat man mich wegen dieser Empfehlung noch ausgelacht und jetzt finde ich sie zu meiner Freude in den Google Webmaster Richtlinien wieder.
Siehe Webmaster Guidelines. Da liest man unter anderem in dem Absatz Technical guidelines:

Use a text browser such as Lynx to examine your site, because most search engine spiders see your site much as Lynx would. If fancy features such as JavaScript, cookies, session IDs, frames, DHTML, or Flash keep you from seeing all of your site in a text browser, then search engine spiders may have trouble crawling your site.

Ganz ungefährlich ist die Benutzung aber auch wieder nicht, siehe Verhaftet wegen Lynx
… Der gebürtige Londoner hatte bei der Eingabe eines Spendenbetrages für die Opfer der Flutkatastrophe über ein Webinterface der British Telecom Lynx auf Solaris benutzt. Diese Aktion wurde vom Administrator der Website in den Logs des betreffenden Servers entdeckt. Nach Angaben des Berichtes missdeutete der Administrator diesen Zugriffsversuch als »Hackerattacke« und alarmierte die Polizei…. 😉

Weblinks:
Lynx source distribution and potpourri
Webmaster Guidelines
Lynx (Browser) (Wikipedia)

Google Browser Chrome kann ab morgen getestet werden

Der Google Browser Chrome soll ab morgen zum Testen bereit sein.

9/01/2008 02:10:00 PM
At Google, we have a saying: “launch early and iterate.” While this approach is usually limited to our engineers, it apparently applies to our mailroom as well! As you may have read in the blogosphere, we hit “send” a bit early on a comic book introducing our new open source browser, Google Chrome. We will be launching the beta version of Google Chrome tomorrow in more than 100 countries…..

Den Originalartikel lesen A fresh take on the browser
Weitere Information in Englisch finder man hier Chrome

Später soll der Browser mit Gears erweitert werden.

Gears is an open source project that enables more powerful web applications, by adding new features to web browsers. ….

Siehe Gears