Inside Google: over de werking van een zoekmotor
/4 reacties
‘Topicality’, hoe relevant is een webpagina?
De ’signals’ en ‘classifiers’ berekenen meerdere indicatoren van de relevantie van een webpagina, waaronder de indicator ‘topicality’. De indicator topicality geeft aan hoe relevant een webpagina is ten opzichte van de brede categorie van de zoekopdracht.
Een pagina over bijvoorbeeld een toespraak van president Bush over Darfur vanuit het Witte Huis heeft een hoge ‘topicality score’ voor “Darfur”, lager voor “George Bush” en een lage topicality score voor “Witte Huis”.
Alle indicatoren worden gecombineerd tot een totale score. De 10 webpagina’s met de hoogste totale score verschijnen op de eerste pagina, tenzij er onvoldoende diversiteit in de zoekresultaten is.
“Als je veel verschillende perspectieven heb op één zoekresultaten pagina is dat veek relevanter dan een eenzijdig perspectief”, aldus Matt Cuts. “Als iemand bijvoorbeeld naar product zoekt, is niet onwaarschijnlijk dat je geïnteresseerd bent in een review van het product op een weblog, een pagina van de fabrikant, een website of winkel waar het te koop is en een vergelijkingswebsite”.
Vage omschrijvingen en spelfouten
Alsof het bovenstaande nog niet genoeg is, moet Google ook achterhalen wat mensen bedoelen als ze datgene wat ze zoeken vaag omschrijven of verkeerd spellen. Daartoe heeft Google een systeem gebouwd wat variaties van woorden begrijpt.
Zo heeft Google al lang geleden achterhaald dat mensen die zochten op “Brittany Speers” eigenlijk zochten naar “Britney Spears”. Ook begrijpt Google dat als je zoekt naar “Bill Clinton bio” dat je op zoek bent naar de biografie van Bill Clinton.
Personalisatie zoekresultaten Google
Google gebruikt steeds meer factoren op basis van de (zoek)geschiedenis van individuen. Het doel van Google is om de zoekresultaten aan te passen aan jouw interesses.
Hoe bepaalt Google mijn interesse?
Zoals uitgebreid beschreven staat in het artikel Google zoekgeschiedenis wordt webgeschiedenis (en gevolgen voor zoekresultaten en privacy) bouwt Google een zoekgeschiedenis op.
Google probeert daarmee te achterhalen wat jouw interesses zijn, zodat de zoekresultaten van jouw zoekopdracht specifiek en relevant zijn voor jouw interesses. Uiteraard vereist dit veel informatie en complexe algoritmes, dus er worden slechts kleine stapjes gezet, maar Google werkt er hard aan om de zoekresultaten op individueel niveau te personaliseren.
Google slaat echter GEEN informatie op als je niet bent ingelogd in één van de diensten van Google (naast de standaard informatie die een zoekmachine opslaat, zoals IP adres, datum en tijd, zoekwoorden, etc.).
Bronnen & meer informatie
- Google Keeps Tweaking Its Search Engine
- Insight Into Google’s Search Quality Efforts
- Five things you didn’t know about Google’s search
- Remarkable Openness from Google’s Black Box Thanks to Saul Hansel
- Behind the Scenes of Google Rankings
- Google geeft kijkje in Black Box
- Kijkje in de keuken van Google’s query-optimizerafdeling
De concurrentie een stap voor
Uiteindelijk is het moeilijk om exact te bepalen hoe geavanceerd de technieken van Google zijn, omdat het grootste gedeelte hiervan geheim is. De verschillen in de zoekresultaten tussen de leidende zoekmachines zijn subtiel, maar toch meent search-goeroe Danny Sullivan, oprichter van search marketing blog SearchEngineLand, dat Google de concurrentie een stap voor is.
Yahoo! probeert specifieke formules te maken voor specifieke interesse gebieden, ook wel verticale zoekmachines genoemd, afgebakend voor bijvoorbeeld het onderwerp Reizen of Gezondheid. Microsoft ontwikkelt een techniek om pagina’s te rangschikken op basis van hoe onze hersenen informatie verwerken.
Het systeem van Google met de vele signals en classifiers is gebaseerd op wetenschappelijke literatuur, mede vanwege de academische achtergrond van de oprichters. Google is in staat gebleken om dit verder aan te scherpen en te ontwikkelen met inzet van vele mensen en middelen die geen enkele universiteit zich kan veroorloven.
“Google wordt simpelweg gezien als dè standaard in search”, aldus John Battelle. “Hun geheime saus is hoe ze alle informatie aggregeren. Ze combineren en wegen zeker 1000 factoren mee”. Google engineer Matt Cutts bevestigt dit: “Het runnen van een zoekmachine op een Google-schaal betekent dat je rekening moet houden met vele grote factoren en honderden kleine factoren. Het missen van enkele kleine factoren kan gebruikers irriteren en wellicht aansporen om Google minder vaak te gebruiken”.
Reacties
- Blanka: "Je moet wel met iets page-rank achtigs werken. Wanneer Google..."
- Eduard Blacquière: "Dank voor de toevoeging. Leuk en met name volledi..."
- eds: "Oeps, nu helemaal: Google PageRank van Smashing Magazine"
- eds: "Interessant stukje! Ook interessant (over de PageRank): http://w..."
- Reageer zelf
Reageren via Facebook