Inside Google: over de werking van een zoekmotor
/4 reacties
‘QDF’ algoritme, ‘hot or not’
In het begin van 2007 heeft het Google Search Quality Team daarom een nieuwe wiskundige formule bedacht die bepaalt wanneer een gebruiker nieuwe informatie zoekt en wanneer niet. Zoals alles bij Google, heeft ook dit een naam: QDF of ‘Query Deserves Freshness’.
Het ‘Query Deserves Freshness’ algoritme bepaalt dus of een onderwerp ‘hot’ is. Als er veel nieuws websites en weblogs in korte tijd over een onderwerp schrijven, krijgt het onderwerp een hoge(re) ‘QDF score’. Ook worden daarnaast uiteraard de miljarden zoekopdrachten in Google geanalyseerd om te bepalen of een onderwerp populair is.
Amit Singhal geeft een treffend voorbeeld voor de noodzaak van de QDF formule. “Als de stroom uitvalt in New York, verschijnen de eerste nieuwsberichten na 15 minuten; Google krijgt zoekopdrachten binnen enkele seconden”. Google biedt (daarom?) sinds kort inzicht in wat ‘hot’ is met Google Hot Trends.
Google Universal Search
Het ‘Query Deserves Freshness’ algoritme past ook goed in de belangrijke stap van Google om andere soorten informatie, zoals nieuws, afbeeldingen en video’s, te integreren in de ‘hoofd’ zoekmachine. Google heeft deze stap vorige maand officieel gelanceerd als Google Universal Search.
De Google Index
Voordat er überhaupt gezocht kan worden in Google, wordt er eerst een gigantische database opgebouwd, de Google Index. In de beginjaren van Google werd er elke 6 tot 8 weken een nieuwe index gebouwd. Op dit moment controleert Google vele pagina’s op dagelijkse basis.
Google heeft vele duizenden computers aan elkaar gekoppeld om de gigantische en hard groeiende Google index op te bouwen. Naast het ranking algoritme heeft Google ook een technologie ontwikkeld om duizenden computers aan elkaar te koppelen zonder verlies van snelheid.
Technologie Google waardevol en zelfs onderscheidend
Deze technologie is zeer waardevol en wellicht zelfs onderscheidend voor Google, omdat er binnen een fractie van een seconde een zoekresultaat kan worden gepresenteerd. Google heeft onlangs een nieuw systeem ontwikkeld wat veel meer data kan bevatten en wat sneller doorzoekbaar is dan wat tot nu toe mogelijk was.
Google PageRank
Een bekend en populair onderdeel van het ranking algoritme is PageRank, een door Google oprichter Larry Page ontwikkelde technologie om de relevantie en kwaliteit van webpagina’s vast te stellen. PageRank wordt uitgedrukt in een cijfer tussen 1 en 10, wat op basis van een logaritmische schaal wordt bepaald. Google hanteert de volgende (vereenvoudigde) uitleg:
In plaats van directe koppelingen te tellen, interpreteert Google een koppeling van pagina A naar pagina B als een ’stem’ van pagina A voor pagina B. Google beoordeelt de relevantie van een pagina door de ontvangen stemmen te tellen.
PageRank bepaalt in feite hoe vaak andere websites naar een bepaalde pagina linken. Websites die populair zijn, en specifiek diegene met een hoge(re) PageRanks, worden beschouwd als websites met een hogere kwaliteit.
´Signals´, de factoren die Google hanteert
Amit Singhal heeft een veel uitgebreider systeem ontwikkeld voor het rangschikken van webpagina’s. Dit ranking algoritme is gebaseerd op meer dan 200 factoren, door Google ’signals’ genoemd. PageRank is slechts één van de vele signals.
Sommige signals komen van webpagina’s, zoals woorden, links, afbeeldingen, etc. Andere factoren zijn gebaseerd op hoe pagina’s in de loop van de tijd zijn veranderd. Andere signals zijn data patronen die opgemaakt worden uit de bijna ontelbare zoekopdrachten die Google over de jaren heen heeft ontvangen.
‘Classifiers’, de formules die Google hanteert
Nadat de ’signals’ van een webpagina zijn geïdentificeerd, worden de ‘classifiers’ aan het werk gezet. Classifiers zijn formules die informatie proberen te achterhalen over de zoekopdracht met het doel om de gebruiker de meest relevante zoekresultaten terug te geven.
Classifiers geven bijvoorbeeld aan of iemand op zoek is naar informatie, of iemand een product wil kopen, of iemand een bedrijf of een persoon zoekt, etc. Ook identificeren classifiers of een zoekopdracht bijvoorbeeld om een merknaam gaat. Google heeft onlangs een nieuwe classifier ontwikkeld die namen achterhaald van mensen die niet beroemd zijn.