Het geheim van Google is uitgelekt

Picture of Bob Hardus

Bob Hardus

Afgelopen week verspreidde het nieuws over een reeks gelekte documenten, die volgens de geruchten ‘alle’ rankingfactoren van de zoekmachine zouden bevatten, zich als een lopend vuurtje door de searchindustrie.

Duizenden documenten, die afkomstig lijken te zijn van het interne Content API Warehouse van Google, zijn op 13 maart vrijgegeven op developersplatform Github door een geautomatiseerde bot genaamd yoshi-code-bot. Deze documenten werden eerder deze maand gedeeld met SEO-goeroe Rand Fishkin. Hij maakte ze op zijn beurt wereldkundig.

Wat staat er zoal in?

 

Het gaat om in totaal 2596 interne documenten van een Google-API die in totaal 14014 rankingfactoren beschrijven. Dat zijn er zoveel dat het ook zomaar alle zouden kunnen zijn. Maar welke weging er per individuele factor gegeven wordt, wordt niet duidelijk uit het document.

Way, way, way wayback machine: Google bewaart schijnbaar een kopie van elke versie van elke pagina die het ooit heeft geïndexeerd. Dit betekent dat Google zich elke wijziging die ooit op een pagina is aangebracht, kan ‘herinneren’. Google gebruikt echter alleen de laatste 20 wijzigingen van een URL bij het analyseren van links.

PageRank is springlevend: aantal en relevantie van links blijven cruciaal. PageRank (het allereerste en meest elementaire algoritme van de zoekmachine dat sinds 2012 niet meer publiek gedeeld wordt) is nog steeds springlevend binnen de rankingfactoren van Google. Voor de beoordeling van elke individuele webpagina wordt de PageRank van de homepage van een website meegeteld.

Succesvolle clicks zijn belangrijk: als je hoog wilt scoren, doe je er goed aan waardevolle content en gebruikerservaringen creëren. Google gebruikt verschillende metingen voor de waardering van clicks, waaronder badClicks, goodClicks, lastLongestClicks en unsquashedClicks.

Andere belangrijke rankingfactoren die in de documenten naar voren komen zijn ‘freshness’, oftewel hoe recent is je content en ‘locatie’. Zowel de locatie van de gebruiker als de server waarop de website gehost is zijn van invloed op de rankings. Slechte reviews werken in je nadeel en interessant is ook de “title match score”: hoe goed komt de titel van je pagina overeen met de zoekopdracht. 

Hier het verhaal van Rand Fishkin over hoe hij aan de documenten kwam.

Hier een statement van Google waarin zij verklaren dat de documenten echt zijn, maar niet voorzien van de juiste context.

Hoe nu verder?

De meeste SEO-specialisten zijn het erover eens dat de inhoud van de documenten opzienbarend is. Net zoals het beroemde AOL-lek uit 2006 en het Yandex-lek vorig jaar, geven ook deze documenten waardevolle inzichten. Inzichten die bevestigen wat al bekend was en daarom is het niet per definitie wereldschokkend en gamechangend.

Zwanenzang
Gelukkig is het straks – als het aan de EU ligt – gewoon openbare informatie hoe chatbots op basis van de generatieve AI van Large Language Models hun antwoorden formuleren. Want we gebruiken toch allemaal bijna nooit meer een ouderwetse zoekmachine? Of valt dat wel mee? 

Bijna niemand gebruikt generatieve AI in het dagelijks leven, blijkt uit een onderzoek van Reuters Institute en Oxford University op basis van ruim 12000 respondenten in zes landen (Argentinië, Denemarken, Frankrijk, Japan, Groot-Brittannië en de VS). Slechts een handjevol Gen Z’ers en een enkele millennial gebruik de chatbots zoals ChatGPT voor het maken van teksten of beantwoorden van vragen. Generatieve AI de hype voorbij? Algemene adaptatie waarvan verwacht werd dat deze snel zou komen, blijkt nog ver weg. Toch lijkt het slechts een kwestie van tijd.

Meer nieuws & inzichten