Crawlbudget

Bron

In de aflevering van Whiteboard Friday van vandaag behandelt Tom een meer geavanceerd SEO-concept: crawlbudget. Google heeft een beperkte hoeveelheid tijd die het bereid is te besteden aan het crawlen van uw site, dus als u problemen ondervindt met indexering, is dit een onderwerp waar u zich zorgen over moet maken.

Foto van het whiteboard waarin het crawlbudget wordt beschreven. Klik op de whiteboard-afbeelding hierboven om een grotere versie in een nieuw tabblad te openen!Videotranscriptie

Fijne vrijdag, Moz-fans, en het onderwerp van vandaag is het crawlbudget. Ik denk dat het de moeite waard is om meteen te zeggen dat dit een wat meer geavanceerd onderwerp is of een onderwerp dat voornamelijk van toepassing is op grotere websites. Ik denk dat zelfs als jij dat niet bent, je hier nog veel van kunt leren in termen van SEO-theorie die tot stand komt als je kijkt naar enkele van de tactieken die je zou kunnen gebruiken of een deel van de diagnostiek die je zou kunnen gebruiken voor een crawl begroting.

Maar in de eigen documentatie van Google stellen ze voor dat je rekening moet houden met het crawlbudget als je meer dan een miljoen pagina's of meer dan 10.000 pagina's hebt die dagelijks worden bijgewerkt. Ik denk dat dat duidelijk een soort harde of willekeurige drempels zijn. Ik zou zeggen dat als je problemen hebt met het indexeren van je site en je pagina's diep op je site hebt die gewoon niet in de index komen die je wilt, of als je problemen hebt met pagina's die niet snel genoeg worden geïndexeerd, dan in een van beide van die gevallen is het crawlbudget een probleem waar u zich zorgen over moet maken.

Wat is crawlbudget? Tekening van een spin die een dollarbiljet vasthoudt.

Dus wat is het crawlbudget eigenlijk? Het crawlbudget verwijst naar de hoeveelheid tijd die Google bereid is te besteden aan het crawlen van een bepaalde site. Hoewel het lijkt alsof Google een soort van almachtige is, hebben ze eindige bronnen en is het web enorm. Ze moeten dus op de een of andere manier prioriteiten stellen en een bepaalde hoeveelheid tijd of middelen toewijzen om een bepaalde website te crawlen.

Nu prioriteren ze op basis van – of zo zeggen ze dat ze prioriteiten stellen op basis van de populariteit van sites bij hun gebruikers en op basis van de versheid van inhoud, omdat Googlebot een soort dorst heeft naar nieuwe, nooit eerder vertoonde URL's.

We gaan het in deze video niet echt hebben over hoe u uw crawlbudget kunt verhogen. We gaan ons concentreren op hoe u het beste gebruik kunt maken van het crawlbudget dat u heeft, wat over het algemeen in ieder geval een gemakkelijkere hendel is om over te halen.

Oorzaken van problemen met het crawlbudget

Dus hoe komen problemen met het crawlbudget eigenlijk tot stand?

facetten

Nu denk ik dat de belangrijkste problemen op sites die kunnen leiden tot problemen met het crawlbudget in de eerste plaats facetten zijn.

Dus je kunt je voorstellen dat we op een e-comm-site een laptops-pagina hebben. We kunnen dat misschien filteren op grootte. Je hebt een 15-inch scherm en 16 gigabyte RAM. Er kunnen daar veel verschillende permutaties zijn die kunnen leiden tot een zeer groot aantal URL's, terwijl we eigenlijk maar één pagina of één categorie hebben zoals we erover denken – de laptops-pagina.

Op dezelfde manier kunnen die vervolgens opnieuw worden geordend om andere URL's te maken die precies hetzelfde doen, maar afzonderlijk moeten worden gecrawld. Evenzo kunnen ze anders worden gesorteerd. Er kan paginering zijn, enzovoort, enzovoort. U kunt dus één categoriepagina hebben die een groot aantal URL's genereert.

Pagina's met zoekresultaten

Een paar andere dingen die vaak voorkomen, zijn zoekresultatenpagina's van een interne site die vaak, vooral als ze gepagineerd zijn, veel verschillende URL's kunnen genereren.

Advertentiepagina's

Pagina's met vermeldingen. Als je gebruikers toestaat hun eigen aanbiedingen of inhoud te uploaden, kan dat na verloop van tijd een enorm aantal URL's worden als je denkt aan een vacaturesite of iets als eBay en het heeft waarschijnlijk een enorm aantal pagina's.

Problemen met crawlbudget oplossen Overzicht van oplossingen voor crawlbudgetproblemen en of ze crawlen, indexeren en PageRank toestaan.

Dus wat zijn enkele van de tools die u kunt gebruiken om deze problemen aan te pakken en het meeste uit uw crawlbudget te halen?

Dus als een basislijn, als we nadenken over hoe een normale URL zich gedraagt met Googlebot, zeggen we: ja, het kan worden gecrawld, ja, het kan worden geïndexeerd en ja, het passeert de PageRank. Dus een URL als deze, als ik hier ergens op mijn site naar link en Google die link volgt en deze pagina's indexeert, hebben deze waarschijnlijk nog steeds de topnavigatie en de sitebrede navigatie erop. Dus de link die daadwerkelijk naar deze pagina's wordt doorgestuurd, zal een soort van gerecyclede ronde zijn. Er zullen wat verliezen zijn als gevolg van verwatering wanneer we door zoveel verschillende pagina's en zoveel verschillende filters linken. Maar uiteindelijk recyclen we dit. Er is geen soort zwart gat verlies van lekkende PageRank.

Robots.txt

Nu, aan het andere uiterste, is de meest extreme soort oplossing voor het crawlen van budget het robots.txt-bestand.

Dus als u een pagina in robots.txt blokkeert, kan deze niet worden gecrawld. Zo mooi, probleem opgelost. Nou, nee, want er zijn hier enkele compromissen. Technisch gezien kunnen sites en pagina's die in robots.txt zijn geblokkeerd, worden geïndexeerd. Soms zie je sites verschijnen of pagina's die verschijnen in de SERP's met deze metabeschrijving kunnen niet worden weergegeven omdat de pagina is geblokkeerd in robots.txt of dit soort berichten.

Dus technisch gezien kunnen ze worden geïndexeerd, maar functioneel zullen ze voor niets of in ieder geval iets effectiefs scoren. Dus ja, een beetje technisch. Ze passeren de PageRank niet. We geven nog steeds PageRank door wanneer we naar een pagina als deze linken. Maar als het vervolgens wordt geblokkeerd in robots.txt, gaat de PageRank niet verder.

Dus we hebben een soort lek en een zwart gat gecreëerd. Dit is dus nogal een hardhandige oplossing, hoewel het gemakkelijk te implementeren is.

Nofollow op linkniveau

Nofollow op linkniveau, dus hiermee bedoel ik dat als we onze links op de hoofdpagina van de laptopcategorie zouden nemen, die naar deze facetten verwijzen, en we intern een nofollow-attribuut op die links zouden plaatsen, dat een aantal voor- en nadelen zou hebben.

Ik denk dat een betere use-case hiervoor eigenlijk meer in het geval van listings zou zijn. Dus stel je voor dat we een website voor tweedehands auto's hebben, waar we miljoenen verschillende soorten productvermeldingen voor tweedehands auto's hebben. Nu willen we niet echt dat Google zijn tijd verspilt aan deze individuele vermeldingen, afhankelijk van de schaal van onze site misschien.

Maar af en toe kan een beroemdheid zijn auto uploaden of iets dergelijks, of een zeer zeldzame auto wordt geüpload en die medialinks begint te krijgen. Dus we willen die pagina in robots.txt niet blokkeren, want dat zijn externe links die we in dat geval zouden verspillen. Dus wat we zouden kunnen doen, is op onze interne links naar die pagina, we zouden de link intern kunnen nofollowen. Dat zou dus betekenen dat het kan worden gecrawld, maar alleen als het wordt gevonden, alleen als Google het op een andere manier vindt, dus via een externe link of iets dergelijks.

Dus we hebben hier een soort tussenwoning. Nu technisch gezien is nofollow tegenwoordig een hint. In mijn ervaring crawlt Google geen pagina's waarnaar alleen wordt gelinkt via een interne nofollow. Als het de pagina op een andere manier vindt, zal het deze uiteraard nog steeds crawlen. Maar over het algemeen kan dit effectief zijn als een manier om het crawlbudget te beperken, of ik moet zeggen efficiënter door het crawlbudget te gebruiken. De pagina kan nog steeds worden geïndexeerd.

Dat is wat we in dat voorbeeld probeerden te bereiken. Het kan nog steeds PageRank passeren. Dat is het andere dat we probeerden te bereiken. Hoewel je nog steeds wat PageRank verliest via deze nofollow-link. Dat telt nog steeds als een link, en dus verlies je wat PageRank die anders in die volglink zou zijn gestopt.

Noindex, nofollow

Noindex en nofollow, dus dit is duidelijk een veel voorkomende oplossing voor pagina's zoals deze op ecomm-sites.

In dit geval kan de pagina nu worden gecrawld. Maar zodra Google op die pagina komt, zal het ontdekken dat het noindex is, en het zal het in de loop van de tijd veel minder crawlen omdat het minder zin heeft om een noindex-pagina te crawlen. Dus nogmaals, we hebben hier een soort tussenhuis.

Het is duidelijk niet te indexeren. Het is noindex. Het passeert PageRank niet naar buiten. PageRank wordt nog steeds doorgegeven aan deze pagina, maar omdat het een nofollow in het hoofdgedeelte heeft, wordt PageRank niet naar buiten doorgegeven. Dit is geen geweldige oplossing. We hebben een aantal compromissen die we hier moesten bereiken om te besparen op het crawlbudget.

Noindex, volg

Dus veel mensen dachten, nou ja, de oplossing daarvoor zou zijn om een noindex follow te gebruiken als een soort van beste van beide. Dus je plaatst een noindex-volgtag in het hoofdgedeelte van een van deze pagina's, en oh ja, iedereen is een winnaar omdat we nog steeds hetzelfde soort crawlvoordeel krijgen. We indexeren dit soort nieuwe dubbele pagina's nog steeds niet, die we niet willen indexeren, maar de PageRank-oplossing is opgelost.

Nou, een paar jaar geleden kwam Google naar buiten en zei: "O, we realiseerden ons dit zelf niet, maar naarmate we deze pagina in de loop van de tijd steeds minder crawlen, zien we de link niet meer en dan zal het min of meer gebeuren." t tellen." Dus ze suggereerden min of meer dat dit niet langer werkte als een manier om PageRank nog steeds te passeren, en dat het uiteindelijk zou worden behandeld als noindex en nofollow. Dus nogmaals, we hebben daar een soort van enigszins gecompromitteerde oplossing.

canoniek

Nu zou het ware beste van alle werelden dan canoniek kunnen zijn. Met de canonieke tag wordt het na verloop van tijd nog steeds wat minder gecrawld, de gecanoniseerde versie, geweldig. Het wordt nog steeds niet geïndexeerd, de gecanoniseerde versie, geweldig, en het passeert nog steeds de PageRank.

Dus dat lijkt me geweldig. Dat lijkt in veel gevallen perfect. Maar dit werkt alleen als de pagina's in de buurt van voldoende duplicaten zijn dat Google bereid is ze als een duplicaat te beschouwen en het canonieke te respecteren. Als ze niet bereid zijn om ze als een duplicaat te beschouwen, moet je misschien teruggaan naar het gebruik van de noindex. Of als je denkt dat er eigenlijk geen reden is voor deze URL om te bestaan, ik weet niet hoe deze verkeerde volgordecombinatie tot stand is gekomen, maar het lijkt vrij zinloos.

301

Ik ga er niet meer naar linken. Maar voor het geval sommige mensen de URL op de een of andere manier nog steeds vinden, kunnen we een 301 gebruiken als een soort economie die uiteindelijk behoorlijk goed zal presteren voor … Ik zou zelfs beter zeggen dan canoniek en noindex om crawlbudget te besparen, omdat Google niet Ik hoef niet eens naar de pagina te kijken in het zeldzame geval dat het het controleert, omdat het gewoon de 301 volgt.

Het gaat ons indexeringsprobleem oplossen en het gaat de PageRank passeren. Maar de afweging hier is natuurlijk dat gebruikers ook geen toegang hebben tot deze URL, dus daar moeten we het mee eens zijn.

Crawlbudgettactieken implementeren

Dus, om dit allemaal af te ronden, hoe zouden we deze tactieken eigenlijk gebruiken? Dus wat zijn de activiteiten die ik zou aanraden als je een crawlbudgetproject wilt hebben?

Een van de minder intuïtieve is snelheid. Zoals ik al eerder zei, wijst Google een hoeveelheid tijd of middelen toe om een bepaalde site te crawlen. Dus als uw site erg snel is, als u lage serverresponstijden heeft, als u lichtgewicht HTML heeft, zullen ze gewoon meer pagina's in dezelfde hoeveelheid tijd doorlopen.

Dus dit contra-intuïtief is een geweldige manier om dit te benaderen. Log-analyse, dit is wat traditioneler. Vaak is het niet intuïtief welke pagina's op uw site of welke parameters uw hele crawlbudget ondermijnen. Log-analyse op grote sites levert vaak verrassende resultaten op, dus dat is iets wat je zou kunnen overwegen. Dan daadwerkelijk gebruik maken van een aantal van deze tools.

Dus overbodige URL's waarvan we denken dat gebruikers ze niet eens hoeven te bekijken, we kunnen 301. Varianten waar gebruikers wel naar moeten kijken, we kunnen kijken naar een canonieke of een noindex-tag. Maar we willen misschien ook vermijden om ernaar te linken in de eerste plaats, zodat we niet een bepaalde mate van PageRank verliezen aan die gecanoniseerde of noindex-varianten door verdunning of door een doodlopende weg.

Robots.txt en nofollow, zoals ik een beetje suggereerde toen ik er doorheen ging, dit zijn tactieken die je heel spaarzaam zou willen gebruiken, omdat ze deze PageRank-doodlopende wegen creëren. Dan tot slot een soort recente of interessantere tip die ik een tijdje terug kreeg van een blogpost van Ollie HG Mason, waarnaar ik waarschijnlijk hieronder zal linken, het blijkt dat als je een sitemap op je site hebt die je alleen gebruikt voor nieuwe of recente URL's, uw recent gewijzigde URL's, en omdat Googlebot zo'n dorst heeft, zoals ik al zei, naar nieuwe inhoud, zullen ze deze sitemap heel vaak gaan crawlen. Je kunt deze tactiek dus een beetje gebruiken om het crawlbudget naar de nieuwe URL's te sturen, welke soort iedereen wint.

Googlebot wil alleen de nieuwe URL's zien. U wilt misschien dat Googlebot alleen de nieuwe URL's ziet. Dus als je een sitemap hebt die alleen dat doel dient, dan wint iedereen, en dat kan best een aardige en gemakkelijke tip zijn om te implementeren. Dus dat is alles. Ik hoop dat je dat nuttig vond. Zo niet, laat me dan gerust je tips of uitdagingen op Twitter weten. Ik ben benieuwd hoe andere mensen dit onderwerp benaderen.

Videotranscriptie door Speechpad.com .