Waarom geïndexeerd worden door Google zo moeilijk is

Bron

Elke website is tot op zekere hoogte afhankelijk van Google. Het is simpel: je pagina's worden geïndexeerd door Google, waardoor mensen je kunnen vinden. Zo zouden de zaken moeten gaan.

Dat is echter niet altijd het geval. Veel pagina's worden nooit geïndexeerd door Google .

Als u met een website werkt, vooral een grote, heeft u waarschijnlijk gemerkt dat niet elke pagina op uw website wordt geïndexeerd en dat veel pagina's weken wachten voordat Google ze oppikt.

Verschillende factoren dragen bij aan dit probleem, en veel van hen zijn dezelfde factoren die worden genoemd met betrekking tot rangschikking – inhoudskwaliteit en links zijn twee voorbeelden. Soms zijn deze factoren ook erg complex en technisch. Moderne websites die sterk afhankelijk zijn van nieuwe webtechnologieën, hebben in het verleden notoir te lijden gehad van indexeringsproblemen , en sommige hebben dat nog steeds.

Veel SEO's geloven nog steeds dat het de zeer technische dingen zijn die Google ervan weerhouden inhoud te indexeren, maar dit is een mythe. Hoewel het waar is dat Google uw pagina's mogelijk niet indexeert als u geen consistente technische signalen verzendt over welke pagina's u wilt indexeren of als u onvoldoende crawlbudget heeft, is het net zo belangrijk dat u consistent bent met de kwaliteit van uw inhoud.

De meeste websites, groot of klein, hebben veel inhoud die moet worden geïndexeerd, maar dat niet is. En hoewel zaken als JavaScript het indexeren ingewikkelder maken, kan uw website ernstige indexeringsproblemen ondervinden, zelfs als deze in pure HTML is geschreven. In dit bericht gaan we in op enkele van de meest voorkomende problemen en hoe u deze kunt verhelpen.

Redenen waarom Google uw pagina's niet indexeert

Met behulp van een aangepaste tool voor indexeringscontrole heb ik een groot aantal van de populairste e-commercewinkels in de VS gecontroleerd op indexeringsproblemen. Ik ontdekte dat gemiddeld 15% van hun indexeerbare productpagina's niet op Google te vinden zijn.

Dat resultaat was buitengewoon verrassend. Wat ik vervolgens moest weten, was 'waarom': wat zijn de meest voorkomende redenen waarom Google besluit iets dat technisch gezien moet worden geïndexeerd, niet te indexeren?

Google Search Console rapporteert verschillende statussen voor niet-geïndexeerde pagina's, zoals 'Gecrawld – momenteel niet geïndexeerd' of 'Ontdekt – momenteel niet geïndexeerd'. Hoewel deze informatie niet expliciet helpt om het probleem op te lossen, is het een goede plek om de diagnose te starten.

Belangrijkste problemen met indexeren

Op basis van een groot aantal websites die ik heb verzameld , zijn de meest populaire indexeringsproblemen die door Google Search Console worden gemeld:

1. "Gecrawld – momenteel niet geïndexeerd"

In dit geval heeft Google een pagina bezocht, maar deze niet geïndexeerd.

Op basis van mijn ervaring is dit meestal een probleem met de inhoudskwaliteit. Gezien de e-commerce boom die momenteel plaatsvindt , kunnen we verwachten dat Google kieskeuriger wordt als het gaat om kwaliteit. Dus als u merkt dat uw pagina's "Gecrawld – momenteel niet geïndexeerd" zijn, zorg er dan voor dat de inhoud op die pagina's uniek waardevol is:

  • Gebruik unieke titels, beschrijvingen en teksten op alle indexeerbare pagina's.

  • Vermijd het kopiëren van productbeschrijvingen van externe bronnen.

  • Gebruik canonieke tags om dubbele inhoud te consolideren.

  • Voorkom dat Google delen van uw website van lage kwaliteit crawlt of indexeert door het robots.txt-bestand of de noindex-tag te gebruiken.

Als je geïnteresseerd bent in het onderwerp, raad ik je aan om Chris Long's Crawled — Momenteel niet geïndexeerd: A Coverage Status Guide te lezen .

2. "Ontdekt – momenteel niet geïndexeerd"

Dit is mijn favoriete probleem om mee te werken, omdat het alles kan omvatten, van crawlproblemen tot onvoldoende kwaliteit van de inhoud. Het is een enorm probleem, vooral in het geval van grote e-commerce winkels, en ik heb gezien dat dit van toepassing is op tientallen miljoenen URL's op een enkele website.

Google kan melden dat productpagina's voor e-commerce zijn 'ontdekt – momenteel niet geïndexeerd' vanwege:

  • Een probleem met het crawlbudget : er kunnen te veel URL's in de crawlwachtrij staan en deze kunnen later worden gecrawld en geïndexeerd.

  • Een kwaliteitsprobleem : Google kan denken dat sommige pagina's op dat domein het crawlen niet waard zijn en besluiten ze niet te bezoeken door te zoeken naar een patroon in hun URL.

Om met dit probleem om te gaan, is enige expertise vereist. Als u ontdekt dat uw pagina's "Ontdekt – momenteel niet geïndexeerd" zijn, doet u het volgende:

  1. Bepaal of er patronen zijn van pagina's die in deze categorie vallen. Misschien is het probleem gerelateerd aan een specifieke categorie producten en is de hele categorie niet intern gekoppeld? Of misschien staat een groot deel van de productpagina's in de wachtrij om geïndexeerd te worden?

  2. Optimaliseer uw crawlbudget. Richt u op het spotten van pagina's van lage kwaliteit die Google veel tijd besteedt aan het crawlen. De gebruikelijke verdachten zijn gefilterde categoriepagina's en interne zoekpagina's – deze pagina's kunnen gemakkelijk oplopen tot tientallen miljoenen op een typische e-commercesite. Als Googlebot ze vrijelijk kan crawlen, heeft deze mogelijk niet de middelen om naar de waardevolle dingen op uw website te gaan die in Google zijn geïndexeerd.

Tijdens het webinar "Rendering SEO" gaf Martin Splitt van Google ons een paar hints om het Discovered not indexed-probleem op te lossen. Bekijk het als je meer wilt weten.

3. "Dubbele inhoud"

Dit probleem wordt uitgebreid behandeld door het Moz SEO Learning Center. Ik wil er hier alleen op wijzen dat dubbele inhoud kan worden veroorzaakt door verschillende redenen, zoals:

  • Taalvariaties (bijv. Engelse taal in het VK, de VS of Canada). Als u meerdere versies van dezelfde pagina heeft die op verschillende landen zijn getarget, kunnen sommige van deze pagina's niet-geïndexeerd worden.

  • Dubbele inhoud die door uw concurrenten wordt gebruikt. Dit komt vaak voor in de e-commerce-industrie wanneer meerdere websites dezelfde productbeschrijving gebruiken die door de fabrikant is verstrekt.

Naast het gebruik van rel=canonical, 301-omleidingen of het creëren van unieke inhoud, zou ik me richten op het bieden van unieke waarde voor de gebruikers. Fast-growing-trees.com zou een voorbeeld zijn. In plaats van saaie beschrijvingen en tips over planten en water geven, kun je op de website een gedetailleerde FAQ zien voor veel producten.

Ook kunt u gemakkelijk vergelijkbare producten vergelijken.

Voor veel producten biedt het een FAQ. Ook kan elke klant een gedetailleerde vraag stellen over een plant en het antwoord krijgen van de community.

Hoe u de indexdekking van uw website kunt controleren

U kunt eenvoudig controleren hoeveel pagina's van uw website niet zijn geïndexeerd door het rapport Indexdekking in Google Search Console te openen.

Het eerste waar u naar moet kijken, is het aantal uitgesloten pagina's. Probeer dan een patroon te vinden – welke soorten pagina's worden niet geïndexeerd?

Als u een e-commerce winkel heeft, ziet u hoogstwaarschijnlijk niet-geïndexeerde productpagina's. Hoewel dit altijd een waarschuwingssignaal zou moeten zijn, kunt u niet verwachten dat al uw productpagina's worden geïndexeerd, vooral niet bij een grote website. Een grote e-commerce winkel heeft bijvoorbeeld ongetwijfeld dubbele pagina's en verlopen of niet-voorradige producten. Deze pagina's hebben mogelijk niet de kwaliteit die ze vooraan in de indexeringswachtrij van Google zouden plaatsen (en dat is als Google besluit deze pagina's in de eerste plaats te crawlen).

Bovendien hebben grote e-commercewebsites vaak problemen met het crawlbudget . Ik heb gevallen gezien van e-commerce winkels met meer dan een miljoen producten, terwijl 90% van hen werd geclassificeerd als "Ontdekt – momenteel niet geïndexeerd". Maar als u ziet dat belangrijke pagina's worden uitgesloten van de index van Google, moet u zich grote zorgen maken.

Hoe u de kans vergroot dat Google uw pagina's indexeert

Elke website is anders en kan verschillende indexeringsproblemen hebben. Hier zijn echter enkele van de praktische tips waarmee u uw pagina's kunt laten indexeren:

1. Vermijd de "Soft 404"-signalen

Zorg ervoor dat uw pagina's niets bevatten dat ten onrechte kan duiden op een zachte 404-status. Dit omvat alles van het gebruik van "Niet gevonden" of "Niet beschikbaar" in de kopie tot het nummer "404" in de URL.

2. Gebruik interne links
Intern linken is een van de belangrijkste signalen voor Google dat een bepaalde pagina een belangrijk onderdeel van de website is en het verdient te worden geïndexeerd. Laat geen verweesde pagina's achter in de structuur van uw website en vergeet niet om alle indexeerbare pagina's in uw sitemaps op te nemen.

3. Implementeer een goede crawlstrategie
Laat Google geen rommel op uw website crawlen. Als er te veel bronnen worden besteed aan het crawlen van de minder waardevolle delen van uw domein, kan het te lang duren voordat Google bij de goede dingen komt. Serverlogboekanalyse kan u een volledig beeld geven van wat Googlebot crawlt en hoe u dit kunt optimaliseren.

4. Elimineer inhoud van lage kwaliteit en dubbele inhoud
Elke grote website eindigt uiteindelijk met enkele pagina's die niet geïndexeerd zouden moeten worden. Zorg ervoor dat deze pagina's niet in uw sitemaps terechtkomen en gebruik indien nodig de noindex-tag en het robots.txt-bestand. Als u Google te veel tijd laat besteden aan de slechtste delen van uw site, kan dit de algehele kwaliteit van uw domein onderschatten.

5. Stuur consistente SEO-signalen.
Een veelvoorkomend voorbeeld van het verzenden van inconsistente SEO-signalen naar Google is het wijzigen van canonieke tags met JavaScript. Zoals Martin Splitt van Google al zei tijdens JavaScript SEO Office Hours, weet je nooit zeker wat Google zal doen als je één canonieke tag in de bron-HTML hebt, en een andere nadat je JavaScript hebt weergegeven.

Het web wordt te groot

In de afgelopen jaren heeft Google enorme sprongen gemaakt in het verwerken van JavaScript, waardoor het werk van SEO's eenvoudiger is geworden. Tegenwoordig is het minder gebruikelijk om JavaScript-aangedreven websites te zien die niet zijn geïndexeerd vanwege de specifieke technische stapel die ze gebruiken.

Maar kunnen we verwachten dat hetzelfde zal gebeuren met de indexeringsproblemen die geen verband houden met JavaScript? Ik denk het niet.

Het internet groeit voortdurend. Elke dag verschijnen er nieuwe websites, en bestaande websites groeien.

Kan Google deze uitdaging aan?

Deze vraag komt af en toe voor. Ik citeer graag Google hier:

“Google heeft een eindig aantal bronnen, dus wanneer Googlebot wordt geconfronteerd met de bijna oneindige hoeveelheid inhoud die online beschikbaar is, kan hij slechts een percentage van die inhoud vinden en crawlen. Van de inhoud die we hebben gecrawld, kunnen we slechts een deel indexeren.​”

Anders gezegd, Google kan slechts een deel van alle pagina's op internet bezoeken en een nog kleiner deel indexeren. En zelfs als uw website geweldig is, moet u daar rekening mee houden.

Google zal waarschijnlijk niet elke pagina van uw website bezoeken, ook al is deze relatief klein. Het is jouw taak ervoor te zorgen dat Google pagina's kan ontdekken en indexeren die essentieel zijn voor je bedrijf.